CN110489568B - 生成事件图的方法、装置、存储介质和电子设备 - Google Patents

生成事件图的方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN110489568B
CN110489568B CN201910791500.4A CN201910791500A CN110489568B CN 110489568 B CN110489568 B CN 110489568B CN 201910791500 A CN201910791500 A CN 201910791500A CN 110489568 B CN110489568 B CN 110489568B
Authority
CN
China
Prior art keywords
event
feature data
target
weight
characteristic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910791500.4A
Other languages
English (en)
Other versions
CN110489568A (zh
Inventor
蒋松辰
马威
沐广武
邵纪东
丁思远
李家琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910791500.4A priority Critical patent/CN110489568B/zh
Publication of CN110489568A publication Critical patent/CN110489568A/zh
Application granted granted Critical
Publication of CN110489568B publication Critical patent/CN110489568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种生成事件图的方法、装置、存储介质和电子设备,以解决相关技术中事件图生成过程需要持续地人力介入,且事件图准确度低的技术问题,该方法包括:获取检测到的每个事件对应的特征数据;根据每两个特征数据的相关度和共现关系,以及每个特征数据的稀有度,从多个特征数据中确定包含至少两个无法独立表征事件的弱特征数据的特征数据组以及特征数据组的权重;以每个事件为事件节点,根据每个事件对应的特征数据组的权重和强特征数据的权重,在多个事件节点之间建立目标边,以生成事件图。能够对事件的特征数据进行聚类和权重计算,进而根据权重确定事件对应的事件图,在减小事件图生成过程的人力成本的同时,提高事件图的准确度。

Description

生成事件图的方法、装置、存储介质和电子设备
技术领域
本公开涉及信息管理领域,具体地,涉及一种生成事件图的方法、装置、存储介质和电子设备。
背景技术
目前,随着互联网的普及以及生活方式的多元化,互联网逐渐成为人们进行交易或通讯的一个主要交互平台。而由于网络交互平台的特性,容易出现恶意刷单、地址盗用或者地址转移等异常事件,造成经济诈骗或者隐私泄露的问题,极大的影响了网络交互平台的安全性。在对这些异常事件进行检测的过程中,通常需要为一段时间的内发生的所有事件构造一个能够反映所有事件之间的关联性的图。再根据生成的图进行社区划分、异常社区识别以及异常原因分析的工作。
发明内容
本公开的主要目的是提供一种生成事件图的方法、装置、存储介质和电子设备,以解决相关技术中事件图生成过程需要持续地人力介入,且事件图准确度低的技术问题。
为了实现上述目的,本公开第一方面提供一种生成事件图的方法,所述方法包括:
获取检测到的多个事件中每个事件对应的特征数据;
根据每两个所述特征数据的相关度和共现关系,以及每个所述特征数据的稀有度,从多个所述特征数据中确定用于表征事件的特征数据组以及每个所述特征数据组对应的权重,所述特征数据组包含至少两个无法独立表征事件的弱特征数据;
以所述每个事件为事件节点,根据所述每个事件对应的特征数据组的权重和所述每个事件对应的强特征数据的权重,在多个所述事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成所述多个事件的事件图,所述强特征数据为多个所述特征数据中能够独立表征事件的特征数据。
可选的,所述根据每两个所述特征数据的相关度和共现关系,以及每个所述特征数据的稀有度,从多个所述特征数据中确定用于表征事件的特征数据组以及每个所述特征数据组对应的权重,包括:
针对于任意两个第一特征数据,获取用于表征所述两个第一特征数据的相关度的目标相关系数以及用于表征所述两个第一特征数据针对于事件的共现关系的目标共现矩阵,所述第一特征数据为多个所述特征数据中的任一特征数据;
获取所述两个第一特征数据中任一第一特征数据的目标稀有度;
将所述目标相关系数、所述目标共现矩阵以及所述目标稀有度作为预先设定的权重计算公式的输入,以获取所述权重计算公式输出的所述两个第一特征数据对应的目标权重;
若所述目标权重大于预先设定的权重阈值,则确定所述两个第一特征数据为弱特征数据;
将所述两个第一特征数据作为用于表征与所述两个第一特征数据相关的事件的目标特征数据组,并将所述目标权重作为所述目标特征数据组的权重。
可选的,所述以所述每个事件为事件节点,根据所述每个事件对应的特征数据组的权重和所述每个事件对应的强特征数据的权重,在多个所述事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成所述多个事件的事件图,包括:
若两个目标事件节点都对应于一个或多个目标特征数据组,则获取每个所述目标特征数据组对应的第一权重,所述目标事件节点为多个所述事件节点中的任一事件节点;
若所述两个目标事件节点都对应于一个或多个目标强特征数据,获取每个所述目标强特征数据对应的第二权重,以获取所述两个目标事件节点对应的一个或多个第二权重;
通过预设设定的权重融合算法,对一个或多个所述第一权重和一个或多个所述第二权重进行融合,以将融合后的权重作为用于表征所述两个目标事件节点之间的关联度的第三权重;
在所述两个目标事件节点之间建立附带所述第三权重的所述目标边,以生成所述事件图。
可选的,在所述以所述每个事件为事件节点,根据所述每个事件对应的特征数据组的权重和所述每个事件对应的强特征数据的权重,在多个所述事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成所述多个事件对应的事件图之前,所述方法还包括:
根据每个所述特征数据的出现概率和概率密度,从多个所述特征数据中确定所述强特征数据以及每个所述强特征数据对应的权重。
可选的,所述根据每个所述特征数据的出现概率和概率密度,从多个所述特征数据中确定所述强特征数据以及每个所述强特征数据对应的权重,包括:
获取用于表征第二特征数据的出现概率的目标信息熵,所述第二特征数据为多个所述特征数据中的任一特征数据;
获取用于表征所述第二特征数据的概率密度的目标累积分布函数值;
若所述信息熵大于预设的信息熵阈值,并且所述目标累积分布函数值小于预设的累积分布函数阈值,则确定所述第二特征数据为用于表征与所述第二特征数据相关的事件的目标强特征数据;
将预先设定的强特征数据对应的权重作为所述目标强特征数据的权重。
可选的,在所述以所述每个事件为事件节点,根据所述每个事件对应的特征数据组的权重和所述每个事件对应的强特征数据的权重,在多个所述事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成所述多个事件对应的事件图之后,所述方法还包括:
确定所述事件图中的异常事件节点;
根据每个所述异常事件节点对应的特征数据组和强特征数据,确定每个所述异常事件节点对应的异常事件的异常原因。
本公开第二方面提供一种生成事件图的装置,所述装置包括:
特征获取模块,用于获取检测到的多个事件中每个事件对应的特征数据;
特征组确定模块,用于根据每两个所述特征数据的相关度和共现关系,以及每个所述特征数据的稀有度,从多个所述特征数据中确定用于表征事件的特征数据组以及每个所述特征数据组对应的权重,所述特征数据组包含至少两个无法独立表征事件的弱特征数据;
事件图建立模块,用于以所述每个事件为事件节点,根据所述每个事件对应的特征数据组的权重和所述每个事件对应的强特征数据的权重,在多个所述事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成所述多个事件的事件图,所述强特征数据为多个所述特征数据中能够独立表征事件的特征数据。
可选的,所述特征组确定模块,用于:
针对于任意两个第一特征数据,获取用于表征所述两个第一特征数据的相关度的目标相关系数以及用于表征所述两个第一特征数据针对于事件的共现关系的目标共现矩阵,所述第一特征数据为多个所述特征数据中的任一特征数据;
获取所述两个第一特征数据中任一第一特征数据的目标稀有度;
将所述目标相关系数、所述目标共现矩阵以及所述目标稀有度作为预先设定的权重计算公式的输入,以获取所述权重计算公式输出的所述两个第一特征数据对应的目标权重;
若所述目标权重大于预先设定的权重阈值,则确定所述两个第一特征数据为弱特征数据;
将所述两个第一特征数据作为用于表征与所述两个第一特征数据相关的事件的目标特征数据组,并将所述目标权重作为所述目标特征数据组的权重。
可选的,所述事件图建立模块,用于:
若两个目标事件节点都对应于一个或多个目标特征数据组,则获取每个所述目标特征数据组对应的第一权重,所述目标事件节点为多个所述事件节点中的任一事件节点;
若所述两个目标事件节点都对应于一个或多个目标强特征数据,获取每个所述目标强特征数据对应的第二权重,以获取所述两个目标事件节点对应的一个或多个第二权重;
通过预设设定的权重融合算法,对一个或多个所述第一权重和一个或多个所述第二权重进行融合,以将融合后的权重作为用于表征所述两个目标事件节点之间的关联度的第三权重;
在所述两个目标事件节点之间建立附带所述第三权重的所述目标边,以生成所述事件图。
可选的,所述装置还包括:
强特征确定模块,用于根据每个所述特征数据的出现概率和概率密度,从多个所述特征数据中确定所述强特征数据以及每个所述强特征数据对应的权重。
可选的,所述强特征确定模块,用于:
获取用于表征第二特征数据的出现概率的目标信息熵,所述第二特征数据为多个所述特征数据中的任一特征数据;
获取用于表征所述第二特征数据的概率密度的目标累积分布函数值;
若所述信息熵大于预设的信息熵阈值,并且所述目标累积分布函数值小于预设的累积分布函数阈值,则确定所述第二特征数据为用于表征与所述第二特征数据相关的事件的目标强特征数据;
将预先设定的强特征数据对应的权重作为所述目标强特征数据的权重。
可选的,所述装置还包括:
异常节点确定模块,用于确定所述事件图中的异常事件节点;
异常原因确定模块,用于根据每个所述异常事件节点对应的特征数据组和强特征数据,确定每个所述异常事件节点对应的异常事件的异常原因。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的生成事件图的方法的步骤。
本公开第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面所述的生成事件图的方法的步骤。
采用本公开提供的技术方案,至少可以达到如下技术效果:
获取检测到的多个事件中每个事件对应的特征数据;根据每两个该特征数据的相关度和共现关系,以及每个特征数据的稀有度,从多个特征数据中确定用于表征事件的特征数据组以及每个特征数据组对应的权重,该特征数据组包含至少两个无法独立表征事件的弱特征数据;以上述每个事件为事件节点,根据上述每个事件对应的特征数据组的权重和上述每个事件对应的强特征数据的权重,在多个事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成该多个事件的事件图,该强特征数据为多个特征数据中能够独立表征事件的特征数据。能够对事件的特征数据进行聚类和权重计算,进而根据权重确定事件对应的事件图,在减小事件图生成过程的人力成本的同时,提高事件图的准确度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种生成事件图的方法的流程图;
图2是根据图1示出的一种权重确定方法的流程图;
图3是根据图1示出的一种生成事件图的方法的流程图;
图4是根据图1示出的另一种生成事件图的方法的流程图;
图5是根据图4示出的另一种权重确定方法的流程图;
图6是根据图4示出的又一种生成事件图的方法的流程图;
图7是根据一示例性实施例示出的一种生成事件图的装置的框图;
图8是根据图7示出的另一种生成事件图的装置的框图;
图9是根据图8示出的又一种生成事件图的装置的框图;
图10是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
在相关技术中,对于事件图的生成方法,主要为收集事件相关的特征数据,再根据专业人员的经验筛选出能够独立地表征事件的特性的特征数据(可称为强特征数据)。进而根据这些强特征数据确定所有事件之间的关联度,以生成附带权重的边。再通过这些边将所有事件对应的节点连接起来,以生成能够反映事件之间的关联性的事件图。但是,该方案是通过人工经验对能够表征事件的特征数据进行判定,需要持续的人力介入,成本较高。并且,对于具备新的异常特性的事件,根据人工经验很难识别出能够表征其异常特性的特征数据,因而造成事件图准确度低的问题。而在后续的异常事件识别过程中,准确度较低的事件图很容易导致异常事件被忽略,进而降低异常事件识别的效率。
发明人注意到这一问题,提出了一种新的生成事件图的方法,具体如下:
图1是根据一示例性实施例示出的一种生成事件图的方法的流程图,如图1所示,该方法包括以下步骤:
步骤101,获取检测到的多个事件中每个事件对应的特征数据。
示例地,上述特征数据可以为服务器根据接收到的客户端上报的预设时间内的设备数据和环境信息生成的,能够在一定程度上表征客户端中发生的业务事件(即上述多个事件)的特征数据。当服务器在一段时间内检测到多个事件后,可以从客户端对应的日志中获取到的每个事件的最近N天内的特征数据。
步骤102,根据每两个该特征数据的相关度和共现关系,以及每个特征数据的稀有度,从多个特征数据中确定用于表征事件的特征数据组以及每个特征数据组对应的权重。
其中,该特征数据组包含至少两个无法独立表征事件的弱特征数据。
示例地,在实际操作中,每个事件对应有多个特征数据,这些特征数据中包含能够独立表征事件的弱特征数据,以及无法独立表征事件的弱特征数据,可以根据每两个该特征数据的相关度和共现关系,以及每个特征数据的稀有度,从多个特征数据中筛选出符合要求的弱特征数据。并且,需要说明的是,虽然弱特征数据无法独立表征事件,但是将通过一定方式筛选出的两个或两个以上的弱特征数据的组合(即特征数据组)则可以表征事件。并且,还可以通过上述的相关度、共现关系和稀有度确定每个特征数据组对应的权重。
步骤103,以上述每个事件为事件节点,根据上述每个事件对应的特征数据组的权重和上述每个事件对应的强特征数据的权重,在多个事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成该多个事件的事件图。
其中,该强特征数据为多个特征数据中能够独立表征事件的特征数据。
示例地,在事件图的构建过程中,可以将每个事件理解为一个包含多个特征数据的集合,每个集合中包含多个特征数据被聚类为一个或多个特征数据组或被判定为一个或多个强特征数据。如此,当将每个事件看作一个节点时,如果两个事件对应的集合中包含相同的特征数据组和/或强特征数据,那么就在这两个事件对应的事件节点之间建立一条或多条边,对这一条或多条边的权重(上述的相同的特征数据组和/或强特征数据的权重)进行融合即可以获取到通过所附带的权重表征关联度的目标边。对每两个事件节点进行上述的边的建立和融合的过程,既可以生成该事件图。
综上所述,本公开的实施例所提供的技术方案,能够获取检测到的多个事件中每个事件对应的特征数据;根据每两个该特征数据的相关度和共现关系,以及每个特征数据的稀有度,从多个特征数据中确定用于表征事件的特征数据组以及每个特征数据组对应的权重,该特征数据组包含至少两个无法独立表征事件的弱特征数据;以上述每个事件为事件节点,根据上述每个事件对应的特征数据组的权重和上述每个事件对应的强特征数据的权重,在多个事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成该多个事件的事件图,该强特征数据为多个特征数据中能够独立表征事件的特征数据。能够对事件的特征数据进行聚类和权重计算,进而根据权重确定事件对应的事件图,在减小事件图生成过程的人力成本的同时,提高事件图的准确度。
图2是根据图1示出的一种权重确定方法的流程图,如图2所示,该步骤102包括以下步骤:
步骤1021,针对于任意两个第一特征数据,获取用于表征上述两个第一特征数据的相关度的目标相关系数以及用于表征上述两个第一特征数据针对于事件的共现关系的目标共现矩阵。
其中,该第一特征数据为每个事件对应的多个特征数据中的任一特征数据。
步骤1022,获取上述两个第一特征数据中任一第一特征数据的目标稀有度。
步骤1023,将该目标相关系数、该目标共现矩阵以及该目标稀有度作为预先设定的权重计算公式的输入,以获取该权重计算公式输出的上述两个第一特征数据对应的目标权重。
示例地,该权重计算公式可以表示为下列公式(1):
Figure BDA0002179681210000101
其中,u和v为上述的两个第一特征数据,Wb(u,v)为u和v这两个第一特征数据对应的目标权重,δ为两个第一特征数据中任一第一特征数据的目标稀有度(公式1中以特征数据v的稀有度为例),A(u,v)为用于表征上述两个第一特征数据针对于事件的共现关系的目标共现矩阵,R(u,v)为用于表征上述两个第一特征数据的相关度的目标相关系数。
步骤1024,若该目标权重大于预先设定的权重阈值,则确定上述两个第一特征数据为弱特征数据。
步骤1025,将上述两个第一特征数据作为用于表征与上述两个第一特征数据相关的事件的目标特征数据组,并将该目标权重作为该目标特征数据组的权重。
示例地,若两个第一特征数据对应的权重大于权重阈值,则可以认为两个第一特征数据虽然都为弱特征数据,但是可以通过两个第一特征数据的组合表征与上述两个第一特征数据相关的事件,即,得到用于表征与上述两个第一特征数据相关的事件的目标特征数据组。需要说明的是,特征数据组还可以包含两个以上的弱特征数据,将两个弱特征数据划分为同一特征数据组后,可以以该特征数据组作为独立的特征数据(上述的第一特征数据),再通过上述步骤1021-1025进行结合,进而获得包含两个以上的弱特征数据的特征数据组。可以对上述多个特征数据中任意两个第一特征数据进行上述的权重计算和筛选步骤,直至任意两个第一特征数据对应的目标权重都小于预先设定的权重阈值,以完成所有特征数据的分组聚类。
图3是根据图1示出的一种生成事件图的方法的流程图,如图3所示,该步骤103包括以下步骤:
步骤1031,若两个目标事件节点都对应于一个或多个目标特征数据组,获取每个目标特征数据组对应的第一权重。
其中,该目标事件节点为多个事件节点中的任一事件节点。
步骤1032,若上述两个目标事件节点都对应于一个或多个目标强特征数据,获取每个目标强特征数据对应的第二权重。
步骤1033,通过预设设定的权重融合算法,对一个或多个第一权重和/或一个或多个第二权重进行融合,以将融合后的权重作为用于表征上述两个目标事件节点之间的关联度的第三权重。
步骤1034,在上述两个目标事件节点之间建立附带该第三权重的该目标边,以生成该事件图。
示例地,以事件A和事件B为例,事件A和事件B对应的特征数据集合都包含,特征数据组1、特征数据组2和强特征数据3,同时,可以确定该特征数据组1的权重为x、特征数据组2的权重为y和强特征数据3为z(即计算出了3条附带权重的边)。如此,可以通过上述的权重融合算法对x、y和z这三个权重进行融合,以获得第三权重q(即将3条附带权重的边融合为一条附带权重q的目标边)。在通过上述步骤在多个事件中的每两个事件之间建立目标边之后,即可以生成多个事件对应的事件图。
图4是根据图1示出的另一种生成事件图的方法的流程图,如图4所示,在该步骤103之前,该方法包括以下步骤:
步骤104,根据每个特征数据的出现概率和概率密度,从多个特征数据中确定该强特征数据以及每个强特征数据对应的权重。
图5是根据图4示出的另一种权重确定方法的流程图,如图5所示,该步骤104包括以下步骤:
步骤1041,获取用于表征第二特征数据的出现概率的目标信息熵。
其中,该第二特征数据为多个特征数据中的任一特征数据。
步骤1042,获取用于表征该第二特征数据的概率密度的目标累积分布函数值。
步骤1043,若该信息熵大于预设的信息熵阈值,并且该目标累积分布函数值小于预设的累积分布函数阈值,则确定该第二特征数据为用于表征与该第二特征数据相关的事件的目标强特征数据。
步骤1044,将预先设定的强特征数据对应的权重作为该目标强特征数据的权重。
示例地,在构建该事件图之前,还需要计算每个事件对应的强特征数据的权重。当特征数据的信息熵和立即分布函数值同时满足条件时,将该特征数据为强特征数据。需要说明的是,可以根据业务需要将每个强特征数据的权重设定为固定的(并且相同的)权重值,例如,1,并将该固定的权重值作为通过上述步骤1041-1043确定的目标强特征数据的权重。
图6是根据图4示出的又一种生成事件图的方法的流程图,如图6所示,该方法包括以下步骤:
步骤105,确定该事件图中的异常事件节点。
步骤106,根据每个异常事件节点对应的特征数据组和强特征数据,确定每个异常事件节点对应的异常事件的异常原因。
示例地,在完成该事件图的构造过程之后,可以通过LPA(Label PropagationAlgorithm,标签传播算法)或者Louvian社区发现算法等确定该事件图中的异常事件节点或者包含异常事件节点的社区(实际为识别异常事件节点并进行聚类的过程),进而通过社区过滤方式确定其中的异常事件社区。之后通过社区中每个异常事件节点对应的特征数据组和强特征数据确定每个异常事件节点对应的异常事件的异常原因。
综上所述,本公开的实施例所提供的技术方案,能够获取检测到的多个事件中每个事件对应的特征数据;根据每两个该特征数据的相关度和共现关系,以及每个特征数据的稀有度,从多个特征数据中确定用于表征事件的特征数据组以及每个特征数据组对应的权重,该特征数据组包含至少两个无法独立表征事件的弱特征数据;以上述每个事件为事件节点,根据上述每个事件对应的特征数据组的权重和上述每个事件对应的强特征数据的权重,在多个事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成该多个事件的事件图,该强特征数据为多个特征数据中能够独立表征事件的特征数据。能够对事件的特征数据进行聚类和权重计算,进而根据权重确定事件对应的事件图,进而通过该事件图进行异常事件和异常原因的分析,在减小事件图生成过程的人力成本的同时,提高事件图的准确度,进而提高异常事件识别的效率。
图7是根据一示例性实施例示出的一种生成事件图的装置的框图,如图7所示,该装置700包括:
特征获取模块710,用于获取检测到的多个事件中每个事件对应的特征数据;
特征组确定模块720,用于根据每两个该特征数据的相关度和共现关系,以及每个特征数据的稀有度,从多个特征数据中确定用于表征事件的特征数据组以及每个特征数据组对应的权重,该特征数据组包含至少两个无法独立表征事件的弱特征数据;
事件图建立模块730,用于以上述每个事件为事件节点,根据上述每个事件对应的特征数据组的权重和上述每个事件对应的强特征数据的权重,在多个事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成该多个事件的事件图,该强特征数据为多个特征数据中能够独立表征事件的特征数据。
可选的,该特征组确定模块720,用于:
针对于任意两个第一特征数据,获取用于表征上述两个第一特征数据的相关度的目标相关系数以及用于表征上述两个第一特征数据针对于事件的共现关系的目标共现矩阵,该第一特征数据为多个特征数据中的任一特征数据;
获取上述两个第一特征数据中任一第一特征数据的目标稀有度;
将该目标相关系数、该目标共现矩阵以及该目标稀有度作为预先设定的权重计算公式的输入,以获取该权重计算公式输出的上述两个第一特征数据对应的目标权重;
若该目标权重大于预先设定的权重阈值,则确定上述两个第一特征数据为弱特征数据;
将上述两个第一特征数据作为用于表征与上述两个第一特征数据相关的事件的目标特征数据组,并将该目标权重作为该目标特征数据组的权重。
可选的,该事件图建立模块730,用于:
若两个目标事件节点都对应于一个或多个目标特征数据组,则获取每个目标特征数据组对应的第一权重,该目标事件节点为多个事件节点中的任一事件节点;
若上述两个目标事件节点都对应于一个或多个目标强特征数据,获取每个目标强特征数据对应的第二权重;
通过预设设定的权重融合算法,对一个或多个第一权重和一个或多个第二权重进行融合,以将融合后的权重作为用于表征上述两个目标事件节点之间的关联度的第三权重;
在上述两个目标事件节点之间建立附带该第三权重的该目标边,以生成该事件图。
图8是根据图7示出的另一种生成事件图的装置的框图,如图8所示,该装置700包括:
强特征确定模块740,用于根据每个特征数据的出现概率和概率密度,从多个特征数据中确定该强特征数据以及每个强特征数据对应的权重。
可选的,该强特征确定模块740,用于:
获取用于表征第二特征数据的出现概率的目标信息熵,该第二特征数据为多个特征数据中的任一特征数据;
获取用于表征该第二特征数据的概率密度的目标累积分布函数值;
若该信息熵大于预设的信息熵阈值,并且该目标累积分布函数值小于预设的累积分布函数阈值,则确定该第二特征数据为用于表征与该第二特征数据相关的事件的目标强特征数据;
将预先设定的强特征数据对应的权重作为该目标强特征数据的权重。
图9是根据图8示出的又一种生成事件图的装置的框图,如图9所示,该装置700包括:
异常节点确定模块750,用于确定该事件图中的异常事件节点;
异常原因确定模块760,用于根据每个异常事件节点对应的特征数据组和强特征数据,确定每个异常事件节点对应的异常事件的异常原因。
综上所述,本公开的实施例所提供的技术方案,能够获取检测到的多个事件中每个事件对应的特征数据;根据每两个该特征数据的相关度和共现关系,以及每个特征数据的稀有度,从多个特征数据中确定用于表征事件的特征数据组以及每个特征数据组对应的权重,该特征数据组包含至少两个无法独立表征事件的弱特征数据;以上述每个事件为事件节点,根据上述每个事件对应的特征数据组的权重和上述每个事件对应的强特征数据的权重,在多个事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成该多个事件的事件图,该强特征数据为多个特征数据中能够独立表征事件的特征数据。能够对事件的特征数据进行聚类和权重计算,进而根据权重确定事件对应的事件图,进而通过该事件图进行异常事件和异常原因的分析,在减小事件图生成过程的人力成本的同时,提高事件图的准确度,进而提高异常事件识别的效率。
示例地,图10是根据一示例性实施例示出的一种电子设备1000的框图。参照图10,电子设备1000包括处理器1001,其数量可以为一个或多个,以及存储器1002,用于存储可由处理器1001执行的计算机程序。存储器1002中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1001可以被配置为执行该计算机程序,以执行上述的生成事件图的方法。
另外,电子设备1000还可以包括电源组件1003和通信组件1004,该电源组件1003可以被配置为执行电子设备1000的电源管理,该通信组件1004可以被配置为实现电子设备800的通信,例如,有线或无线通信。此外,该电子设备1000还可以包括输入/输出(I/O)接口1005。电子设备1000可以操作基于存储在存储器1002的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的生成事件图的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1002,上述程序指令可由电子设备1000的处理器1001执行以完成上述的生成事件图的方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

Claims (10)

1.一种生成事件图的方法,其特征在于,所述方法包括:
获取检测到的多个事件中每个事件对应的特征数据,所述特征数据为服务器根据接收到的客户端上报的预设时间内的设备数据和环境信息生成的,用于表征所述客户端中发生的所述多个事件,所述事件包括交易事件或者通讯事件;
根据每两个所述特征数据的相关度和共现关系,以及每个所述特征数据的稀有度,从多个所述特征数据中确定用于表征事件的特征数据组以及每个所述特征数据组对应的权重,所述特征数据组包含至少两个无法独立表征事件的弱特征数据;
以所述每个事件为事件节点,根据所述每个事件对应的特征数据组的权重和所述每个事件对应的强特征数据的权重,在多个所述事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成所述多个事件的事件图,所述强特征数据为多个所述特征数据中能够独立表征事件的特征数据。
2.根据权利要求1所述的方法,其特征在于,所述根据每两个所述特征数据的相关度和共现关系,以及每个所述特征数据的稀有度,从多个所述特征数据中确定用于表征事件的特征数据组以及每个所述特征数据组对应的权重,包括:
针对于任意两个第一特征数据,获取用于表征所述两个第一特征数据的相关度的目标相关系数以及用于表征所述两个第一特征数据针对于事件的共现关系的目标共现矩阵,所述第一特征数据为多个所述特征数据中的任一特征数据;
获取所述两个第一特征数据中任一第一特征数据的目标稀有度;
将所述目标相关系数、所述目标共现矩阵以及所述目标稀有度作为预先设定的权重计算公式的输入,以获取所述权重计算公式输出的所述两个第一特征数据对应的目标权重;
若所述目标权重大于预先设定的权重阈值,则确定所述两个第一特征数据为弱特征数据;
将所述两个第一特征数据作为用于表征与所述两个第一特征数据相关的事件的目标特征数据组,并将所述目标权重作为所述目标特征数据组的权重。
3.根据权利要求1所述的方法,其特征在于,所述以所述每个事件为事件节点,根据所述每个事件对应的特征数据组的权重和所述每个事件对应的强特征数据的权重,在多个所述事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成所述多个事件的事件图,包括:
若两个目标事件节点都对应于一个或多个目标特征数据组,获取每个所述目标特征数据组对应的第一权重,所述目标事件节点为多个所述事件节点中的任一事件节点;
若所述两个目标事件节点都对应于一个或多个目标强特征数据,获取每个所述目标强特征数据对应的第二权重;
通过预设设定的权重融合算法,对一个或多个所述第一权重和/或一个或多个所述第二权重进行融合,以将融合后的权重作为用于表征所述两个目标事件节点之间的关联度的第三权重;
在所述两个目标事件节点之间建立附带所述第三权重的所述目标边,以生成所述事件图。
4.根据权利要求1所述的方法,其特征在于,在所述以所述每个事件为事件节点,根据所述每个事件对应的特征数据组的权重和所述每个事件对应的强特征数据的权重,在多个所述事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成所述多个事件对应的事件图之前,所述方法还包括:
根据每个所述特征数据的出现概率和概率密度,从多个所述特征数据中确定所述强特征数据以及每个所述强特征数据对应的权重。
5.根据权利要求4所述的方法,其特征在于,所述根据每个所述特征数据的出现概率和概率密度,从多个所述特征数据中确定所述强特征数据以及每个所述强特征数据对应的权重,包括:
获取用于表征第二特征数据的出现概率的目标信息熵,所述第二特征数据为多个所述特征数据中的任一特征数据;
获取用于表征所述第二特征数据的概率密度的目标累积分布函数值;
若所述信息熵大于预设的信息熵阈值,并且所述目标累积分布函数值小于预设的累积分布函数阈值,则确定所述第二特征数据为用于表征与所述第二特征数据相关的事件的目标强特征数据;
将预先设定的强特征数据对应的权重作为所述目标强特征数据的权重。
6.根据权利要求1所述的方法,其特征在于,在所述以所述每个事件为事件节点,根据所述每个事件对应的特征数据组的权重和所述每个事件对应的强特征数据的权重,在多个所述事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成所述多个事件对应的事件图之后,所述方法还包括:
确定所述事件图中的异常事件节点;
根据每个所述异常事件节点对应的特征数据组和强特征数据,确定每个所述异常事件节点对应的异常事件的异常原因。
7.一种生成事件图的装置,其特征在于,所述装置包括:
特征获取模块,用于获取检测到的多个事件中每个事件对应的特征数据,所述特征数据为服务器根据接收到的客户端上报的预设时间内的设备数据和环境信息生成的,用于表征所述客户端中发生的所述多个事件,所述事件包括交易事件或者通讯事件;
特征组确定模块,用于根据每两个所述特征数据的相关度和共现关系,以及每个所述特征数据的稀有度,从多个所述特征数据中确定用于表征事件的特征数据组以及每个所述特征数据组对应的权重,所述特征数据组包含至少两个无法独立表征事件的弱特征数据;
事件图建立模块,用于以所述每个事件为事件节点,根据所述每个事件对应的特征数据组的权重和所述每个事件对应的强特征数据的权重,在多个所述事件节点之间建立用于表征每两个事件之间的关联度的目标边,以生成所述多个事件的事件图,所述强特征数据为多个所述特征数据中能够独立表征事件的特征数据。
8.根据权利要求7所述的装置,其特征在于,所述特征组确定模块,用于:
针对于任意两个第一特征数据,获取用于表征所述两个第一特征数据的相关度的目标相关系数以及用于表征所述两个第一特征数据针对于事件的共现关系的目标共现矩阵,所述第一特征数据为多个所述特征数据中的任一特征数据;
获取所述两个第一特征数据中任一第一特征数据的目标稀有度;
将所述目标相关系数、所述目标共现矩阵以及所述目标稀有度作为预先设定的权重计算公式的输入,以获取所述权重计算公式输出的所述两个第一特征数据对应的目标权重;
若所述目标权重大于预先设定的权重阈值,则确定所述两个第一特征数据为弱特征数据;
将所述两个第一特征数据作为用于表征与所述两个第一特征数据相关的事件的目标特征数据组,并将所述目标权重作为所述目标特征数据组的权重。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6中任一项所述的生成事件图的方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至6中任一项所述生成事件图的方法的步骤。
CN201910791500.4A 2019-08-26 2019-08-26 生成事件图的方法、装置、存储介质和电子设备 Active CN110489568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910791500.4A CN110489568B (zh) 2019-08-26 2019-08-26 生成事件图的方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910791500.4A CN110489568B (zh) 2019-08-26 2019-08-26 生成事件图的方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN110489568A CN110489568A (zh) 2019-11-22
CN110489568B true CN110489568B (zh) 2021-07-23

Family

ID=68553409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910791500.4A Active CN110489568B (zh) 2019-08-26 2019-08-26 生成事件图的方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110489568B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995110A (zh) * 2019-12-17 2021-06-18 深信服科技股份有限公司 一种恶意事件信息的获取方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255385A (zh) * 2018-09-07 2019-01-22 陈包容 一种自动创建多层次事件和场景图谱特征的方法、装置及其应用
CN109614500A (zh) * 2018-11-15 2019-04-12 陈包容 一种自动创建多层次事件和场景图谱特征的方法、装置及其应用
CN109977237A (zh) * 2019-05-27 2019-07-05 南京擎盾信息科技有限公司 一种面向法律领域的动态法律事件图谱构建方法
CN110046260A (zh) * 2019-04-16 2019-07-23 广州大学 一种基于知识图谱的暗网话题发现方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160042621A1 (en) * 2014-06-13 2016-02-11 William Daylesford Hogg Video Motion Detection Method and Alert Management

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255385A (zh) * 2018-09-07 2019-01-22 陈包容 一种自动创建多层次事件和场景图谱特征的方法、装置及其应用
CN109614500A (zh) * 2018-11-15 2019-04-12 陈包容 一种自动创建多层次事件和场景图谱特征的方法、装置及其应用
CN110046260A (zh) * 2019-04-16 2019-07-23 广州大学 一种基于知识图谱的暗网话题发现方法和系统
CN109977237A (zh) * 2019-05-27 2019-07-05 南京擎盾信息科技有限公司 一种面向法律领域的动态法律事件图谱构建方法

Also Published As

Publication number Publication date
CN110489568A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN107169768B (zh) 异常交易数据的获取方法和装置
CN108446692B (zh) 人脸比对方法、装置和系统
CN106034149B (zh) 一种账户识别方法及装置
CN111355697B (zh) 僵尸网络域名家族的检测方法、装置、设备及存储介质
CN110881050A (zh) 安全威胁检测方法及相关产品
CN110166344B (zh) 一种身份标识识别方法、装置以及相关设备
CN111641619B (zh) 一种基于大数据构建黑客画像的方法、装置和计算机设备
CN112291272B (zh) 网络威胁检测方法、装置、设备及计算机可读存储介质
CN106302104A (zh) 一种用户关系识别方法及装置
JP2019101672A (ja) サイバー攻撃情報処理プログラム、サイバー攻撃情報処理方法および情報処理装置
CN113900598A (zh) 基于区块链的数据存储方法、装置、设备以及存储介质
CN110489568B (zh) 生成事件图的方法、装置、存储介质和电子设备
CN112100452B (zh) 数据处理的方法、装置、设备及计算机可读存储介质
CN115204889A (zh) 文本处理方法、装置、计算机设备及存储介质
CN113935034A (zh) 基于图神经网络的恶意代码家族分类方法、装置和存储介质
CN110457600B (zh) 查找目标群体的方法、装置、存储介质和计算机设备
CN114091016A (zh) 异常性检测的方法、设备和计算机程序产品
CN111767571B (zh) 一种医疗数据泄露的检测方法
CN110909288B (zh) 业务数据处理方法、装置、平台、业务端、系统及介质
CN111800409A (zh) 接口攻击检测方法及装置
CN112288528A (zh) 恶意社群发现方法、装置、计算机设备和可读存储介质
CN105279282A (zh) 一种身份关系数据库的生成方法及装置
CN110738571A (zh) 一种交易风险控制的方法以及相关装置
CN110719260B (zh) 智能网络安全分析方法、装置及计算机可读存储介质
CN112560992B (zh) 优化图片分类模型的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant