CN113157922B - 基于图的网络实体行为评估、可视化方法 - Google Patents

基于图的网络实体行为评估、可视化方法 Download PDF

Info

Publication number
CN113157922B
CN113157922B CN202110465627.4A CN202110465627A CN113157922B CN 113157922 B CN113157922 B CN 113157922B CN 202110465627 A CN202110465627 A CN 202110465627A CN 113157922 B CN113157922 B CN 113157922B
Authority
CN
China
Prior art keywords
vertex
entity
graph
community
top point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110465627.4A
Other languages
English (en)
Other versions
CN113157922A (zh
Inventor
翟欣虎
秦益飞
杨正权
常官清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yianlian Network Technology Co ltd
Original Assignee
Jiangsu Yianlian Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Yianlian Network Technology Co ltd filed Critical Jiangsu Yianlian Network Technology Co ltd
Priority to CN202110465627.4A priority Critical patent/CN113157922B/zh
Publication of CN113157922A publication Critical patent/CN113157922A/zh
Application granted granted Critical
Publication of CN113157922B publication Critical patent/CN113157922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了一种基于图的网络实体行为评估、可视化方法,其中所述方法,同时在采用多个指标综合评估的基础上,改进了通过人工设置经验权重这种不太合理的方法,充分利用了图其关联关系的特性,并融入了更多特异性的特征,可以更加全面准确的对实体进行评估,在图中筛选并展现出更合理的网络实体及其关联关系并进行可视化展示。

Description

基于图的网络实体行为评估、可视化方法
技术领域
本申请涉及区块链技术领域,特别是涉及基于图的网络实体行为评估、可 视化方法。
背景技术
图是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式 化地描述。现在基于图的存储计算已被广泛用于各种大规模的知识库。从实现角度来说,图 是结构化的语义知识库,以符号形式描述物理世界中的概念及其相互关系。其基本组成单位 是“实体-关系-实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构 成网状的知识结构。现阶段在各个领域都有广泛的应用,例如:信息检索/搜索,自然语言 理解,问答系统,推荐系统,社交类业务等。通过图的方式可以更好的展示实体之间的关系。
互联网上的各类数据以图的方式存储则可以更清晰直观的展现各个实体的 行为以及实体间的关系。一种典型的场景是,当用户产生登录运营商服务器, 访问互联网网站,下载文件等行为时,以及运营商内部一些资产服务器上的应 用自动访问互联网用于软件更新,一些监控服务对其他资产服务器进行安全扫 描等等。运营商都会记录下这些行为日志并进行相应的分析审计。通常的行为 日志内容表述如下:
A用户-在某个时间-登录了-a应用
B用户-在某个时间-访问了-b网站
C用户-在某个时间-下载了-c文件
A设备-在某个时间-连接了-a服务
B应用-在某个时间-扫描了-C设备
上述日志条目中,头尾两端的字段为网络实体(用户,设备,应用等), 中间的字段为关系(登录,访问,下载,连接,扫描等),时间属性则作为实 体或关系的属性值。将这些行为日志以图的形式表现通常如图4所示,在图4 中使用图的形式展现网络实体行为关系更为清晰直观,但存在的问题是当网络 规模变大,网络中实体数量大幅增加时,例如实体数量达到数以千计万计时, 如此庞大的数量以图的形式展现将变的无法适应,审计人员无法从千万个节点 以及千万条边中找出需要关注最有价值的数据。所以采用图的形式展现,和传 统数据表形式展现相比同样需要一套数据的评估排序筛选的方法,以找出最有 价值的数据。
从庞大的图数据集中找出更有价值的数据用于呈现有一些方法,比较常见 的一种是在图中为每个实体计算若干项评估指标,例如该实体的最后更新时间, 该实体出现的次数,该实体关联关系数等。审计人员从若干项指标中人工选择 需要关注的按数值大小按升序或降序排列,最终筛选出topN项实体及其关联关 系。
进一步出现了上述方法的改进方法,在计算出每个实体的若干项评估指标 的基础上,给每种指标赋一个经验权重值,再计算所有指标的加权平均值,审 计人员直接按最终的加权平均值的数值大小升序或降序排列实体,同样最终列 出topN项实体及其关联关系。
针对上述例举的现有方法中的第一种,最大的弊端是通过单个指标的排序 并不能完整的评价某个实体的真实情况,并且这种单一维度的评价方法本质上 和采用图表方式的存储并无本质区别,并不能很好的发挥出图其关联关系特性。
针对上述例举的现有方法的改进方法,该方法虽然通过多个指标对实体做 了多维度的综合评估,但其对每种指标权重的选择完全基于人工经验,而这种 基于经验确定的权重值并不能保证其合理性,不合理的权重值会导致某几项指 标在计算加权平均后完全失去了效果,影响最终的评估结果。
综上,针对现有技术中的网络实体行为评估方法存在的上述问题,目前尚 未得到有效的解决方案。
发明内容
本申请实施例提供了基于图的网络实体行为评估、可视化方法,和上述两 种现有方法相比较,本发明所述的方法避免了通过单个指标对实体评估的单一 性,同时在采用多个指标综合评估的基础上,改进了通过人工设置经验权重这 种不太合理的方法,充分利用了图其关联关系的特性,并融入了更多特异性的 特征,采用一种基于动态指标的评估方法,可以更加全面准确的对实体进行评 估,在图中筛选并展现出更合理的网络实体及其关联关系。
第一方面,本申请实施例提供了一种基于图的网络实体行为评估方法,包 括以下步骤:将获取到的多个实体的行为日志进行图谱构建处理,得到知识图 谱;通过社群划分算法在知识图谱中生成至少一社群,获取每一社群的顶点数, 基于顶点数将社群分类成单实体社群以及多实体社群;获取多实体社群中每一 顶点的属性信息,将属性信息作为输入特征对多实体社群进行密度聚类,根据 预设聚类参数,得到多实体社群下的正常类簇、噪声类簇;将属性信息作为输 入特征对正常类簇进行局部离群点检测,根据预设离群检测参数,得到正常类 簇下的正常点、离群点;将噪声类簇中的顶点、正常类簇中的离群点作为一类 顶点,将正常类簇中的正常点作为二类顶点,将单实体社群中的顶点作为三类 顶点,设定一类顶点的评估值为1,二类节点的评估值为(1/所在社群数量/所 在类簇中正常点的数量),三类顶点评估值为0,计算社群中顶点的评估值。
第二方面,本申请实施例提供了一种基于图的网络实体行为评估的可视化 方法,根据第一方面所述的社群中顶点的评估值在可视化上为顶点指定相应的 呈现方式。
第三方面,本申请实施例提供了一种基于图的网络实体行为评估装置,包 括:知识图谱构建模块,用于将获取到的多个实体的行为日志进行图谱构建处 理,得到知识图谱;社群生成模块,用于通过社群划分算法在知识图谱中生成 至少一社群,获取每一社群的顶点数,基于顶点数将社群分类成单实体社群以 及多实体社群;多实体社群聚类模块,用于获取多实体社群中每一顶点的属性 信息,将属性信息作为输入特征对多实体社群进行密度聚类,根据预设聚类参 数,得到多实体社群下的正常类簇、噪声类簇;局部离群点检测模块,用于将 属性信息作为输入特征对正常类簇进行局部离群点检测,根据预设离群检测参 数,得到正常类簇下的正常点、离群点;评估值计算模块,用于将噪声类簇中 的顶点、正常类簇中的离群点作为一类顶点,将正常类簇中的正常点作为二类 顶点,将单实体社群中的顶点作为三类顶点,设定一类顶点的评估值为1,二类 节点的评估值为(1/所在社群数量/所在类簇中正常点的数量),三类顶点评估 值为0,计算社群中顶点的评估值。
第四方面,本申请提出了一种计算机设备,所述计算机设备包括一个或多 个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序 代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如第 一方面所述的基于图的网络实体行为评估方法所执行的操作和/或如第二方面 所述的基于图的网络实体行为评估的可视化方法。
第五方面,本申请提出了一种存储介质,所述存储介质中存储有计算机程 序,其中,所述计算机程序被设置为运行时第一方面所述的基于图的网络实体 行为评估和/或第二方面所述的基于图的网络实体行为评估的可视化方法。
本发明的主要贡献和创新点如下:
本方案提出了一种基于图的网络实体行为评估方法,通过多个维度对网络 实体进行评估,相比于人工选择单一维度的评估,评估结果更全面。
同时本发明所述方法基于预选出的实际时间范围的数据,对网络实体动态 计算多个维度权重的相对比例而不是固定不变的比例值,评估结果的准确性更 高。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请 的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分, 本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限 定。在附图中:
图1是本申请实施例的基于图的网络实体行为评估方法的流程图;
图2是根据本申请实施例的基于图的网络实体行为评估装置的结构框图;
图3是根据本申请实施例的电子装置的硬件结构示意图;
图4是本发明背景技术提到的行为日志关系图谱的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描 述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例 相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本 说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序 来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本 说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实 施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在 其他实施例中也可能被合并为单个步骤进行描述。
实施例一
图1是根据本申请实施例的基于图的网络实体行为评估方法的流程图,如 图1所述,所述方法包括以下步骤S101至S105:
步骤S101,将获取到的多个实体的行为日志进行图谱构建处理,得到知识 图谱。
在其中一可行实施例中,“将获取到的多个实体的行为日志进行图谱构建 处理,得到知识图谱”包括:获取预设时间内的行为日志,从每一行为日志中 获取实体、作用对象实体作为顶点,获取行为作为边,生成知识图谱。
在本实施例中,首先需获取指定时间范围内运营商服务器所产生的各种行 为日志,时间范围长短是由审计人员自行决定,本发明装置不做要求。获取日 志的方式没有特定的要求,例如可以通过将日志作为消息逐条发送给本发明的 装置,也可以通过将一段时间的若干条日志以文件的方式传送到本发明装置。
在本实施例中,以用户Tom在2020.08.01 12:23:45下载了名叫Manual的 pdf文件这条行为日志为例,将“Tom”和“Manual.pdf”作为图的顶点,此次 的“下载”行为作为从顶点“Tom”到顶点“Manual.pdf”的有向边。如此处理 所有的行为日志,那么就构成了一个复杂的有向图。图上的每个顶点应该都有 1-N条相连接的边,同理也就拥有1-N个相邻的顶点。顶点的关键字是指顶点的 唯一标识,任何一顶点都有相邻的顶点,若相邻的顶点属于该顶点,则将他们 分为一组,这一组的标识就可以规定为该顶点的关键字。示例性的,用户A分 别访问了五个网站,在图中可以得出六个顶点,以及五条边。这五个网站表示 的顶点自身也有唯一标识作为关键字,但因为他们是同一个用户访问的,这五 个网站的顶点和用户顶点组成了一个组,该组的标识可以以用户的唯一标识作 为关键字。
在本步骤中,获取通常的行为日志内容,表述为:头尾两端的字段分别为 实体、作用对象实体,中间字段为联系实体与作用对象实体的行为,如登录、 访问、下载、连接、扫描等,对行为日志进行图谱构建处理得到实体-行为-作 用对象实体的关系结构。再将实体-行为-作用对象实体的关系结构进行处理, 生成知识图谱。
步骤S102,通过社群划分算法在知识图谱中生成至少一社群,获取每一社 群的顶点数,基于顶点数将社群分类成单实体社群以及多实体社群。
在本步骤中,查找知识图谱中所有社群的方法可以是常规的如标签传播算 法(LPA),重叠社群检测算法(SLPA),平衡多标签传播算法(BMLPA)等。
每一社群可以理解为相互连通的顶点的集合,在社群里的顶点间都有关联, 划分社群的目的是将图中的所有顶点分成不同的群体,每一群体中的顶点相互 有关联关系。
在一个群体中的顶点,虽然有关联关系,但并不代表他们是同一类顶点, 例如,公司组成架构中的员工和老板、研发部门和行政部门等,虽然在一个群 体中,但不是同一类顶点。因此通过聚类方式将特征相似的顶点聚集在一起, 表示他们为同一类顶点。
查找出所有社群后记录下每一社群中的顶点数,将顶点数小于等于2的社 群作为单实体社群,表示该社群下的顶点(实体)与其他群体毫无交互,因此 为最不活跃的顶点,或者是最普通的顶点。
将顶点数大于2的社群作为多实体社群,表示该社群下的顶点(实体)存 在与其他群体交互的记录,对于该类顶点,需要进一步计算及评估其活跃程度, 或者是异常程度。
步骤S103,获取多实体社群中每一顶点的属性信息,将属性信息作为输入 特征对多实体社群进行密度聚类,根据预设聚类参数,得到多实体社群下的正 常类簇、噪声类簇。
在本步骤中,属性信息用于表示该顶点与知识图谱中其他顶点之间的关联 关系。例如,属性信息包括图计算相关指标,其中,图计算相关指标包括顶点 的点度中心性、接近中心性、中介中心性。在本方案中,图计算相关指标指的 是图本身带有的指标,任何能由图表示的业务数据,都能用图计算相关指标来 计算关联关系。例如,节点a的上述指标是(4,3,5,0,6),节点b的上述指标是 (2,5,3,0,4),计算这2个数组的相关系数或者欧式距离,如果有100个节点, 那么就两两计算这100个节点的相关系数或欧式距离,再设定一个阈值,所有 计算结果符合该阈值则认为是同一类。
在其他一可行实施例中,属性信息包括网络实体相关特异性指标,其中, 网络实体相关特异性指标包括顶点全天出现频率分布率、顶点在预设时间内出 现的无序程度、顶点相关请求的流量速率、顶点相关请求上下行流量倒置率、 顶点相关请求持续时长均值、该顶点主动发起请求和被动接收请求数的比率。
具体地,网络实体相关特异性指标计算方式如下:
顶点全天出现概率分布:计算该顶点每个小时段出现次数/总的出现次数, 可得出24维出现频率数组,再算出所有顶点整体的24维出现频率数组,计算 两个数组间的相关系数,即该顶点和整个群体的偏离程度,计算结果作为该指 标的量化值。
顶点出现无序程度:计算一段时间内该顶点每次出现的时间间隔,将所有 时间间隔离散化,这样每个时间间隔必然归属于某一个离散区间内,计算每种 离散区间出现次数/所有离散区间出现次数,计算后的一系列概率值作为计算最 大熵的入参,最大熵结果即为该顶点的无序程度量化值。
顶点相关请求流量速率:统计包含该顶点的所有请求中的上下行总流量值/ 时间范围。
顶点相关请求上下限流量倒置率:统计包含该顶点的上行请求流量值/下行 请求流量值。
顶点相关请求持续时长均值:统计包含该顶点所有请求的持续时长的均值, 即从发起请求到收到应答的时间间隔的均值。
顶点主动发起请求数和被动接收请求数的比率:如果一个请求的发起方是 该顶点,则认为该请求是该顶点主动发起,反之则认为该请求是备动接收。计 算两者数量的比率。
由上述所说的任何能由图表示的业务数据,都能用图计算相关指标来计算 关联关系,因此仅采用图计算相关指标并不能反映出不同行业、不同业务数据 的特点,聚类后的效果不够好。
示例性的,下面将具体说明采用本方案提出的将图计算相关指标和网络实 体相关特异性指标相结合对多实体社群进行聚类的结果,比现有技术中仅采用 图计算相关指标的聚类效果好。下表1-3示出了模拟通用指标(图计算相关指 标)和网络实体相关特异性指标的聚类效果比较结果。
验证方法基于JMeter搭建,使用一台服务器作为代理网关,可以记录下接 入用户的上网日志,另一台PC终端上运行JMeter,用于模拟多用户的互联网访 问行为。其中,Apache JMeter是Apache组织开发的基于Java的压力测试工具, 用于对软件做压力测试,JMeter可用于模拟在服务器、网络或者其他对象上附 加高负载以测试其提供服务的受压能力,或者分析其提供的服务在不同负载条 件下的总性能情况。
设置JMeter模拟50名不同的用户,随机访问100个预选出的互联网网站, 为每位用户设置不同的访问网站数量阈值以及访问的频率阈值,从网关服务器 收集一天内所有访问请求记录约80万条作为待检测样本。同时记录下JMeter 针对每个用户访问量及访问频率的设置,如表1-1:
表1-1
Figure BDA0003043789570000071
Figure BDA0003043789570000081
将上述数据采用本文设计的图方式存储并分析评估每个模拟用户的行为, 得出图计算通用指标单独排名以及综合排名,同时再计算网络实体单独指标和 综合指标,并最终计算通用指标和特异指标综合排名。如表1-2:
表1-2
Figure BDA0003043789570000082
对于无监督的预测结果业界并没有评估结果“好坏”的统一标准,本验证 通过将评估结果和互联网领域比较常用及容易理解的PageRank热度排名的方式 做对比,计算50名模拟用户的排名和PageRank排名两数组的相关系数,系数 越接近于1表示评估的排名和PageRank排名越接近。
验证结果如下:
表1-3
图计算指标评估相关系数 特异性指标评估相关系数 两者结合评估相关系数
0.76 0.87 0.92
结果表明,本算法提出的将图计算指标(图计算相关指标)以及特异性指 标(网络实体相关特异性指标)相结合对多实体社群进行密度聚类的评估的结 果和PageRank排名最接近,可以认为是通常情况下比较认可的结果。
在步骤S103中,将顶点的属性信息作为输入特征进行基于密度的聚类可以 采用典型密度聚类算法,例如DBSCAN,该算法需要以顶点间欧几里得距离作为 社群最小半径以及社群最小顶点数作为预设聚类参数进行输入,符合该预设聚 类参数的顶点将被聚集为同一簇,不符合该预设聚类参数的顶点则作为噪声顶 点,经过该步骤,每一多实体社群中的所有顶点被分为若干包含顶点数不等的 正常簇类以及噪声簇类。
步骤S104,将属性信息作为输入特征对正常类簇进行局部离群点检测,根 据预设离群检测参数,得到正常类簇下的正常点、离群点。
在本步骤中,将顶点的属性信息作为输入特征对正常类簇下的顶点进行聚 类可以采用局部离群点检测法,例如局部异常因子(LOF)算法,该算法是一种 基于距离的异常点检测算法,同样以顶点间欧几里得距离作为社群最小半径以 及社群最小顶点数作为预设离群检测参数,不符合该预设离群检测参数的顶点 被作为异常点被检测出来。经过该步骤,每一正常类簇中的所有顶点被分成正 常顶点和离群顶点。
步骤S105,将噪声类簇中的顶点、正常类簇中的离群点作为一类顶点,将 正常类簇中的正常点作为二类顶点,将单实体社群中的顶点作为三类顶点,设 定一类顶点的评估值为1,二类节点的评估值为(1/所在社群数量/所在类簇中 正常点的数量),三类顶点评估值为0,计算社群中顶点的评估值。
由于在一个较大的常态群体中活跃或者异常的成员必然是少数,在该步骤 中将知识图谱中的顶点分成了三类。
第一,同一类顶点中特征相似度特整个群体偏离较大的顶点可以作为最活 跃的点,在本方案中最活跃的点也就是上述通过对多实体社群进行密度的聚类 得到的噪声类簇中的顶点以及通过对正常类簇进行局部离群点检测得到的离群 点(异常点)。
第二,和群体几乎毫无交互的顶点可以作为最不活跃或最普通的顶点,在 本方案中最不活跃或最普通的点也就是上述通过社群划分算法得到的单实体社 群,单实体社群中仅有两个顶点组成,表示实体仅向一个作用对象实体进行了 一条行为。
第三,活跃度或异常度处于上述两种顶点之间的顶点,在本方案中指的是 正常类簇中的正常顶点,由于顶点越多的群体本身越普通,顶点越少的群体本 身越异常,因此,这些顶点的活跃度或异常度和该顶点所处的群体规模成反比。
以活跃程度或异常程度的大小为三类顶点赋予评估值。在本方案中将最活 跃的顶点赋值为1,将最不活跃的顶点赋值为0,为处于中间的顶点赋值为1/ 所在社群数量/所在类簇中正常点的数量,通过评估值的大小可以反映出该顶点 的价值,评估值越高,代表该顶点的活跃度越高,说明该网络实体的行为表现 和网络中绝大多数的实体均不相同而更应受到审核人员的关注,或者该网络实 体的异常程度更高,可能会对网络产生更大的威胁。通过该设计可以找出一些 并没有预先知道其行为特征的未知网络威胁。
针对上述实施例一,本发明还提出了一种基于图的网络实体行为评估的可 视化方法,社群中顶点的评估值在可视化上为顶点指定相应的呈现方式。
具体地,知识图谱在可视化呈现时,可以将活跃度最高的一类顶点的大小 (直径)设置为最大,将顶点颜色设置为最深,而将活跃度最低的三类顶点的 大小(直径)设置为最小,将顶点颜色设置为最浅。将二类顶点的大小(直径)、 颜色设置为中间值,例如,二类顶点在可视化呈现时顶点的大小(直径)、颜 色受两个因素影响:1、和该顶点评估值大小成正比;2、和该顶点所在的正常 类簇中的正常顶点个数成反比。
通过该方法设定顶点直径上下限,颜色RGB深浅上下限,以及同时呈现的 顶点数量上下限作为入参,线性拟合出顶点直径,颜色深浅的计算公式。通过 该公式计算出图中每个顶点的大小或颜色深浅。例如可以设定公示为:顶点直 径或顶点色深=a*顶点评估值+b*同一批顶点数量,通过输入较多量包含顶 点直径或顶点色深,顶点评估值,同一批顶点数量这3个指标样本,线性拟合 计算出a和b,即得出顶点直径或顶点色深的计算公式。通过计算公式能够在知 识图谱中直观看到对实体的评估结果。
实施例二
基于相同的构思,本申请还提出了一种基于图的网络实体行为评估装置, 参考图2,包括:
知识图谱构建模块201,用于将获取到的多个实体的行为日志进行图谱构建 处理,得到知识图谱;
社群生成模块202,用于通过社群划分算法在知识图谱中生成至少一社群, 获取每一社群的顶点数,基于顶点数将社群分类成单实体社群以及多实体社群;
多实体社群聚类模块203,用于获取多实体社群中每一顶点的属性信息,将 属性信息作为输入特征对多实体社群进行密度聚类,根据预设聚类参数,得到 多实体社群下的正常类簇、噪声类簇;
局部离群点检测模块204,用于将属性信息作为输入特征对正常类簇进行局 部离群点检测,根据预设离群检测参数,得到正常类簇下的正常点、离群点;
评估值计算模块205,用于将噪声类簇中的顶点、正常类簇中的离群点作为 一类顶点,将正常类簇中的正常点作为二类顶点,将单实体社群中的顶点作为 三类顶点,设定一类顶点的评估值为1,二类节点的评估值为(1/所在社群数量 /所在类簇中正常点的数量),三类顶点评估值为0,计算社群中顶点的评估值。
实施例三
本实施例还提供了一种电子装置,参考图3,包括存储器304和处理器302, 该存储器304中存储有计算机程序,该处理器302被设置为运行计算机程序以 执行上述任一项方法实施例中的步骤。
具体地,上述处理器302可以包括中央处理器(CPU),或者特定集成电 路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实 施本申请实施例的一个或多个集成电路。
其中,存储器304可以包括用于数据或指令的大容量存储器304。举例来 说而非限制,存储器304可包括硬盘驱动器(HardDiskDrive,简称为HDD)、 软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光 盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个 或更多个以上这些的组合。在合适的情况下,存储器304可包括可移除或不可 移除(或固定)的介质。在合适的情况下,存储器304可在数据处理装置的内 部或外部。在特定实施例中,存储器304是非易失性(Non-Volatile)存储器。 在特定实施例中,存储器304包括只读存储器(Read-OnlyMemory,简称为ROM) 和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下, 该ROM可以是掩模编程的ROM、可编程ROM (ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM (ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM (ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电 可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存 (FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以 是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态 随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM 可以是快速页模式动态随机存取存储器304 (FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数 据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory, 简称为EDODRAM)、同步动态随机存取内存 (SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器304可以用来存储或者缓存需要处理和/或通信使用的各种数据文 件,以及处理器302所执行的可能的计算机程序指令。
处理器302通过读取并执行存储器304中存储的计算机程序指令,以实现 上述实施例中的任意一种基于图的网络实体行为评估方法。
可选地,上述电子装置还可以包括传输设备306以及输入输出设备308, 其中,该传输设备306和上述处理器302连接,该输入输出设备308和上述处 理器302连接。
传输设备306可以用来经由一个网络接收或者发送数据。上述的网络具体 实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传 输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其 可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传 输设备306可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线 方式与互联网进行通讯。
输入输出设备308用于输入或输出信息。例如,上述输入输出设备可以是 移动终端、显示屏、音箱、麦克、鼠标、键盘或其他设备。
可选地,在本实施例中,上述处理器302可以被设置为通过计算机程序执 行以下步骤:
S101,将获取到的多个实体的行为日志进行图谱构建处理,得到知识图谱;
S102,通过社群划分算法在知识图谱中生成至少一社群,获取每一社群的 顶点数,基于顶点数将社群分类成单实体社群以及多实体社群;
S103,获取多实体社群中每一顶点的属性信息,将属性信息作为输入特征 对多实体社群进行密度聚类,根据预设聚类参数,得到多实体社群下的正常类 簇、噪声类簇;
S104,将属性信息作为输入特征对正常类簇进行局部离群点检测,根据预 设离群检测参数,得到正常类簇下的正常点、离群点;
S105将噪声类簇中的顶点、正常类簇中的离群点作为一类顶点,将正常类 簇中的正常点作为二类顶点,将单实体社群中的顶点作为三类顶点,设定一类 顶点的评估值为1,二类节点的评估值为(1/所在社群数量/所在类簇中正常点 的数量),三类顶点评估值为0,计算社群中顶点的评估值。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方 式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的一种基于图的网络实体行为评估方法和/或基于 图的网络实体行为评估的可视化方法,本申请实施例可提供一种存储介质来实 现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述 实施例中的任意一种基于图的网络实体行为评估方法和/或基于图的网络实体 行为评估的可视化方法。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组 合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行 描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记 载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但 并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通 技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进, 这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为 准。

Claims (7)

1.一种基于图的网络实体行为评估方法,其特征在于,所述方法包括:
将获取到的多个实体的行为日志进行图谱构建处理,得到知识图谱;其中,“将获取到的多个实体的行为日志进行图谱构建处理,得到知识图谱”包括:获取预设时间内的行为日志,从每一行为日志中获取实体、作用对象实体作为顶点,获取行为作为边,生成知识图谱;
通过社群划分算法在知识图谱中生成至少一社群,获取每一社群的顶点数,基于顶点数将社群分类成单实体社群以及多实体社群;
获取多实体社群中每一顶点的属性信息,将属性信息作为输入特征对多实体社群进行密度聚类,根据预设聚类参数,得到多实体社群下的正常类簇、噪声类簇;
将属性信息作为输入特征对正常类簇进行局部离群点检测,根据预设离群检测参数,得到正常类簇下的正常点、离群点,其中,属性信息包括图计算相关指标以及网络实体相关特异性指标,其中,图计算相关指标包括顶点的点度中心性、接近中心性、中介中心性的至少一种,网络实体相关特异性指标包括顶点全天出现频率分布率、顶点在预设时间内出现的无序程度、顶点相关请求的流量速率、顶点相关请求上下行流量倒置率、顶点相关请求持续时长均值、该顶点主动发起请求和被动接收请求数的比率的至少一种;
将噪声类簇中的顶点、正常类簇中的离群点作为一类顶点,将正常类簇中的正常点作为二类顶点,将单实体社群中的顶点作为三类顶点,设定一类顶点的评估值为1,二类节点的评估值为(1/所在社群数量/所在类簇中正常点的数量),三类顶点评估值为0,计算社群中顶点的评估值。
2.根据权利要求1所述的基于图的网络实体行为评估方法,其特征在于,社群划分算法包括:标签传播算法、重叠社群检测算法、平衡多标签传播算法的其中一种。
3.一种基于图的网络实体行为评估的可视化方法,其特征在于,根据权利要求1所述的社群中顶点的评估值在可视化上为顶点指定相应的呈现方式。
4.根据权利要求3所述的基于图的网络实体行为评估的可视化方法,其特征在于,呈现方式包括顶点的大小和颜色深浅的至少一种。
5.一种基于图的网络实体行为评估装置,其特征在于,包括:
知识图谱构建模块,用于将获取到的多个实体的行为日志进行图谱构建处理,得到知识图谱;其中,“将获取到的多个实体的行为日志进行图谱构建处理,得到知识图谱”包括:获取预设时间内的行为日志,从每一行为日志中获取实体、作用对象实体作为顶点,获取行为作为边,生成知识图谱;
社群生成模块,用于通过社群划分算法在知识图谱中生成至少一社群,获取每一社群的顶点数,基于顶点数将社群分类成单实体社群以及多实体社群;
多实体社群聚类模块,用于获取多实体社群中每一顶点的属性信息,将属性信息作为输入特征对多实体社群进行密度聚类,根据预设聚类参数,得到多实体社群下的正常类簇、噪声类簇;
局部离群点检测模块,用于将属性信息作为输入特征对正常类簇进行局部离群点检测,根据预设离群检测参数,得到正常类簇下的正常点、离群点,其中,属性信息包括图计算相关指标以及网络实体相关特异性指标,其中,图计算相关指标包括顶点的点度中心性、接近中心性、中介中心性的至少一种,网络实体相关特异性指标包括顶点全天出现频率分布率、顶点在预设时间内出现的无序程度、顶点相关请求的流量速率、顶点相关请求上下行流量倒置率、顶点相关请求持续时长均值、该顶点主动发起请求和被动接收请求数的比率的至少一种;
评估值计算模块,用于将噪声类簇中的顶点、正常类簇中的离群点作为一类顶点,将正常类簇中的正常点作为二类顶点,将单实体社群中的顶点作为三类顶点,设定一类顶点的评估值为1,二类节点的评估值为(1/所在社群数量/所在类簇中正常点的数量),三类顶点评估值为0,计算社群中顶点的评估值。
6.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1-2任一项所述的基于图的网络实体行为评估方法和/或权利要求3-4任一项所述的基于图的网络实体行为评估的可视化方法所执行的操作。
7.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至2 中任一项所述的基于图的网络实体行为评估方法和/或权利要求3-4任一项所述的基于图的网络实体行为评估的可视化方法。
CN202110465627.4A 2021-04-28 2021-04-28 基于图的网络实体行为评估、可视化方法 Active CN113157922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110465627.4A CN113157922B (zh) 2021-04-28 2021-04-28 基于图的网络实体行为评估、可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110465627.4A CN113157922B (zh) 2021-04-28 2021-04-28 基于图的网络实体行为评估、可视化方法

Publications (2)

Publication Number Publication Date
CN113157922A CN113157922A (zh) 2021-07-23
CN113157922B true CN113157922B (zh) 2022-01-21

Family

ID=76871757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110465627.4A Active CN113157922B (zh) 2021-04-28 2021-04-28 基于图的网络实体行为评估、可视化方法

Country Status (1)

Country Link
CN (1) CN113157922B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553444A (zh) * 2021-07-27 2021-10-26 之江实验室 一种基于超边的审计知识图谱表示模型及关联推理方法
CN116596532A (zh) * 2022-11-07 2023-08-15 北京天德科技有限公司 一种基于实时可疑交易识别和监管区块链钱包的监管方法
CN115618947A (zh) * 2022-12-05 2023-01-17 中国人民解放军总医院 医疗知识图谱质量评估系统、装置、设备、介质及产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488465A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种知识图谱构建方法及相关装置
CN112000814A (zh) * 2020-10-27 2020-11-27 南京易安联网络技术有限公司 一种基于知识图谱的网络实体行为评估方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699689B (zh) * 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN106933983B (zh) * 2017-02-20 2020-08-14 广东省中医院 一种中医药知识图谱的构建方法
CN108256070B (zh) * 2018-01-17 2022-07-15 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN108964998B (zh) * 2018-07-06 2021-10-15 北京建筑大学 一种网络实体行为奇异性检测方法及装置
US10997231B2 (en) * 2019-01-17 2021-05-04 International Business Machines Corporation Image-based ontology refinement using clusters
US11475318B2 (en) * 2019-05-29 2022-10-18 Kyndryl, Inc. Automated resolution of over and under-specification in a knowledge graph

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488465A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种知识图谱构建方法及相关装置
CN112000814A (zh) * 2020-10-27 2020-11-27 南京易安联网络技术有限公司 一种基于知识图谱的网络实体行为评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"一种基于图计算的网络实体行为评估算法设计";杨正权 等;《中国信息化》;20201130;第48-50页 *

Also Published As

Publication number Publication date
CN113157922A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN113157922B (zh) 基于图的网络实体行为评估、可视化方法
Sofaer et al. The area under the precision‐recall curve as a performance metric for rare binary events
US10726153B2 (en) Differentially private machine learning using a random forest classifier
US20180349384A1 (en) Differentially private database queries involving rank statistics
US11190562B2 (en) Generic event stream processing for machine learning
CN111614690B (zh) 一种异常行为检测方法及装置
US10404731B2 (en) Method and device for detecting website attack
US20110264617A1 (en) Reducing the dissimilarity between a first multivariate data set and a second multivariate data set
US10963802B1 (en) Distributed decision variable tuning system for machine learning
Spanos et al. Impact metrics of security vulnerabilities: Analysis and weighing
CN108366012B (zh) 一种社交关系建立方法、装置及电子设备
Drechsler et al. Rapid viability analysis for metapopulations in dynamic habitat networks
CN111148018B (zh) 基于通信数据识别定位区域价值的方法和装置
Namtirtha et al. Best influential spreaders identification using network global structural properties
Chen et al. A temporal recommendation mechanism based on signed network of user interest changes
Saleem et al. Personalized decision-strategy based web service selection using a learning-to-rank algorithm
Bouttier et al. Clustering and selection of boundary conditions for limited‐area ensemble prediction
CN112000814A (zh) 一种基于知识图谱的网络实体行为评估方法
Ma et al. Social account linking via weighted bipartite graph matching
Coscia Noise corrected sampling of online social networks
CN115879819A (zh) 企业信用评估方法及装置
Lim et al. Survey of approaches to generate realistic synthetic graphs
Dahl et al. Cluster analysis via random partition distributions
Liu et al. Towards dynamic reconfiguration of composite services via failure estimation of general and domain quality of services
CN111598390B (zh) 服务器高可用性评估方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant