CN111522998B - 一种图模型的生成方法、装置及设备 - Google Patents

一种图模型的生成方法、装置及设备 Download PDF

Info

Publication number
CN111522998B
CN111522998B CN202010297229.1A CN202010297229A CN111522998B CN 111522998 B CN111522998 B CN 111522998B CN 202010297229 A CN202010297229 A CN 202010297229A CN 111522998 B CN111522998 B CN 111522998B
Authority
CN
China
Prior art keywords
feature
graph model
determining
node
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010297229.1A
Other languages
English (en)
Other versions
CN111522998A (zh
Inventor
赵文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010297229.1A priority Critical patent/CN111522998B/zh
Publication of CN111522998A publication Critical patent/CN111522998A/zh
Application granted granted Critical
Publication of CN111522998B publication Critical patent/CN111522998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种图模型的生成方法、装置及设备。在对图模型中的点和边进行绘制时,考虑了节点的各特征的发生概率,并使用自信息量进行表征,并反映在节点权重中,以及对于节点之间共享特征的发生概率也基于自信息量进行表征,并反映在边权重中。

Description

一种图模型的生成方法、装置及设备
技术领域
本说明书实施例涉及信息技术领域,尤其涉及一种图模型的生成方法、装置及设备。
背景技术
在当前图算法已经成为数据挖掘的主流方向之一,众多优秀的数据挖掘算法都是建立在合理的构图之上,因此如何用多维度的数据构出一张通用的大图就变得尤为重要。当前常用的介质图、资金图等拓扑模型还是贝叶斯网络等概率图模型,数据本身的概率统计信息被丢弃损失了。
基于此,本说明书实施例提供一种信息含量更丰富的图模型的生成方案。
发明内容
本申请实施例的目的是提供一种信息含量更丰富的图模型的生成方案。
为解决上述技术问题,本申请实施例是这样实现的:
一种图模型的生成方法,包括:
获取包含多个目标对象的集合,所述目标对象与图模型中的节点一一对应,所述目标对象包含至少一个特征;
针对任一目标对象,计算该目标对象的每个特征的自信息量,其中,一个特征下的自信息量与该目标对象在该特征下的全局分布概率负相关;
确定该目标对象的每个特征的自信息量的和,将所述和确定为该目标对象所对应节点的节点权重;
针对任意两个目标对象,确定所述两个目标对象所共同包含的特征,计算共同包含的每个特征的自信息量;
确定共同包含的每个特征的自信息量的和,根据所述和确定所述两个目标对象的边的边权重;
生成包含所述节点权重的节点和包含所述边权重的边的图模型。
对应的,本说明书实施例还提供一种图模型的生成装置,包括:
获取模块,获取包含多个目标对象的集合,所述目标对象与图模型中的节点一一对应,所述目标对象包含至少一个特征;
自信息量确定模块,针对任一目标对象,计算该目标对象的每个特征的自信息量,其中,一个特征下的自信息量与该目标对象在该特征下的全局分布概率负相关;
节点权重确定模块,确定该目标对象的每个特征的自信息量的和,将所述和确定为该目标对象所对应节点的节点权重;
所述自信息量确定模块还用于,针对任意两个目标对象,确定所述两个目标对象所共同包含的特征,计算共同包含的每个特征的自信息量;
边权重确定模块,确定共同包含的每个特征的自信息量的和,根据所述和确定所述两个目标对象的边的边权重;
生成模块,生成包含所述节点权重的节点和包含所述边权重的边的图模型。
通过本说明书实施例所提供的方案,在对图模型中的点和边进行绘制时,考虑了节点的各特征的发生概率,并使用自信息量进行表征,并反映在节点权重,以及对于节点之间共享特征的发生概率也基于自信息量进行表征,并反映在边权重中,最大程度的还原了原始数据中蕴藏的信息并转化为图模型,有利于基于图模型进行异常群组的挖掘。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本说明书实施例所提供的一种图模型的生成方法的流程示意图;
图2为本说明书实施例所提供的一种目标对象的示意图;
图3为本说明书实施例所提供的一种图模型的示意图;
图4是本说明书实施例提供的一种图模型的生成装置的结构示意图;
图5是用于配置本说明书实施例方法的一种设备的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
图算法已经成为数据挖掘的主流方向之一,众多优秀的数据挖掘算法都是建立在合理的构图之上,因此如何用多维度的数据构出一张通用的大图就变得尤为重要,介质图、资金图等常用拓扑图模型只考虑了拓扑关系不考虑节点与节点之间的连接权重(或者有连接权重,但是仅仅是一些简单的权重如金额、次数),数据本身的概率统计信息被丢弃损失了,所以在这种图中跑挖掘算法从先天设计上就存在很大的缺陷,也很难保证对多种算法任务有较好的适应性。
基于此,本说明书实施例提供一种信息含量更丰富的图模型的生成方案,充分考虑了各节点的特征以及节点之间的共享特征的分布概率,丰富了图模型中所包含的信息。
如图1所示,图1为本说明书实施例所提供的一种图模型的生成方法的流程示意图,包括:
S101,获取包含多个目标对象的集合,所述目标对象与图模型中的节点一一对应,所述目标对象包含至少一个特征。
此处的目标对象可以是诸如用户、设备、机构等等对象。在包含了节点和边的图模型中,目标对象与节点一一对应,两个节点之间的边反映了两个目标对象可能在某些事件上存在交集,事件可以通过多个特征进行表征。这里的特征可以包括诸如手机号,银行卡,IP地址,Wifi名、路由mac地址等等。
换言之,在本说明书实施例中,每一个目标对象可以对应有多个事件,而每个事件都可以通过多个特征进行表达。例如,对于用户A而言,其对应的事件可以包括“通过设备1在wifi1连接到了服务端”,此时,该事件可以用特征“设备1,wifi1”表征;或者事件是“通过wifi2连接到了服务端,并转账给银行卡card2”,此时该事件可以用特征“wifi2,card2”表征,多个事件所涉及的特征有可能部分相同。如图2所示,图2为本说明书实施例所提供的一种目标对象的示意图。
S103,针对任一目标对象,计算该目标对象的每个特征的自信息量,其中,一个特征下的自信息量与该目标对象在该特征下的全局分布概率负相关。
通过对各事件进行统计,即可以得到一名目标对象所包含的全部特征,以及,每个特征的出现次数。进一步地,既可以统计得到在该集合中的每个特征的全局出现次数。
例如,对于一个特征“wifi1”而言,假设集合中有两名用户包含有特征“wifi1”,其中用户A包含特征“wifi1”的次数为10次,而用户B包含特征“wifi1”的次数为40次,则对于特征“wifi1”而言,其全局次数即为50次。
此时,针对目标对象A,假设其包含的特征为“wifi1,wifi2,wifi3”,则此时可以首先针对目标对象A计算其所包含的特征“wifi1”的自信息量。
在本说明书实施例中,自信息量是对于目标对象的特征所包含的信息量的量度,一个特征下的自信息量与该目标对象在该特征下的全局分布概率负相关。
例如,假设对于一个特征“wifi1”而言,其全局次数即为50次,而在整个集合中特征wifi的全局次数总和为5000,则对于特征“wifi1”的全局分布概率为50/5000=0.01。
容易理解,在计算全局次数总和时,需要在同一类别的特征之间进行求和计算。例如,对于各wifi特征的次数进行求和得到wifi特征下的全局次数之和,以对特征wifi1、wifi2等等进行全局分布概率的计算。而对于ip特征的全局次数之和时,则需要对于各ip特征的次数进行求和得到ip特征下的全局次数之和。在不同类别的特征(例如,银行卡号和ip地址)之间的统计求和显然没有意义。
在实际应用中,全局次数总和经常是上百万几千万的量,除了某些热点特征(即全局次数较大的特征,即实际含义即为相当多的事件里包含有该特征,例如,图书馆的公用wifi,大量用户通过该公用wifi连接服务端),大部分特征全局分布概率都比较低。
换言之,一个全局分布概率较大的特征,其所能表征的信息是很少的(如果大量用户通过一个公用wifi连接服务端,那么用户A的特征中包含有该公用wifi就是一个相对的大概率事件,包含的信息少);相反的,一个全局分布概率较小的特征,其所能表征的信息反而大一些,例如,wifi2是一个全局分布概率较小的特征,则一个用户包含该特征也是一个小概率事件,其所包含的信息则更多。
自信息量的具体算法可以根据实际需要自行定义。只需满足一个特征下的自信息量与该目标对象在该特征下的全局分布概率负相关即可。例如,一种具体的计算方式为,针对目标对象中所包含的第i个特征Wi,确定该目标对象在该特征下的全局分布概率Pi,采用如下公式确定第i个特征的自信息量I(Wi):I(Wi)=-log(Pi)。
S105,确定该目标对象的每个特征的自信息量的和,将所述和确定为该目标对象所对应节点的节点权重。
例如,假设在某一个特征类别下分别包含特征w1,w2和w3,全局的次数分别为10,30,60,即全局次数总和为100,那最后它们的全局分布概率就分别是0.1,0.3,0.6;如果一个目标对象包含了特征w1和w2,那么在该类别特征下,该目标对象的自信息就是-log0.1+(-log0.3)。
在实际应用中,由于一个用户可能还会包含多个其它类别的特征,则此时只需继续计算每个特征下的自信息,并对每个特征的自信息量进行求和即可。
计算得到的和将被确定为该目标对象所对应节点的节点权重。节点权重表征了该节点所对应的目标账户的异常程度。例如,如果一个用户在某类特征(如wifi)上包含多个特征(比如:wifi1,wifi2,...wifin,各wifi特征的出现概率越小,自信息越大),其表征该用户上出现了多次事件,则该用户更倾向于有更大的信息量(自信息),也就是更异常。
S107,针对任意两个目标对象,确定所述两个目标对象所共同包含的特征,计算共同包含的每个特征的自信息量。
基于两个目标对象所共享的特征,即两个节点都包含的特征。例如,目标对象A包含有特征“银行卡号1”、“ip地址2”和“wifi2”,而目标对象B包含有“银行卡号1”、“银行卡号2”和“wifi2”。则“银行卡号1”和“wifi2”是用户A和B所共同包含的特征。基于前述的方法,则可以同样计算特征“银行卡号1”和“wifi2”各自的自信息量。
两个用户包含有同样的特征,表明两个用户同样存在某种关联。这种关联可能是诸如A和B都通过了某个公用wifi进行了登录,也可能是黑产A和B都使用了某个银行卡号进行转账。显然,基于前述的自信息量的含义,同样可以知道,如果两个目标对象所共同包含的特征的自信息量越小,则两个目标对象越倾向于没有关联,而相反,则两个目标对象则更可能存在关联性。
S109,确定共同包含的每个特征的自信息量的和,根据所述和确定所述两个目标对象的边的边权重。
具体而言,可以直接将所述和确定为所述两个目标对象的边的边权重,也可以根据相关的数据来确定每个特征的加权值,进行根据加权值与前述的和共同确定最终的边权重。
例如,一种确定边权重的方式即为预先认为给定每个特征的加权值,进而在计算时对每个特征所对应的自信息进行加权求和。
在一种实施方式中,还可以根据给定每个事件相应的权重,这样每个事件通过特征表征出来时,每个特征也就有了相应的权重。从而,在对该特征进行全局统计时,则会出现如下情形,某个特征每次在不同事件中出现时都会有不同的权重。
例如,假设用户A和B有共同特征“ip1”。对于特征“ip1”,在事件1中出现时权重为w1,在事件2中权重为w2,从而可以得到源于特征“ip1”的权重数组[w1,w2,……],那么就可以对该数组进行相应的统计,而得到特征“ip1”在整体数据下的权重。具体而言,可以使用数组中所有元素的统计值(例如,平均值avg_w、中位数或者分位数等等)作为特征“ip1”的加权值。
进而,在计算用户A和B的边所对应的边权重时即可以采用如下方式:边权重link_a_b=sum(link_w1,link_w2,…,link_wn)*(1.0+avg_w)。其中的sum(link_w1,link_w2,…,link_wn)即为共同包含的每个特征的自信息量的和。通过这种方式,在生成边的时候,考虑了目标对象所相关的数据中本身可能存在一些权重指标,通过计算此权重指标在各特征上的分布特征,并将此分布特征合理地融合进最终的边权重值的计算公式之中,可以更为合理的反映出实际情形。
S111,生成包含所述节点权重的节点和包含所述边权重的边的图模型。
在确定了每个节点的节点权重,以及,确定了每个边的边权重之后,既可以绘制出相应的图模型。如图3所示,图3为本说明书实施例所提供的一种图模型的示意图。在该示意图中,I1,I2,……等表示各节点的节点权重,而I4.5等则表征了在两个节点间的边的边权重。
在实际应用中,还可以基于各权重的大小进行不同颜色的渲染,从而可以更利于观察。例如,将权重数值分多个区间,每个区间对应一种颜色进行渲染。
在实际应用中,图中的节点的数量有可能是相当多的(例如,在大数据的场景下,图中可能包含百万级别的节点)。显然,在该示意图中,有些节点可能是没有边的,有些节点则可能存在多个边,以及,还有可能是若干节点互相直接相互关联形成了群组。基于实际情形,则可以使用该图模型进行相应的异常群组或者异常节点的挖掘。
例如,一种可实施方式可以是将节点权重大于一定值的节点确定为异常节点;或者,若多个节点互相关联,且边权重和节点权重均满足一定条件,则这些节点形成一个群组等等。
通过本说明书实施例所提供的方案,在对图模型中的点和边进行绘制时,考虑了节点的各特征的发生概率,并使用自信息量进行表征,并反映在节点权重,以及对于节点之间共享特征的发生概率也基于自信息量进行表征,并反映在边权重中,最大程度的还原了原始数据中蕴藏的信息并转化为图模型,有利于基于图模型进行异常群组的挖掘。
在一种实施方式中,由于生成的图模型中的节点是与目标对象一一对应的,显这就造成图模型中实际上有可能存在大量的权重较低的节点或者边。基于此,还可以对图模型进行剪枝处理:即剪去低权重的节点或者低权重的边,当然也可以二者同时进行。
例如,对于节点而言,可以确定所述图模型中的节点权重的统计值(包括平均值、中位数或者分位数等等),根据所述节点权重的统计值确定节点剪枝阈值;剪去节点权重小于所述节点剪枝阈值的节点,以及,剪去所述节点所连接的边,生成剪枝后的图模型。
对于边而言,可以确定所述图模型中的边权重的统计值(包括平均值、中位数或者分位数等等),根据所述边权重的统计值确定边剪枝阈值;剪去边权重小于所述边剪枝阈值的边,生成剪枝后的图模型。从而可以得到更为精简的图模型,有利于日后的异常群组挖掘。
在一种实施方式中,还可以直接确定所述图模型中的安全节点,从所述图模型中滤除安全节点以及安全节点所连接的边,生成滤除后的图模型。例如,直接从业务端获取包含多个目标对象的白名单,将白名单中的目标对象确定为安全节点,并且从从所述图模型中滤除安全节点以及安全节点所连接的边。这种方式在滤除节点时无需使用边权重或者节点权重数据,可以根据业务需要直接对模型进行调整,满足实际业务需要。
对应的,本说明书实施例还提供一种图模型的生成装置,如图4示,图4是本说明书实施例提供的一种图模型的生成装置的结构示意图,包括:
获取模块401,获取包含多个目标对象的集合,所述目标对象与图模型中的节点一一对应,所述目标对象包含至少一个特征;
自信息量确定模块403,针对任一目标对象,计算该目标对象的每个特征的自信息量,其中,一个特征下的自信息量与该目标对象在该特征下的全局分布概率负相关;
节点权重确定模块405,确定该目标对象的每个特征的自信息量的和,将所述和确定为该目标对象所对应节点的节点权重;
所述自信息量确定模块403还用于,针对任意两个目标对象,确定所述两个目标对象所共同包含的特征,计算共同包含的每个特征的自信息量;
边权重确定模块407,确定共同包含的每个特征的自信息量的和,根据所述和确定所述两个目标对象的边的边权重;
生成模块409,生成包含所述节点权重的节点和包含所述边权重的边的图模型。
进一步地,所述装置还包括节点剪枝模块411,确定所述图模型中的节点权重的统计值,根据所述节点权重的统计值确定节点剪枝阈值;剪去节点权重小于所述节点剪枝阈值的节点,以及,剪去所述节点所连接的边,生成剪枝后的图模型。
进一步地,所述装置还包括还包括边剪枝模块413,确定所述图模型中的边权重的统计值,根据所述边权重的统计值确定边剪枝阈值;剪去边权重小于所述边剪枝阈值的边,生成剪枝后的图模型。
进一步地,所述边权重确定模块407,将所述和确定为所述两个目标对象的边的边权重;或者,确定所述两个目标对象所共同包含的每个特征的加权值,根据所述每个特征的加权值对所述和进行加权,生成所述两个目标对象的边的边权重。
进一步地,所述装置还包括滤除模块415,确定所述图模型中的安全节点,从所述图模型中滤除安全节点以及安全节点所连接的边,生成滤除后的图模型。
进一步地,所述自信息量确定模块403,针对第i个特征Wi,确定该目标对象在该特征下的全局分布概率Pi,采用如下公式确定第i个特征的自信息量I(Wi):I(Wi)=-log(Pi)。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现图1所示的图模型的生成方法。
图5示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图1所示的图模型的生成方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、方法、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的方法实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (13)

1.一种图模型的生成方法,包括:
获取包含多个目标对象的集合,所述目标对象与图模型中的节点一一对应,所述目标对象包含至少一个特征;
针对任一目标对象,计算该目标对象的每个特征的自信息量,其中,一个特征下的自信息量与该特征下的全局分布概率负相关;
确定该目标对象的每个特征的自信息量的和,将所述和确定为该目标对象所对应节点的节点权重;
针对任意两个目标对象,确定所述两个目标对象所共同包含的特征,计算共同包含的每个特征的自信息量;
确定共同包含的每个特征的自信息量的和,根据所述和确定所述两个目标对象的边的边权重;
生成包含所述节点权重的节点和包含所述边权重的边的图模型。
2.如权利要求1所述的方法,还包括:
确定所述图模型中的节点权重的统计值,根据所述节点权重的统计值确定节点剪枝阈值;
剪去节点权重小于所述节点剪枝阈值的节点,以及,剪去所述节点所连接的边,生成剪枝后的图模型。
3.如权利要求1所述的方法,还包括:
确定所述图模型中的边权重的统计值,根据所述边权重的统计值确定边剪枝阈值;
剪去边权重小于所述边剪枝阈值的边,生成剪枝后的图模型。
4.如权利要求1所述的方法,根据所述和确定所述两个目标对象的边的边权重,包括:
将所述和确定为所述两个目标对象的边的边权重;或者,
确定所述两个目标对象所共同包含的每个特征的加权值,根据所述每个特征的加权值对所述和进行加权,生成所述两个目标对象的边的边权重。
5.如权利要求1所述的方法,还包括:
确定所述图模型中的安全节点,从所述图模型中滤除安全节点以及安全节点所连接的边,生成滤除后的图模型。
6.如权利要求1所述的方法,所述计算该目标对象的每个特征的自信息量,包括:
针对第i个特征Wi,确定该特征下的全局分布概率Pi,采用如下公式确定第i个特征的自信息量I(Wi):I(Wi)=-log(Pi)。
7.一种图模型的生成装置,包括:
获取模块,获取包含多个目标对象的集合,所述目标对象与图模型中的节点一一对应,所述目标对象包含至少一个特征;
自信息量确定模块,针对任一目标对象,计算该目标对象的每个特征的自信息量,其中,一个特征下的自信息量与该特征下的全局分布概率负相关;
节点权重确定模块,确定该目标对象的每个特征的自信息量的和,将所述和确定为该目标对象所对应节点的节点权重;
所述自信息量确定模块还用于,针对任意两个目标对象,确定所述两个目标对象所共同包含的特征,计算共同包含的每个特征的自信息量;
边权重确定模块,确定共同包含的每个特征的自信息量的和,根据所述和确定所述两个目标对象的边的边权重;
生成模块,生成包含所述节点权重的节点和包含所述边权重的边的图模型。
8.如权利要求7所述的装置,还包括节点剪枝模块,确定所述图模型中的节点权重的统计值,根据所述节点权重的统计值确定节点剪枝阈值;剪去节点权重小于所述节点剪枝阈值的节点,以及,剪去所述节点所连接的边,生成剪枝后的图模型。
9.如权利要求7所述的装置,还包括边剪枝模块,确定所述图模型中的边权重的统计值,根据所述边权重的统计值确定边剪枝阈值;剪去边权重小于所述边剪枝阈值的边,生成剪枝后的图模型。
10.如权利要求7所述的装置,所述边权重确定模块,将所述和确定为所述两个目标对象的边的边权重;或者,确定所述两个目标对象所共同包含的每个特征的加权值,根据所述每个特征的加权值对所述和进行加权,生成所述两个目标对象的边的边权重。
11.如权利要求7所述的装置,还包括滤除模块,确定所述图模型中的安全节点,从所述图模型中滤除安全节点以及安全节点所连接的边,生成滤除后的图模型。
12.如权利要求7所述的装置,所述自信息量确定模块,针对第i个特征Wi,确定该特征下的全局分布概率Pi,采用如下公式确定第i个特征的自信息量I(Wi):I(Wi)=-log(Pi)。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至6任一项所述的方法。
CN202010297229.1A 2020-04-15 2020-04-15 一种图模型的生成方法、装置及设备 Active CN111522998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010297229.1A CN111522998B (zh) 2020-04-15 2020-04-15 一种图模型的生成方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010297229.1A CN111522998B (zh) 2020-04-15 2020-04-15 一种图模型的生成方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111522998A CN111522998A (zh) 2020-08-11
CN111522998B true CN111522998B (zh) 2023-09-26

Family

ID=71910737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010297229.1A Active CN111522998B (zh) 2020-04-15 2020-04-15 一种图模型的生成方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111522998B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641633A (zh) * 2005-01-07 2005-07-20 清华大学 基于成熟工艺文档的工艺术语提取、规律分析和重用方法
CN103310388A (zh) * 2013-05-28 2013-09-18 清华大学 基于信源熵的电网运行综合指数计算方法
WO2014024863A1 (ja) * 2012-08-10 2014-02-13 株式会社日立製作所 多階層の各ノードを考慮した負荷分散方法
CN110197373A (zh) * 2019-06-04 2019-09-03 数字钱包(北京)科技有限公司 数据处理方法、装置、区块链节点及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641633A (zh) * 2005-01-07 2005-07-20 清华大学 基于成熟工艺文档的工艺术语提取、规律分析和重用方法
WO2014024863A1 (ja) * 2012-08-10 2014-02-13 株式会社日立製作所 多階層の各ノードを考慮した負荷分散方法
CN103310388A (zh) * 2013-05-28 2013-09-18 清华大学 基于信源熵的电网运行综合指数计算方法
CN110197373A (zh) * 2019-06-04 2019-09-03 数字钱包(北京)科技有限公司 数据处理方法、装置、区块链节点及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐鑫 ; 杨建军 ; .基于改进信息熵的综合反隐身作战效能评估.指挥控制与仿真.2016,(04),全文. *

Also Published As

Publication number Publication date
CN111522998A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN110264326B (zh) 识别异常账户集合和风险账户集合的方法、装置及设备
CN112311617A (zh) 一种配置化数据监控告警方法及系统
CN111767142A (zh) 服务节点的限流阈值设置方法和服务端设备
CN113204451A (zh) 一种对Redis集群的压力测试方法、系统、存储介质及终端
CN112181767A (zh) 软件系统异常的确定方法、装置和存储介质
CN114614989A (zh) 基于数字孪生技术的网络业务的可行性验证方法及装置
CN112532408B (zh) 提取故障传播条件的方法、装置及存储介质
CN111522998B (zh) 一种图模型的生成方法、装置及设备
US20200167662A1 (en) Performing data processing based on decision tree
CN115361295B (zh) 基于topsis的资源备份方法、装置、设备及介质
CN114285757A (zh) 网络仿真方法、装置、设备及计算机可读存储介质
EP4167540A1 (en) Availability slo-aware network optimization
CN111147600A (zh) 集群环境下的服务执行方法及终端
CN113703996B (zh) 基于用户和yang模型分组的访问控制方法、设备及介质
CN111884932B (zh) 一种链路确定方法、装置、设备和计算机可读存储介质
CN114978945A (zh) 网络拨测方法、装置、系统、电子设备及存储介质
CN113784411A (zh) 链路质量评估方法、链路切换方法、设备和存储介质
CN114281549A (zh) 数据的处理方法及装置
CN109377233B (zh) 一种风险监测方法和装置
CN113965445A (zh) 一种质差根因的定位方法、装置、计算机设备和存储介质
CN110738476A (zh) 一种样本迁移方法、装置及设备
CN114629824B (zh) 丢包定位方法、装置、计算设备及介质
CN116578751B (zh) 一种主路径分析方法及装置
CN112491589B (zh) 一种对象存储网络预警方法、系统、终端及存储介质
CN115396280B (zh) 告警数据的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant