CN112256801B - 抽取实体关系图中关键实体的方法、系统和存储介质 - Google Patents
抽取实体关系图中关键实体的方法、系统和存储介质 Download PDFInfo
- Publication number
- CN112256801B CN112256801B CN202011079754.2A CN202011079754A CN112256801B CN 112256801 B CN112256801 B CN 112256801B CN 202011079754 A CN202011079754 A CN 202011079754A CN 112256801 B CN112256801 B CN 112256801B
- Authority
- CN
- China
- Prior art keywords
- entity
- state transition
- entities
- relation
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 230000007704 transition Effects 0.000 claims abstract description 96
- 238000004458 analytical method Methods 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 230000005540 biological transmission Effects 0.000 claims description 91
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/60—Types of network addresses
- H04L2101/618—Details of network addresses
- H04L2101/622—Layer-2 addresses, e.g. medium access control [MAC] addresses
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/26—Network addressing or numbering for mobility support
Abstract
抽取实体关系图中关键实体的方法、系统和存储介质,其中所述方法包括:获取包括实体和指向关系的数据资源;根据数据资源创建实体关系图;根据实体关系图计算各个实体间的状态转移概率;由各个实体间的状态转移概率生成实体状态转移概率矩阵;根据实体状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率;选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出关键实体。本发明公开的方法由于能够根据所获取的数据资源生成实体关系图,并使用链接分析算法对实体关系图进行分析从而获得关键实体,不需要人工参与,使数据处理和实体关系分析的效率大大提高。
Description
技术领域
本发明涉及公共安全技术领域,具体涉及抽取实体关系图中关键实体的方法、系统和存储介质。
背景技术
随着社会的发展,各种各样的通讯方式使人们之间的沟通变得丰富多样,常见的通讯方式包括点对点通讯方式如:电话、短信、QQ、MSN、微信、E-mail等,以及平台式通讯方式如:博客、微博、聊天室、微信聊天群、视频会议等,这些都极大地提高了人们的沟通效率。每个人都可以根据自己的需要在特定时间选择特定的通讯方式与他人进行沟通,对各种通讯数据进行分析并构建关系图,进而通过关系图寻找关键人物是公共安全领域常用的手段之一。传统上进行关系分析大部分是通过已知的关联关系实现关系图的绘制,以人工分析为主,如公共安全部门常用的挂图作战的方式。这种方式有很多不足,如人工搜集的数据量较小、数据分析效率较低等,极大地限制了公共安全领域的工作效率。
发明内容
本申请提供一种抽取实体关系图中关键实体的方法、系统和存储介质,以解决人工进行实体关系分析效率低的问题。
根据第一方面,一种实施例中提供一种抽取实体关系图中关键实体的方法,包括:
获取包括实体和指向关系的数据资源;
根据所述数据资源创建实体关系图,所述实体关系图为一有向加权图,其每个节点对应一个实体,每条边对应一个指向关系,边的权值为其所对应的指向关系在所述数据资源中出现的次数;
根据所述实体关系图计算各个实体间的状态转移概率;
由所述各个实体间的状态转移概率生成实体状态转移概率矩阵;
根据所述实体状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率;
选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出所述关键实体。
一种实施例中,所述指向关系包括传输类型,不同传输类型的指向关系对应所述实体关系图中不同的边。
一种实施例中,所述根据所述实体关系图计算各个实体间的状态转移概率包括:任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的某一传输类型的边的权值与以第一实体为起点的所有该传输类型的边的权值之和的比值。
一种实施例中,所述根据所述实体关系图计算各个实体间的状态转移概率包括:任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的至少两种传输类型的边的权值之和与以第一实体为起点的该至少两种传输类型的所有边的权值之和的比值。
一种实施例中,所述链接分析算法为PageRank算法。
一种实施例中,所述数据资源为一段时间内的wifi传输数据,每条传输数据包括源地址和目的地址,所述源地址和目的地址为MAC地址;所述实体为MAC地址,所述指向关系为由源地址指向目的地址。
根据第二方面,一种实施例中提供一种抽取实体关系图中关键实体的系统,包括:
输入模块,用于获取包括实体和指向关系的数据资源;
实体关系图创建模块,用于根据所述数据资源创建实体关系图,所述实体关系图为一有向加权图,其每个节点对应一个实体,每条边对应一个指向关系,边的权值为其所对应的指向关系在所述数据资源中出现的次数;
状态转移概率计算模块,用于根据所述实体关系图计算各个实体间的状态转移概率;
实体状态转移概率矩阵生成模块,用于根据所述各个实体间的状态转移概率生成实体状态转移概率矩阵;
链接分析模块,用于根据所述实体状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率;
输出模块,用于选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出所述关键实体。
根据第三方面,一种实施例中提供一种计算机可读存储介质,包括程序,所述程序能够被处理器执行以实现上述第一方面所述的方法。
依据上述实施例的抽取实体关系图中关键实体的方法、系统和计算机可读存储介质,能够根据所获取的数据资源生成实体关系图,并使用链接分析算法对实体关系图进行分析从而获得关键实体,不需要人工参与,使数据处理和实体关系分析的效率大大提高。
附图说明
图1为一种实施例中抽取实体关系图中关键实体的方法流程示意图;
图2为一种实施例中所创建的实体关系图;
图3为另一种实施例中抽取实体关系图中关键实体的方法流程示意图;
图4为一种实施例中抽取实体关系图中关键实体的系统结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
请参考图1,如图1所示,本发明一种实施例的抽取实体关系图中关键实体的方法包括步骤S101~S106,下面具体说明。
步骤S101:获取包括实体和指向关系的数据资源。实体可以为微信、QQ等社交软件的用户名,也可以是电话号码,或者电子邮箱地址,或者IP地址、MAC地址等。指向关系指实体间信息传输的方向,例如实体A向实体B发送了一条信息,则指向关系为由实体A指向实体B。根据具体任务的需要,可提取一段时间内的数据资源进行分析,也可提取全量数据进行分析。
一种实施例中,指向关系还包括传输类型,传输类型指实体间通讯的方式,例如实体A通过微信向实体B发送了一条信息,则指向关系为由实体A指向实体B,传输类型为微信。
步骤S102:根据数据资源创建实体关系图。实体关系图为一有向加权图,其每个节点对应数据资源中的一个实体,每条边对应数据资源中的一个指向关系,边的权值为其所对应的指向关系在数据资源中出现的次数。当指向关系包括传输类型时,不同传输类型的指向关系对应实体关系图中不同的边。
请参考图2,图2示出了实体关系图的一个例子。图中节点A、B、C、D、E、F代表实体,指向关系包括QQ、微信和E-mail三种传输类型,与标号为①的曲线类型相同的边代表传输类型为QQ的指向关系,与标号为②的曲线类型相同的边代表传输类型为微信的指向关系,与标号为③的曲线类型相同的边代表传输类型为E-mail的指向关系,括号内的数字代表边的权值,即消息传输的次数。以实体A为例,图中实体A以QQ的方式向实体B发送了128次信息,以微信的方式向实体B发送了22次信息,以E-mail的方式向实体B发送了5次信息;以微信的方式向实体E发送了15次信息;以QQ的方式向实体D发送了5次信息,以E-mail的方式向实体D发送了12次信息;并接收实体E以QQ方式发送的5次信息。
步骤S103:根据实体关系图计算各个实体间的状态转移概率。实体间的转移概率可以有两种计算方式,下面具体说明。
以单一传输类型计算:只选择实体关系图中某一传输类型的边计算状态转移概率,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的该传输类型的边的权值与以第一实体为起点的所有该传输类型的边的权值之和的比值。以图2为例,选择传输类型QQ来计算状态转移概率。图中实体A指向实体B的传输类型为QQ的边的权值为128,而以实体A为起点的所有传输类型为QQ的边一共有两条,一条指向实体B,权值为128,一条指向实体D,权值为5,它们的和为133,则实体A向实体B的状态转移概率为128/133=0.962,实体A向实体D的状态转移概率为5/133=0.038。
以多种传输类型计算:选择实体关系图中两种及两种以上的传输类型的边计算状态转移概率,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的至少两种传输类型的边的权值之和与以第一实体为起点的该至少两种传输类型的所有边的权值之和的比值。以图2为例,选择所有三种传输类型来计算状态转移概率。图中实体A指向实体B的三种传输类型的边的权值之和为128+22+5=155,而以实体A为起点的所有这三种传输类型的边的权值之和为128+22+5+12+5+15=187,则实体A向实体B的状态转移概率为155/187=0.828;同理可求得实体A向实体D的状态转移概率为(12+5)/187=0.091;实体A向实体E的状态转移概率为15/187=0.081。当存在多种传输类型时,以多种传输类型计算状态转移概率,可以充分利用多维数据信息,提高预测的准确性。
步骤S104:由各个实体间的状态转移概率生成状态转移概率矩阵M,M的行代表指向关系中的起点实体,列代表终点实体,且同一实体在矩阵M的行和列中位置相同,M的第i行第j列的元素为第i个实体向第j个实体的状态转移概率,其中i和j均为不大于实体个数的正整数。矩阵M每一行的元素之和为1,即
其中i表示列数,j表示行数。以图2为例,由上述以多种传输类型计算的状态转移概率生成的状态转移概率矩阵的结构为:
步骤S105:根据状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率。链接分析算法源于分析网页的重要程度,其原理为,如果有越多的网页能够链接到一个网页,则这个网页被浏览的概率就越高,越有可能是重要的网页,这与实体关系图中关键实体的分析类似。本发明中,使用链接分析算法来计算实体关系图中节点的重要程度,从而寻找出关键实体。
一种实施例中,可以使用链接分析算法中的PageRank算法来计算实体重要程度。PageRank算法的原理为:对于一强连通且非周期性的有向图,其节点间的状态转移概率矩阵为m,初始化各个节点的概率分布R0,R0的元素为各个节点的初始访问概率;定义一随机行走模型,根据概率分布R0和状态转移概率矩阵m访问有向图中的节点,则在时刻0,1,2,...t,...访问各个节点的概率分布为R0,mR0,m2R0,...,mtR0,...,数学上已经证明极限limt→∞mtR0=R存在,则可根据最终收敛的概率分布R得知各个节点的收敛概率,收敛概率越大的节点其重要程度越高。在一种实现方式中,可定义实体关系图中各实体的初始访问概率相等,结合步骤S104得到的实体状态转移概率矩阵M计算最终收敛的概率分布,从而得到各个实体的收敛概率。
步骤S106:选择收敛概率最大的前预定数目个实体作为关键实体。对步骤S105中得到的各个实体的收敛概率进行排序,选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出这些关键实体,以供分析人员参考。
下面通过一个具体的例子,介绍本发明的抽取实体关系图中关键实体的方法在wifi传输数据中的应用。请参考图3,如图3所示,从wifi传输数据中抽取关键实体的方法包括步骤S301~S306,下面具体说明。
步骤S301:获取wifi传输数据。wifi传输数据可通过wifi信号采集硬件设备获取,本实施例以一天的wifi传输数据为例进行分析,一天所获取的wifi传输数据大约为100万条,每条传输数据包括源地址和目的地址,源地址和目的地址为MAC地址,则实体为MAC地址,指向关系为由源地址指向目的地址。
步骤S302:根据wifi传输数据创建MAC地址关系图。
步骤S303:根据MAC地址关系图计算各个MAC地址间的状态转移概率。这里的传输类型可视为只有wifi传输一种,因此可以单一传输类型计算状态转移概率。
步骤S304:由各个MAC地址间的状态转移概率生成状态转移概率矩阵M。
步骤S305:根据状态转移概率矩阵,使用PageRank算法计算各个MAC地址的收敛概率。
步骤S306:选择收敛概率最大的前预定数目个MAC地址作为关键MAC地址。对步骤S305中得到的各个MAC地址的收敛概率进行排序,选择收敛概率最大的前预定数目个MAC地址作为关键MAC地址,并按收敛概率由大到小的顺序输出这些关键MAC地址,以供分析人员参考。
通过分析发现,根据本实施例提取出的关键MAC地址可获得多种有效信息,对于大数据量的快速分析以及获取有用信息起到了重要作用。
本发明还提供一种抽取实体关系图中关键实体的系统,请参考图4,如图4所示,本发明一种实施例的抽取实体关系图中关键实体的系统包括输入模块1、实体关系图创建模块2、状态转移概率计算模块3、实体状态转移概率矩阵生成模块4、链接分析模块5和输出模块6,下面具体说明。
输入模块1用于获取包括实体和指向关系的数据资源。实体可以为微信、QQ等社交软件的用户名,也可以是电话号码,或者电子邮箱地址,或者IP地址、MAC地址等。指向关系指实体间信息传输的方向,例如实体A向实体B发送了一条信息,则指向关系为由实体A指向实体B。根据具体任务的需要,可提取一段时间内的数据资源进行分析,也可提取全量数据进行分析。
一种实施例中,指向关系还包括传输类型,传输类型指实体间通讯的方式,例如实体A通过微信向实体B发送了一条信息,则指向关系为由实体A指向实体B,传输类型为微信。
实体关系图创建模块2用于根据数据资源创建实体关系图,实体关系图为一有向加权图,其每个节点对应一个实体,每条边对应一个指向关系,边的权值为其所对应的指向关系在数据资源中出现的次数。当指向关系包括传输类型时,不同传输类型的指向关系对应实体关系图中不同的边。
请参考图2,图2示出了实体关系图的一个例子。图中节点A、B、C、D、E、F代表实体,指向关系包括QQ、微信和E-mail三种传输类型,与标号为①的曲线类型相同的边代表传输类型为QQ的指向关系,与标号为②的曲线类型相同的边代表传输类型为微信的指向关系,与标号为③的曲线类型相同的边代表传输类型为E-mail的指向关系,括号内的数字代表边的权值,即消息传输的次数。以实体A为例,图中实体A以QQ的方式向实体B发送了128次信息,以微信的方式向实体B发送了22次信息,以E-mail的方式向实体B发送了5次信息;以微信的方式向实体E发送了15次信息;以QQ的方式向实体D发送了5次信息,以E-mail的方式向实体D发送了12次信息;并接收实体E以QQ方式发送的5次信息。
状态转移概率计算模块3用于根据实体关系图计算各个实体间的状态转移概率。实体间的转移概率可以有两种计算方式,下面具体说明。
以单一传输类型计算:只选择实体关系图中某一传输类型的边计算状态转移概率,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的该传输类型的边的权值与以第一实体为起点的所有该传输类型的边的权值之和的比值。以图2为例,选择传输类型QQ来计算状态转移概率。图中实体A指向实体B的传输类型为QQ的边的权值为128,而以实体A为起点的所有传输类型为QQ的边一共有两条,一条指向实体B,权值为128,一条指向实体D,权值为5,它们的和为133,则实体A向实体B的状态转移概率为128/133=0.962,实体A向实体D的状态转移概率为5/133=0.038。
以多种传输类型计算:选择实体关系图中两种及两种以上的传输类型的边计算状态转移概率,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的至少两种传输类型的边的权值之和与以第一实体为起点的该至少两种传输类型的所有边的权值之和的比值。以图2为例,选择所有三种传输类型来计算状态转移概率。图中实体A指向实体B的三种传输类型的边的权值之和为128+22+5=155,而以实体A为起点的所有这三种传输类型的边的权值之和为128+22+5+12+5+15=187,则实体A向实体B的状态转移概率为155/187=0.828;同理可求得实体A向实体D的状态转移概率为(12+5)/187=0.091;实体A向实体E的状态转移概率为15/187=0.081。当存在多种传输类型时,以多种传输类型计算状态转移概率,可以充分利用多维数据信息,提高预测的准确性。
实体状态转移概率矩阵生成模块4用于根据各个实体间的状态转移概率生成实体状态转移概率矩阵M,M的行代表指向关系中的起点实体,列代表终点实体,且同一实体在矩阵M的行和列中位置相同,M的第i行第j列的元素为第i个实体向第j个实体的状态转移概率,其中i和j均为不大于实体个数的正整数。矩阵M每一行的元素之和为1,即
其中i表示列数,j表示行数。以图2为例,由上述以多种传输类型计算的状态转移概率生成的状态转移概率矩阵的结构为:
链接分析模块5用于根据实体状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率。链接分析算法源于分析网页的重要程度,其原理为,如果有越多的网页能够链接到一个网页,则这个网页被浏览的概率就越高,越有可能是重要的网页,这与实体关系图中关键实体的分析类似。本实施例中,使用链接分析算法来计算实体关系图中节点的重要程度,从而寻找出关键实体。
一种实施例中,链接分析模块5使用链接分析算法中的PageRank算法来计算实体重要程度。PageRank算法的原理为:对于一强连通且非周期性的有向图,其节点间的状态转移概率矩阵为m,初始化各个节点的概率分布R0,R0的元素为各个节点的初始访问概率;定义一随机行走模型,根据概率分布R0和状态转移概率矩阵m访问有向图中的节点,则在时刻0,1,2,...t,...访问各个节点的概率分布为R0,mR0,m2R0,...,mtR0,...,数学上已经证明极限limt→∞mtR0=R存在,则可根据最终收敛的概率分布R得知各个节点的收敛概率,收敛概率越大的节点其重要程度越高。在一种实现方式中,可定义实体关系图中各实体的初始访问概率相等,结合实体状态转移概率矩阵生成模块4得到的实体状态转移概率矩阵M计算最终收敛的概率分布,从而得到各个实体的收敛概率。
输出模块6用于选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出这些关键实体。对链接分析模块5得到的各个实体的收敛概率进行排序,选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出这些关键实体,以供分析人员参考。
依据上述实施例的抽取实体关系图中关键实体的方法和系统,可以通过获取海量数据资源生成实体关系图,并使用链接分析算法对实体关系图进行分析从而获得关键实体,不需要人工参与,即使实体关系图的规模随时间不断增长也能够应对,克服了人工分析对于实体关系图规模的限制,使数据处理和实体关系分析的效率大大提高。
本文参照了各种示范实施例进行说明。然而,本领域的技术人员将认识到,在不脱离本文范围的情况下,可以对示范性实施例做出改变和修正。例如,各种操作步骤以及用于执行操作步骤的组件,可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现(例如一个或多个步骤可以被删除、修改或结合到其他步骤中)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。另外,如本领域技术人员所理解的,本文的原理可以反映在计算机可读存储介质上的计算机程序产品中,该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用,包括磁存储设备(硬盘、软盘等)、光学存储设备(CD至ROM、DVD、Blu Ray盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器,使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行,这样存储在计算机可读存储器中的指令就可以形成一件制造品,包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上,从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程,使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。
虽然在各种实施例中已经示出了本文的原理,但是许多特别适用于特定环境和操作要求的结构、布置、比例、元件、材料和部件的修改可以在不脱离本披露的原则和范围内使用。以上修改和其他改变或修正将被包含在本文的范围之内。
前述具体说明已参照各种实施例进行了描述。然而,本领域技术人员将认识到,可以在不脱离本披露的范围的情况下进行各种修正和改变。因此,对于本披露的考虑将是说明性的而非限制性的意义上的,并且所有这些修改都将被包含在其范围内。同样,有关于各种实施例的优点、其他优点和问题的解决方案已如上所述。然而,益处、优点、问题的解决方案以及任何能产生这些的要素,或使其变得更明确的解决方案都不应被解释为关键的、必需的或必要的。本文中所用的术语“包括”和其任何其他变体,皆属于非排他性包含,这样包括要素列表的过程、方法、文章或设备不仅包括这些要素,还包括未明确列出的或不属于该过程、方法、系统、文章或设备的其他要素。此外,本文中所使用的术语“耦合”和其任何其他变体都是指物理连接、电连接、磁连接、光连接、通信连接、功能连接和/或任何其他连接。
具有本领域技术的人将认识到,在不脱离本发明的基本原理的情况下,可以对上述实施例的细节进行许多改变。因此,本发明的范围应仅由权利要求确定。
Claims (4)
1.一种抽取实体关系图中关键实体的方法,其特征在于包括:
获取包括实体和指向关系的数据资源,所述数据资源为一段时间内的wifi传输数据,每条传输数据包括源地址和目的地址,所述源地址和目的地址为MAC地址;所述实体为MAC地址,所述指向关系为由源地址指向目的地址;
根据所述数据资源创建实体关系图,所述实体关系图为一有向加权图,其每个节点对应一个实体,每条边对应一个指向关系,边的权值为其所对应的指向关系在所述数据资源中出现的次数,所述指向关系包括传输类型,不同传输类型的指向关系对应所述实体关系图中不同的边;
根据所述实体关系图计算各个实体间的状态转移概率,其中,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的某一传输类型的边的权值与以第一实体为起点的所有该传输类型的边的权值之和的比值;或者,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的至少两种传输类型的边的权值之和与以第一实体为起点的该至少两种传输类型的所有边的权值之和的比值;
由所述各个实体间的状态转移概率生成实体状态转移概率矩阵,所述实体状态转移概率矩阵的行代表指向关系中的起点实体,列代表终点实体,且同一实体在所述实体状态转移概率矩阵的行和列中位置相同,第i行第j列的元素为第i个实体向第j个实体的状态转移概率,其中i和j均为不大于实体个数的正整数,所述实体状态转移概率矩阵每一行的元素之和为1;
根据所述实体状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率;
选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出所述关键实体。
2.如权利要求1所述的方法,其特征在于,所述链接分析算法为PageRank算法。
3.一种抽取实体关系图中关键实体的系统,其特征在于包括:
输入模块,用于获取包括实体和指向关系的数据资源,所述数据资源为一段时间内的wifi传输数据,每条传输数据包括源地址和目的地址,所述源地址和目的地址为MAC地址;所述实体为MAC地址,所述指向关系为由源地址指向目的地址;
实体关系图创建模块,用于根据所述数据资源创建实体关系图,所述实体关系图为一有向加权图,其每个节点对应一个实体,每条边对应一个指向关系,边的权值为其所对应的指向关系在所述数据资源中出现的次数,所述指向关系包括传输类型,不同传输类型的指向关系对应所述实体关系图中不同的边;
状态转移概率计算模块,用于根据所述实体关系图计算各个实体间的状态转移概率,其中,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的某一传输类型的边的权值与以第一实体为起点的所有该传输类型的边的权值之和的比值;或者,任意一第一实体向一第二实体的状态转移概率为:第一实体指向第二实体的至少两种传输类型的边的权值之和与以第一实体为起点的该至少两种传输类型的所有边的权值之和的比值;
实体状态转移概率矩阵生成模块,用于根据所述各个实体间的状态转移概率生成实体状态转移概率矩阵,所述实体状态转移概率矩阵的行代表指向关系中的起点实体,列代表终点实体,且同一实体在所述实体状态转移概率矩阵的行和列中位置相同,第i行第j列的元素为第i个实体向第j个实体的状态转移概率,其中i和j均为不大于实体个数的正整数,所述实体状态转移概率矩阵每一行的元素之和为1;
链接分析模块,用于根据所述实体状态转移概率矩阵,使用链接分析算法计算各个实体的收敛概率;
输出模块,用于选择收敛概率最大的前预定数目个实体作为关键实体,并按收敛概率由大到小的顺序输出所述关键实体。
4.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1至2中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011079754.2A CN112256801B (zh) | 2020-10-10 | 2020-10-10 | 抽取实体关系图中关键实体的方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011079754.2A CN112256801B (zh) | 2020-10-10 | 2020-10-10 | 抽取实体关系图中关键实体的方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112256801A CN112256801A (zh) | 2021-01-22 |
CN112256801B true CN112256801B (zh) | 2024-04-09 |
Family
ID=74242792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011079754.2A Active CN112256801B (zh) | 2020-10-10 | 2020-10-10 | 抽取实体关系图中关键实体的方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256801B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831059A (zh) * | 2012-08-23 | 2012-12-19 | 北京工业大学 | 基于状态层的软件行为建模方法 |
CN105825430A (zh) * | 2016-01-08 | 2016-08-03 | 南通弘数信息科技有限公司 | 一种基于异构社会网络的检测方法 |
CN105989143A (zh) * | 2015-02-28 | 2016-10-05 | 科大讯飞股份有限公司 | 网络实体热度分析方法及系统 |
CN108132423A (zh) * | 2017-12-14 | 2018-06-08 | 武汉大学 | 一种基于状态转移概率电力系统监测数据失真的快速定位方法 |
CN108399268A (zh) * | 2018-03-29 | 2018-08-14 | 浙江大学 | 一种基于博弈论的增量式异构图聚类方法 |
CN108446861A (zh) * | 2018-03-28 | 2018-08-24 | 南方电网科学研究院有限责任公司 | 基于有向图排序的电力调度系统多源数据质量评价方法 |
CN108446408A (zh) * | 2018-04-13 | 2018-08-24 | 浙江工业大学 | 一种基于PageRank的短文本摘要方法 |
CN108461151A (zh) * | 2017-12-15 | 2018-08-28 | 北京大学深圳研究生院 | 一种知识图谱的逻辑增强方法及装置 |
CN109688043A (zh) * | 2017-10-19 | 2019-04-26 | 中国科学院信息工程研究所 | 一种imap协议多链接关联解析方法及系统 |
CN109889538A (zh) * | 2019-03-20 | 2019-06-14 | 中国工商银行股份有限公司 | 用户异常行为检测方法及系统 |
CN109997154A (zh) * | 2017-10-30 | 2019-07-09 | 上海寒武纪信息科技有限公司 | 信息处理方法及终端设备 |
CN110209827A (zh) * | 2018-02-07 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 搜索方法、装置、计算机可读存储介质和计算机设备 |
CN110516146A (zh) * | 2019-07-15 | 2019-11-29 | 中国科学院计算机网络信息中心 | 一种基于异质图卷积神经网络嵌入的作者名字消歧方法 |
CN110704636A (zh) * | 2019-09-27 | 2020-01-17 | 吉林大学 | 一种改进的基于Node2vec的知识图谱向量表示方法 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
CN111143536A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息抽取方法及存储介质和相关装置 |
CN111291260A (zh) * | 2020-01-20 | 2020-06-16 | 王程 | 一种多元信息驱动的近似融合网络推荐传播方法 |
CN111444317A (zh) * | 2020-03-17 | 2020-07-24 | 杭州电子科技大学 | 一种语义敏感的知识图谱随机游走采样方法 |
CN111538794A (zh) * | 2020-04-24 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种数据融合方法、装置及设备 |
CN111651591A (zh) * | 2019-03-04 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 一种网络安全分析方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10635986B2 (en) * | 2014-05-12 | 2020-04-28 | Hitachi, Ltd. | Information processing system and information processing method |
-
2020
- 2020-10-10 CN CN202011079754.2A patent/CN112256801B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831059A (zh) * | 2012-08-23 | 2012-12-19 | 北京工业大学 | 基于状态层的软件行为建模方法 |
CN105989143A (zh) * | 2015-02-28 | 2016-10-05 | 科大讯飞股份有限公司 | 网络实体热度分析方法及系统 |
CN105825430A (zh) * | 2016-01-08 | 2016-08-03 | 南通弘数信息科技有限公司 | 一种基于异构社会网络的检测方法 |
CN109688043A (zh) * | 2017-10-19 | 2019-04-26 | 中国科学院信息工程研究所 | 一种imap协议多链接关联解析方法及系统 |
CN109997154A (zh) * | 2017-10-30 | 2019-07-09 | 上海寒武纪信息科技有限公司 | 信息处理方法及终端设备 |
CN108132423A (zh) * | 2017-12-14 | 2018-06-08 | 武汉大学 | 一种基于状态转移概率电力系统监测数据失真的快速定位方法 |
CN108461151A (zh) * | 2017-12-15 | 2018-08-28 | 北京大学深圳研究生院 | 一种知识图谱的逻辑增强方法及装置 |
CN110209827A (zh) * | 2018-02-07 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 搜索方法、装置、计算机可读存储介质和计算机设备 |
CN108446861A (zh) * | 2018-03-28 | 2018-08-24 | 南方电网科学研究院有限责任公司 | 基于有向图排序的电力调度系统多源数据质量评价方法 |
CN108399268A (zh) * | 2018-03-29 | 2018-08-14 | 浙江大学 | 一种基于博弈论的增量式异构图聚类方法 |
CN108446408A (zh) * | 2018-04-13 | 2018-08-24 | 浙江工业大学 | 一种基于PageRank的短文本摘要方法 |
CN111651591A (zh) * | 2019-03-04 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 一种网络安全分析方法和装置 |
CN109889538A (zh) * | 2019-03-20 | 2019-06-14 | 中国工商银行股份有限公司 | 用户异常行为检测方法及系统 |
CN110516146A (zh) * | 2019-07-15 | 2019-11-29 | 中国科学院计算机网络信息中心 | 一种基于异质图卷积神经网络嵌入的作者名字消歧方法 |
CN110704636A (zh) * | 2019-09-27 | 2020-01-17 | 吉林大学 | 一种改进的基于Node2vec的知识图谱向量表示方法 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
CN111143536A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息抽取方法及存储介质和相关装置 |
CN111291260A (zh) * | 2020-01-20 | 2020-06-16 | 王程 | 一种多元信息驱动的近似融合网络推荐传播方法 |
CN111444317A (zh) * | 2020-03-17 | 2020-07-24 | 杭州电子科技大学 | 一种语义敏感的知识图谱随机游走采样方法 |
CN111538794A (zh) * | 2020-04-24 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种数据融合方法、装置及设备 |
Non-Patent Citations (5)
Title |
---|
Boundaries and edges rethinking: An end-to-end neural model for overlapping entity relation extraction;Hao Fei 等;《Information Processing & Management》;20200610;1-12 * |
信息科技》.2020,1-54. * |
基于图知识库的分布式信息检索集合选择方法;韩保礼;《信息科技》;20180115;1-62 * |
基于知识图谱的分布式安全事件关联分析技术研究;王伟;《信息科技》;20200215;1-66 * |
王通.威胁情报知识图谱构建技术的研究与实现.《 社会科学Ⅰ辑 * |
Also Published As
Publication number | Publication date |
---|---|
CN112256801A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Banerjee et al. | ComBIM: A community-based solution approach for the Budgeted Influence Maximization Problem | |
Buraczewski et al. | Stochastic models with power-law tails | |
US8583649B2 (en) | Method and system for clustering data points | |
US20160203316A1 (en) | Activity model for detecting suspicious user activity | |
CN111885040A (zh) | 分布式网络态势感知方法、系统、服务器及节点设备 | |
Kapralov et al. | Spectral sparsification via random spanners | |
CN111159184B (zh) | 元数据追溯方法、装置及服务器 | |
CN112766649B (zh) | 基于多评分卡融合的目标对象评价方法及其相关设备 | |
CN104424254A (zh) | 获取相似对象集合、提供相似对象信息的方法及装置 | |
CN110555172A (zh) | 用户关系挖掘方法及装置、电子设备和存储介质 | |
US10250550B2 (en) | Social message monitoring method and apparatus | |
CN112667860A (zh) | 一种子图匹配方法、装置、设备及存储介质 | |
CN105824974A (zh) | 数据分析处理的方法和系统 | |
Whitt et al. | A robust queueing network analyzer based on indices of dispersion | |
US9792337B2 (en) | In-database connectivity components analysis of data | |
Guyet et al. | Incremental mining of frequent serial episodes considering multiple occurrences | |
CN113761565B (zh) | 数据脱敏方法和装置 | |
CN112256801B (zh) | 抽取实体关系图中关键实体的方法、系统和存储介质 | |
Alam et al. | Generating massive scale-free networks: Novel parallel algorithms using the preferential attachment model | |
JP5555238B2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
Adan et al. | Analysis of structured Markov processes | |
CN104461494B (zh) | 一种生成数据处理工具的数据包的方法及装置 | |
Amrouche et al. | Multi-objective stochastic integer linear programming with fixed recourse | |
JP5867208B2 (ja) | データモデル変換プログラム、データモデル変換方法およびデータモデル変換装置 | |
Aghdam et al. | Some node ordering methods for the k2 algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |