CN112966054A

CN112966054A - 基于企业图谱节点间关系的族群划分方法和计算机设备

Info

Publication number: CN112966054A
Application number: CN202110177419.4A
Authority: CN
Inventors: 何浪; 龙非池
Original assignee: Rocking Digital Chongqing Technology Co ltd
Current assignee: Rocking Digital Chongqing Technology Co ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-15

Abstract

本发明提供一种基于企业图谱节点间关系的族群划分方法和确定机设备，本方案通过将每个节点视为一个族群，然后选择一个节点，根据其关联节点的族群及其置信概率，和对应的关系权重，从而确定出该节点的族群及其置信概率，采用同样的方式依次确定其他节点，所有节点确定完后，且节点的族群及其置信概率趋于稳定后，输出企业图谱中各节点的族群及其置信概率。从而实现了将复杂的企业图谱划分为紧密联系的族群，充分考虑了图谱中节点之间关系的权重在族群划分中的重要性，在族群划分过程中加入权重参数；并为节点保存多族群置信概率，最大化利用图谱信息，防止信息遗失，保证了全面性和有效性。

Description

基于企业图谱节点间关系的族群划分方法和计算机设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于企业图谱节点间关系的族群划分方法和计算机设备。

背景技术

企业图谱是一种关于企业、投资人以及投资、任职关系的复杂网络。将企业、投资人抽象为一副图中的节点，节点之间的投资、被投资与任职关系抽象为节点之间的边，这些节点和边共同组成的复杂网络即为企业图谱。近年来企业图谱在企业数据分析领域已经得到了广泛的应用，而族群作为复杂网络中的一个显著特征在企业数据分析方面也有着重要的意义。族群是网络中一些节点所组成的子图，其中子图内的节点的相互关联程度比与子图外的节点的关联程度高。

目前学界已有一些方法，例如LPA标签传播算法，Louvain算法等对复杂网络中的节点进行族群划分，但是这些方法并不适合用于企业图谱中的族群划分。企业图谱中的投资关系和任职关系都是有非常明显的强弱区别的，而传统的算法通常只关注是否存在关系而忽略了关系的强弱。另外传统的算法中只将一个节点归于一个族群，这样的结果在企业图谱的族群分析中会遗漏很大量信息，无法保证分析的全面性和有效性。

发明内容

基于此，有必要针对上述技术问题，提供一种基于企业图谱节点间关系的族群划分方法和计算机设备。

一种基于企业图谱节点间关系的族群划分方法，所述方法包括：根据接收的企业数据建立企业图谱，所述企业图谱中包括节点和节点间的关系及权重，所述节点具体为企业和个人；初始化所述企业图谱中的节点，将每个节点定义为一个族群，并设置所述族群的置信概率为100％；基于所述企业图谱，随机选择一个节点作为目标节点，根据所述目标节点的关联节点和权重关系，确定所述目标节点的族群及其置信概率；基于所述企业图谱，将剩余节点依次作为目标节点，进行族群及其置信概率的确定；判断所述企业图谱中的所有节点是否完成族群及其置信概率的确定，若完成则判断所述节点的族群及其置信概率是否稳定；当所述节点的族群及其置信概率趋于稳定时，输出所述企业图谱中各节点的族群及其置信概率。

在其中一个实施例中，所述节点和节点间的关系及权重，包括：节点与节点间的投资关系、任职关系以及相似关系，投资关系的权重由其股分占比确定，任职关系的权重由其职位确定，相似度关系的权重由其相似度确定。

在其中一个实施例中，所述基于所述企业图谱，随机选择一个节点作为目标节点，根据所述目标节点的关联节点和权重关系，确定所述目标节点的族群及其置信概率，具体为：基于所述企业图谱，随机选择一个节点作为目标节点；根据所述企业图谱，查询所述目标节点的关联节点及其关联关系和关系权重；获取所述关联节点的族群及其置信概率，将所述关联节点的族群置信概率与对应的关系权重相乘作为传播结果；将传播到所述目标节点的所有关联节点的所有族群群标签的置信概率进行求和，并经过归一化得到所述目标节点的族群及其置信概率。

在其中一个实施例中，所述当关联节点同时与所述目标节点存在多种关联关系时，其对应的关系权重通过各种关联关系对应的关系权重叠加得到。

在其中一个实施例中，所述判断所述企业图谱中的所有节点是否完成族群及其置信概率的确定步骤之后，还包括：若存在节点未完成确定时，迭代执行随机选取一个节点作为目标节点，确定所述目标节点的族群及其置信概率，并进一步确定剩余节点的族群及其置信概率的步骤；直至所有节点完成确定，则停止迭代。

在其中一个实施例中，所述判断所述企业图谱中的所有节点是否完成族群及其置信概率的确定，若完成则判断所述节点的族群及其置信概率是否稳定步骤之后，还包括：当所述企业图谱中所有节点的族群及其置信概率不稳定时，重置所有节点为未遍历状态，迭代执行随机选取一个节点作为目标节点，确定所述目标节点的族群及其置信概率，并进一步确定剩余节点的族群及其置信概率，以及判断所述节点的族群及其置信概率是否稳定的步骤；直至所述节点的族群及其置信概率趋于稳定为止。

在其中一个实施例中，所述判断所述节点的族群及其置信概率是否稳定的标准具体为：判断预设的阈值范围内节点的特定置信概率排名范围内的族群是否变化，当族群不变化时，则所述节点的族群及其置信概率趋于稳定。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述各个实施例中所述的基于企业图谱节点间关系的族群划分方法的步骤。

上述基于企业图谱节点间关系的族群划分方法和计算机设备，通过将每个节点视为一个族群，然后选择一个节点，根据其关联节点的族群及其置信概率，和对应的关系权重，从而确定出该节点的族群及其置信概率，采用同样的方式依次确定其他节点，所有节点确定完后，且企业图谱内节点的族群及其置信概率趋于稳定后，输出企业图谱中各节点的族群及其置信概率。从而实现了将复杂的企业图谱划分为紧密联系的族群。与传统算法相比，本方案具有如下优点：1、充分考虑了图谱中节点之间关系的权重在族群发现中的重要性，在族群确定过程中加入权重参数；2、利用节点属性判断节点之间的相似度，通过相似度影响传播权重，继续提升族群发现的准确性；3、为节点保存多族群置信概率，最大化利用图谱信息，防止信息遗失。

附图说明

图1为一个实施例中基于企业图谱节点间关系的族群划分方法的应用场景图；

图2为一个实施例中基于企业图谱节点间关系的族群划分方法的流程示意图；

图3为一个实施例中企业图谱中企业A的关联节点示意图；

图4是一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请提供的基于企业图谱节点间关系的族群划分方法，可以应用于如图1所示的应用环境中。其中，终端1则是本方法所实施的场所，终端1可以服务器2进行网络交互，其中，终端1接收来自服务器2的企业数据，最终得到的企业图谱中各节点的族群及其置信概率，是可以通过网络传输至服务器2中，同样的，本方案实施场所也可以是通过服务器的形式，这里只是一种场景，并不限于本场景。其中，终端1可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器2可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于企业图谱节点间关系的族群划分方法，包括以下步骤：

S110根据接收的企业数据建立企业图谱，企业图谱中包括节点和节点间的关系及权重，节点具体为企业和个人。

具体地，将全量企业数据输入到一张图中，企业和个人构成图中的节点，节点具有各种属性，其中企业节点具有经营范围、所属行业、企业地址等属性，个人具有性别、年龄等属性；同时，企业图谱中的边也存在投资和任职两种情况，投资关系中的投资额与投资占比以及任职中担任法人代表还是高管都是数据分析中需要重点考虑的部分。这些因素的存在大大加剧了企业图谱的复杂性，在对企业图谱进行族群发现时也需要更全面的考虑。

在一个实施例中，步骤S110中节点和节点间的关系及权重，包括：节点与节点间的投资关系、任职关系以及相似关系，投资关系的权重由其股分占比确定，任职关系的权重由其职位确定，相似度关系的权重由其相似度确定。具体地，节点与节点之间具体分为三种关联关系，一是投资关系，二是任职关系，三则是相似度。越紧密的关系对应着越高的权重，紧密关系连接的双方也更应该属于同一个族群。企业图谱中任职和投资这两种关系应该分开讨论：任职关系存在于个人节点与企业节点之间，具体的分为法人代表和企业高管两种情况，通常来说法人代表是企业中最为重要的人员，因此法人代表任职关系权重高于普通高管的任职关系权重；投资关系在个人节点与企业或者企业与企业之间都存在，而投资关系中最重要的是投资占比属性，权重与投资占比正相关，与投资方向无关。在企业图谱中的每一个节点都具有自己的属性，其中企业节点会具有经营范围、所属行业、企业地址等属性，相同或者近似的属性会增强企业间关联关系，而差异较大或无关的属性则不影响企业间的关联关系。因此需要根据企业节点属性调整关系权重，对于关联程度高的企业节点之间关系权重进行适当的调高，关联程度越高则调整幅度越大。

S120初始化企业图谱中的节点，将每个节点定义为一个族群，并设置族群的置信概率为100％。

具体地，初始化企业图谱中的节点，将每个节点作为一个族群，并设置该节点属于该族群的置信概率为100％。完成初始化后图谱中的族群数量与节点数量相等，每个节点都属于各自的族群。初始化后将图谱中所有节点设置为未遍历状态，为后续的遍历过程做准备。

S130基于企业图谱，随机选择一个节点作为目标节点，根据目标节点的关联节点和权重关系，确定目标节点的族群及其置信概率。

具体地，从图谱中随机选取一个未遍历节点作为传播的目标节点，查询与该节点关联节点的族群和每个族群对应的置信概率。并利用关联节点与目标节点间的关系权重，以及关联节点的族群和每个族群对应的置信概率，确定目标节点的族群及其置信概率。其中，节点所属于的族群，其置信概率就越大。

在一个实施例中，步骤S130具体为：基于企业图谱，随机选择一个节点作为目标节点；根据企业图谱，查询目标节点的关联节点及其关联关系和关系权重；获取关联节点的族群及其置信概率，将关联节点的族群置信概率与对应的关系权重相乘作为传播结果；将传播到目标节点的所有关联节点的所有族群群标签的置信概率进行求和，并经过归一化得到目标节点的族群及其置信概率。具体地，利用节点之间关系中的股权占比或任职信息逐一确定每条关联节点与目标节点之间的权重。对于投资关系，则权重为投资额在被投资企业股本中的所占比例；对于任职关系，则为不同的职位设置对应的权重，关键职位的权重应该高于非关键职位。之后如果关联节点与目标节点都为企业，则确定企业之间的相似度，如果相似度较高，则对连接两者的关系权重进行上调，否则不做调整。然后将关联节点的族群及其置信概率与对应的关系权重相乘作为传播结果，目标节点记录所有族群的概率并分别求和，最终经过归一化得到自身的族群和对应的置信概率。完成传播后目标节点设置为已遍历状态，方便后续随机选取节点遍历操作的执行。

在一个实施例中，步骤130中，当关联节点同时与目标节点存在多种关联关系时，其对应的关系权重通过各种关联关系对应的关系权重叠加得到。具体地，如果某个关联节点同时与目标节点之间存在任职关系和投资关系，则将两种关系的权重相加，作为该关联节点的最终的关系权重，再进行后续确定。或者某个关联节点同时与目标节点之间同时存在投资关系和相似性，则同样在投资关系的权重上增加相似性的权重作为最终的关系权重，再用最终的关系权重进行后续的确定。

S140基于企业图谱，将剩余节点依次作为目标节点，进行族群及其置信概率的确定。

具体地，采用同样的确定方法，依次确定剩余节点的族群及其置信概率。这样的方法确定出来的目标节点的族群会有很多个，随着步骤130和140的迭代次数的增加。每个节点保存的族群信息递增，因此一般一个节点最多保留置信概率排名前三的族群，从而降低计算量，便于后续确定过程的执行。

S150判断企业图谱中的所有节点是否完成族群及其置信概率的确定，若完成则判断节点的族群及其置信概率是否稳定。

具体地，判断企业图谱中的节点是否都已完成本轮遍历，如果完成就进入节点的族群及其置信概率是否稳定的判断。

在一个实施例中，步骤S150中判断企业图谱中的所有节点是否完成族群及其置信概率的确定之后，还包括：若存在节点未完成确定时，迭代执行随机选取一个节点作为目标节点，确定目标节点的族群及其置信概率，并进一步确定剩余节点的族群及其置信概率的步骤；直至所有节点完成确定，则停止本轮迭代。具体地，如果企业图谱中存在节点没有完成本轮确定，则重复步骤S130至S140，直至所有的节点都完成确定为止。

在一个实施例中，步骤S150之后，还包括：当企业图谱中所有节点的族群及其置信概率不稳定时，重置所有节点为未遍历状态，迭代执行随机选取一个节点作为目标节点，确定目标节点的族群及其置信概率，并进一步确定剩余节点的族群及其置信概率，以及判断节点的族群及其置信概率是否稳定的步骤；直至节点的族群及其置信概率趋于稳定为止。具体地，当节点的族群及其置信概率不稳定时，即大多数节点的族群还存在变化，则重复步骤S120至S150，直至节点的族群及其置信概率趋于稳定为止。

在一个实施例中，步骤S150中判断节点的族群及其置信概率是否稳定的标准具体为：判断预设的阈值范围内节点的特定置信概率排名范围内的族群是否变化，当族群不变化时，则节点的族群及其置信概率趋于稳定。具体地，由于企业图谱中节点的族群会在算法执行过程中不断变化，其对关联节点的族群的影响也在不断变化，只有经过一定次数的迭代之后，图谱中节点的族群和置信概率才能达到一个相对稳定的状态。可以根据计算资源的限制程度分别设置不同的迭代终止条件，例如较为严苛的99.99％的节点的置信概率前三的族群保持不变，或者较为宽松的99.9％的节点的第一置信概率的族群保持不变。

S160当节点的族群及其置信概率趋于稳定时，输出企业图谱中各节点的族群及其置信概率。

具体地，当节点的族群及其置信概率趋于稳定时，最后输出企业图谱中各节点的族群及其置信概率，这里的族群同样根据其置信概率进行排序选择，可根据实际需求，设置一个筛选阈值，只有对应置信概率大于该阈值的族群才作为最终的输出，输出的为一个节点可以属于多个族群，且含有属于每个族群的置信概率。

上述实施例中，通过将每个节点视为一个族群，然后选择一个节点，根据其关联节点的族群及其置信概率，和对应的关系权重，从而确定出该节点的族群及其置信概率，采用同样的方式依次确定其他节点，所有节点确定完后，且节点的族群及其置信概率趋于稳定后，输出企业图谱中各节点的族群及其置信概率；从而实现了将复杂的企业图谱划分为紧密联系的族群。与传统算法相比，本方案具有如下优点：1、充分考虑了图谱中节点之间关系的权重在族群发现中的重要性，在族群确定过程中加入权重参数；2、利用节点属性判断节点之间的相似度，通过相似度影响传播权重，继续提升族群发现的准确性；3、为节点保存多族群置信概率，最大化利用图谱信息，防止信息遗失。本方法所提算法充分利用了企业图谱的特征，从而实现企业图谱中准确、合理的族群划分，方便用户发现企业之间的联系，为投资推荐、风险控制等后续分析过程提供基础。

在一个实施例中，如图3所示，提供了企业图谱中企业A的关联节点示意图，其中，图谱中共存在三家企业A、B、C和三个个人a、b、c，企业属性、投资关系、任职关系与族群及其置信概率分别如图中标注，其中企业B为族群1的概率为50％、族群2的概率为50％，企业C为族群1的概率为40％、族群3的概率为60％，个人a为族群1的概率为30％、族群2的概率为70％，个人b为族群1的概率为20％、族群3的概率为80％，个人c为族群4的概率为100％。

假设本次迭代除企业A外的其他节点都已完成族群更新，现在选取企业A根据与其有关联的节点进行族群更新。假设图谱中的任职关系权重分别为：法人代表30％，高管10％，相关行业权重增加10％。

根据上述信息，企业A的族群更新过程如下：

1、企业B传播：由于企业B所属的地产业与企业A所属的建材业属于关联行业，传播权重由20％增强至30％，那么可以计算得到q₁＝50％×30％＝15％，q₂＝50％×30％＝15％；

2、企业C传播：由于企业C所属的食品业与企业A所属的建材业不属于关联行业，传播权重不变，q₁＝40％×50％＝20％，q₃＝60％×50％＝30％；

3、个人a传播：q₁＝30％×20％＝6％，q₂＝70％×20％＝14％；

4、个人b传播：由于个人b既有投资同时又担任企业A的法人代表，传播权重相加之后为80％，q₁＝20％×80％＝16％，q₃＝80％×80％＝64％；

5、个人c传播：由于个人c担任企业A的高管，传播权重为10％，q₄＝100％×10％＝10％。

将上述结果像之后可得：

q₁＝15％+20％+6％+16％＝57％

q₂＝15％+14％＝29％

q₃＝30％+64％＝94％

q₄＝10％

经过归一化之后，企业A的族群及其置信概率为：

将计算的族群置信概率更新至企业A节点之后完成本次迭代。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储配置模板，还可用于存储目标网页数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于企业图谱节点间关系的族群划分方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

显然，本领域的技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于企业图谱节点间关系的族群划分方法，其特征在于，包括：

根据接收的企业数据建立企业图谱，所述企业图谱中包括节点和节点间的关系及权重，所述节点具体为企业和个人；

初始化所述企业图谱中的节点，将每个节点定义为一个族群，并设置所述族群的置信概率为100％；

基于所述企业图谱，随机选择一个节点作为目标节点，根据所述目标节点的关联节点和权重关系，确定所述目标节点的族群及其置信概率；

基于所述企业图谱，将剩余节点依次作为目标节点，进行族群及其置信概率的确定；

判断所述企业图谱中的所有节点是否完成族群及其置信概率的确定，若完成则判断所述节点的族群及其置信概率是否稳定；

当所述节点的族群及其置信概率趋于稳定时，输出所述企业图谱中各节点的族群及其置信概率。

2.如权利要求1所述的方法，其特征在于，所述节点和节点间的关系及权重，包括：节点与节点间的投资关系、任职关系以及相似关系，投资关系的权重由其股分占比确定，任职关系的权重由其职位确定，相似度关系的权重由其相似度确定。

3.如权利要求2所述的方法，其特征在于，所述基于所述企业图谱，随机选择一个节点作为目标节点，根据所述目标节点的关联节点和权重关系，确定所述目标节点的族群及其置信概率，具体为：

基于所述企业图谱，随机选择一个节点作为目标节点；

根据所述企业图谱，查询所述目标节点的关联节点及其关联关系和关系权重；

获取所述关联节点的族群及其置信概率，将所述关联节点的族群置信概率与对应的关系权重相乘作为传播结果；

将传播到所述目标节点的所有关联节点的所有族群群标签的置信概率进行求和，并经过归一化得到所述目标节点的族群及其置信概率。

4.如权利要求3所述的方法，其特征在于，所述当关联节点同时与所述目标节点存在多种关联关系时，其对应的关系权重通过各种关联关系对应的关系权重叠加得到。

5.如权利要求1所述的方法，其特征在于，所述判断所述企业图谱中的所有节点是否完成族群及其置信概率的确定步骤之后，还包括：

若存在节点未完成确定时，迭代执行随机选取一个节点作为目标节点，确定所述目标节点的族群及其置信概率，并进一步确定剩余节点的族群及其置信概率的步骤；

直至所有节点完成确定，则停止迭代。

6.如权利要求1所述的方法，其特征在于，所述判断所述企业图谱中的所有节点是否完成族群及其置信概率的确定，若完成则判断所述节点的族群及其置信概率是否稳定步骤之后，还包括：

当所述企业图谱中所有节点的族群及其置信概率不稳定时，重置所有节点为未遍历状态，迭代执行随机选取一个节点作为目标节点，确定所述目标节点的族群及其置信概率，并进一步确定剩余节点的族群及其置信概率，以及判断所述节点的族群及其置信概率是否稳定的步骤；

直至所述节点的族群及其置信概率趋于稳定为止。

7.如权利要求1和6所述的方法，其特征在于，所述判断所述节点的族群及其置信概率是否稳定的标准具体为：

判断预设的阈值范围内节点的特定置信概率排名范围内的族群是否变化，当族群不变化时，则所述节点的族群及其置信概率趋于稳定。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。