CN110232078A - 一种企业集团关系获取方法及系统 - Google Patents

一种企业集团关系获取方法及系统 Download PDF

Info

Publication number
CN110232078A
CN110232078A CN201910342464.3A CN201910342464A CN110232078A CN 110232078 A CN110232078 A CN 110232078A CN 201910342464 A CN201910342464 A CN 201910342464A CN 110232078 A CN110232078 A CN 110232078A
Authority
CN
China
Prior art keywords
class
node
enterprise
nodes
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910342464.3A
Other languages
English (en)
Other versions
CN110232078B (zh
Inventor
丁凯
徐杰
苏国辉
徐蓓芸
吴丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Linguan Data Technology Co.,Ltd.
Shanghai Shengteng Data Technology Co.,Ltd.
Shanghai yingwuchu Data Technology Co.,Ltd.
Shanghai Hehe Information Technology Development Co Ltd
Original Assignee
Shanghai Shengteng Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shengteng Data Technology Co Ltd filed Critical Shanghai Shengteng Data Technology Co Ltd
Priority to CN201910342464.3A priority Critical patent/CN110232078B/zh
Publication of CN110232078A publication Critical patent/CN110232078A/zh
Application granted granted Critical
Publication of CN110232078B publication Critical patent/CN110232078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种企业集团关系获取方法,包括:基于企业工商信息构建图;图中的节点和边均分为两类。对所构建的图进行分割,得到一个或多个连通子图。在每一个连通子图中,如果任意两个节点之间通过多条第一类边以相同方向连接,则为这两个节点之间新增第三类边。在每一个连通子图中,如果任意两个第一类节点之间通过一个或多个第二类边和第二类节点相连接,则为这两个第一类节点之间新增第四类边。在每一个连通子图中,根据任意两个第一类节点之间的第一类边、第三类边、第四类边,判定这两个第一类节点是否属于一个集合。本申请采用图计算的方式进行数据挖掘处理,处理效率高并且可以应对复杂的股权投资和高管派驻关系。

Description

一种企业集团关系获取方法及系统
技术领域
本申请涉及一种数据挖掘(Data Mining)方法,特别是涉及一种基于图挖掘(Graph Mining)来获取企业集团关系的方法。
背景技术
数据挖掘是指从大量数据中通过算法发现和提取隐藏于其中的有用信息的过程。图挖掘是指利用图论(graph theory)中的图(graph)进行数据挖掘。图论是数学的一个分支,它以图为研究对象。图论中的图是由若干给定的节点(也称顶点、点、vertice、node或point)及连接节点的边(也称线、edge、arc或line)所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用节点代表事物,用边表示两个事物间具有某种关系。
企业在实际经营中,经常存在一家企业通过股权投资和/或高管派驻等方式对另外一家企业的经营决策进行控制,这就使得这些企业之间存在一种企业集团关系。企业之间的集团关系隐藏了很多经济活动中的风险,例如同属一个集团的两家企业之间的担保就存在自保的风险,因此有效获取企业集团关系就显得尤为必要。
目前国内有企业近2亿家,其数量还在快速增加。企业之间的股权投资关系有时非常复杂,例如交叉持股、多层持股等。企业之间还存在派驻董事、监事等高管人员的情况。在如此大量的数据中快速高效地获取企业集团关系尤为困难。
发明内容
本申请所要解决的技术问题是提供一种企业集团关系获取方法,通过图计算来挖掘企业之间存在的复杂的集团关系。为此,本申请还要提供一种企业集团关系获取系统。
为解决上述技术问题,本申请提供了一种企业集团关系获取方法,包括如下步骤:步骤102:基于企业工商信息中的股东及出资比例和企业高管数据构建图;图中的节点分为两类,第一类节点是企业,第二类节点是担任企业高管的自然人;图中的边也分为两类,第一类边是从股东指向所投资企业的有方向的边,边属性为直接投资比例;第二类边连接企业及其高管。步骤104:对所构建的图进行分割,得到一个或多个连通子图。步骤106:在每一个连通子图中,如果任意两个节点之间通过多条第一类边以相同方向连接,则为这两个节点之间新增第三类边;第三类边的方向与多条第一类边的结合所指向的方向相同,边属性为实际投资比例。步骤108:在每一个连通子图中,如果任意两个第一类节点之间通过一个或多个第二类边和第二类节点相连接,则为这两个第一类节点之间新增第四类边,边属性为高管相似度。所述步骤106、步骤108的顺序或者互换,或者同时进行。步骤110:在每一个连通子图中,根据任意两个第一类节点之间的第一类边、第三类边、第四类边,判定这两个第一类节点是否属于一个集合;每个集合仅包含两个第一类节点。
上述企业集团关系获取方法采用图计算的方式进行数据挖掘处理,处理效率高并且可以应对较为复杂的股权投资关系和高管派驻关系。一个集合就是一个企业集团,一个集合中的两个第一类节点就是一个企业集团中的两个企业。
进一步地,所述步骤102中,先对企业工商信息中的股东及出资比例、企业高管数据进行数据清洗,再对经过清洗后的数据通过图计算的数据结构进行建模。所述数据清洗操作有利于提升构建图的原始数据的准确性与有效性。
进一步地,所述步骤106中,所述实际投资比例为第三类边所连接的两个节点之间由一条或多条第一类边构成的每一条路径所表示的直接或间接投资比例之和。这是获取第三类边的属性的优选实现形式。
进一步地,所述步骤106中,如果任意两个节点之间既有第一类边直接连接,又通过多条第一类边以相同方向连接,则将直接连接的第一类边改为第三类边,同时将第一类边的直接投资比例的边属性改为第三类边的实际投资比例的边属性。这是将新增第三类边改为将原本具有的第一类边修改为第三类边,从而构成了步骤106的可替换的实现形式。
进一步地,所述步骤108中,所述高管相似度为max(COM_12/NUM_1, COM_12/NUM_2)。或者,所述高管相似度为2×COM_12/(NUM_1+NUM_2)。或者,所述高管相似度为COM_12/min(NUM_1, NUM_2)。其中,max函数表示取两者或多者中的最大者,min函数表示取两者或多者中的最小者,COM_12表示这两个第一类节点所共同连接的第二类节点的数量,NUM_1表示其中一个第一类节点直接连接的全部第二类节点的数量(即所直接连接的全部第二类边的数量),NUM_2表示其中另一个第二类节点直接连接的全部第二类节点的数量(即所直接连接的全部第二类边的数量)。这是获取第四类边的边属性的优选实现形式。
进一步地,所述步骤110中,判定规则一为:设定第一阈值,任意两个第一类节点之间如果存在第三类边、且第三类边的属性所记载的实际投资比例大于或等于第一阈值,则判定这两个节点属于一个集合。或者,判定规则二为:对任意一个第一类节点而言,从指向该节点的所有第一类边中选择直接投资比例最大的那个节点,将该第一类节点和所选取的节点判定为属于一个集合。或者,判定规则三为:对任意一个第一类节点而言,从指向该节点的所有第一类边和第三类边中选择实际投资比例最大的节点、实际投资比例第二大的节点,并且最大的实际投资比例≥k倍的第二大的实际投资比例时,将该第一类节点和实际投资比例最大的节点判定为属于一个集合。或者,判定规则四为:设定第二阈值,任意两个第一类节点之间如果存在第四类边、且第四类边的属性所记载的高管相似度大于或等于第二阈值,则判定这两个节点属于一个集合。或者,满足判定规则一至三中任意一个,同时满足判定规则四,则判定这两个节点属于一个集合。这是判定任意两个第一类节点是否属于一个集合的几种可能的实现形式。
进一步地,所述步骤110之后新增步骤112与步骤114。步骤112:在每一个连通子图中,为属于一个集合的两个第一类节点之间新增第五类边,边属性为企业集团的名称或标识。步骤114:在每一个连通子图中,将由一条或多条第五类边相连接的两个以上的第一类节点归属为同一个集合,每个集合包括两个以上的第一类节点。新增加的步骤用来将任意两个第一类节点所属的集合进行合并,从而获取任意多个第一类节点的集合。一个集合就是一个企业集团,一个集合中的多个第一类节点就是一个企业集团中的多个企业。
进一步地,所述步骤114中,如果任意两个以上的第一类节点之间通过一条或多条第五类边相连接,则将连接这些第一类节点的所有第五类边的边属性改为相同的企业集团的名称或标识。这是合并集合的一种附加操作方式。
进一步地,所述步骤114的具体实现方式为:将一个连通子图中的所有节点放入数组一,每一轮对数组一中的所有节点进行更新;更新方法为对每个节点所连接的所有第五类边的边属性进行更新,更新后的第五类边的边属性为该节点所连接的所有第五类边的边属性的最小者;每更新一个节点,将该节点存入数组二;如果某个节点在更新前后的所有第五类边的边属性均无变化,则表示该节点无更新,不放入数组二;每更新一轮后判断数组二是否为空,如果不为空则清空数组二继续对数组一中的所有节点进行更新,直到数组二为空时停止更新。这是这是合并集合的一种优选实现形式。
本申请还提供了一种企业集团关系获取系统,包括顺序连接的图构建模块、连通子图切分模块、第三类边扩展模块、第四类边扩展模块和判定模块。所述图构建模块用来基于企业工商信息中的股东及出资比例和企业高管数据构建图;图中的节点分为两类,第一类节点是企业,第二类节点是担任企业高管的自然人;图中的边也分为两类,第一类边是从股东指向所投资企业的有方向的边,边属性为直接投资比例;第二类边连接企业及其高管。所述连通子图切分模块用来对所构建的图进行分割,得到一个或多个连通子图。所述第三类边扩展模块用来为通过多条第一类边以相同方向连接的任意两个节点之间新增第三类边;第三类边的方向与多条第一类边的结合所指向的方向相同,边属性为实际投资比例。所述第四类边扩展模块用来为通过一个或多个第二类边和第二类节点连接的任意两个第一类节点之间新增第四类边,边属性为高管相似度。或者,所述第三类边扩展模块、第四类边扩展模块的连接顺序互换,或者合并为一个模块。所述判定模块用来根据任意两个第一类节点之间的第一类边、第三类边、第四类边,判定这两个第一类节点是否属于一个集合;每个集合仅包含两个第一类节点。
上述企业集团关系获取系统采用图计算的方式进行数据挖掘处理,处理效率高并且可以应对较为复杂的股权投资关系和高管派驻关系。
进一步地,在所述判定模块之后还包括第五类边扩展模块和合并模块。所述第五类边扩展模块用来为属于一个集合的两个第一类节点之间新增第五类边,边属性为企业集团的名称或标识。所述合并模块用来将由一条或多条第五类边相连接的两个以上的第一类节点归属为同一个集合,每个集合包括两个以上的第一类节点。新增加的模块用来将任意两个第一类节点所属的集合进行合并,从而获取任意多个第一类节点的集合。
本申请取得的技术效果是利用图计算的方式来获取企业集团关系,由于对每个企业(第一类节点)的处理不影响其他企业,因此可以采用高并发的方式快速处理,处理效率高,可以实现全国近2亿家企业的集团关系获取。此外,通过对实体之间的持股关系、高管关系进行穿透性分析,可以深入挖掘出交叉持股、多层持股、派驻高管等复杂情形下所隐藏的企业集团关系。
附图说明
图1是本申请的企业集团关系获取方法的实施例一的流程示意图。
图2是图1中的步骤102所构建的图的一个示例的示意图。
图3是图1中的步骤104所划分连通子图的一个示例的示意图。
图4至图6是图1中的步骤106新增或修改为第三类边的三个示例的示意图。
图7是图1中的步骤108新增第四类边的一个示例的示意图。
图8是本申请的企业集团关系获取方法的实施例二的流程示意图。
图9是图8中的步骤112新增第五类边的一个示例的示意图。
图10是本申请的企业集团关系获取系统的实施例一的结构示意图。
图11是本申请的企业集团关系获取系统的实施例二的结构示意图。
图中附图标记说明:82为图构建模块;84为连通子图切分模块;86为第三类边扩展模块;88为第四类边扩展模块;810为判定模块;812为第五类边扩展模块;814为合并模块。
具体实施方式
请参阅图1,这是本申请企业集团关系获取方法的实施例一,包括如下步骤。
步骤102:基于企业工商信息中的股东姓名或名称及出资比例、和企业高管(高层管理人员,例如法定代表人、董事、监事等)数据构建图(graph)。所述企业工商信息是指企业在工商行政管理部门登记的信息,主要包括企业名称、企业股东及出资比例、企业董事、监事、法定代表人等高管信息、企业地址、企业注册资本等。
图中的节点分为两类,第一类节点是企业,第二类节点是担任企业高管的自然人。例如,每个节点包括节点名称、节点类型两个属性。节点名称是指该节点的企业名称或者自然人姓名。节点类型是指该节点是企业还是自然人。
图中的边也分为两类,第一类边是从股东指向所投资企业的有方向的边,其中边的方向表示直接投资关系;第二类边连接企业及其高管,可以不具有方向。例如,第一类边的边属性为直接投资比例,第二类边的边属性为自然人在企业中担任的职位。
各个节点的节点名称和节点类型、各条边的方向和边属性都可以从企业工商信息中直接获取得到。
优选地,这一步先对企业工商信息中的股东及出资比例、企业高管数据进行数据清洗(data cleaning),再对经过清洗后的数据通过图计算的数据结构进行建模。所述数据清洗例如包括股权比例合法性检测清洗、高管合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一项或多项。所述建模例如是先将企业、担任企业高管的自然人分别作为第一类节点、第二类节点,为各节点赋予节点名称和节点类型;再将节点之间的直接投资关系和高管任职关系作为连接各节点的边,为各条边赋予边属性,其中第一类边还通过方向指示直接投资关系。
请参阅图2,这是步骤102所构建的图的一个示例。图中的第一类节点为圆形并用大写英文字母A、B、C等表示,第二类节点为方形并用P1、P2、P3等表示。图中的第一类边是有箭头的边并用k1、k2、k3等表示,第二类边是无箭头的边并用q1、q2、q3等表示。例如,某企业有三个企业股东和一个自然人股东,就可用第一类节点B表示该企业,用三个第一类节点A、E、F分别表示三个企业股东,用第二类节点P4表示自然人股东,用第一类边k1、k6、k7、k8的箭头方向表示直接投资关系,用第一类边k1、k6、k7、k8的边属性表示直接投资比例。又如,某人同时在两家企业担任高管,就可用第二类节点P1表示该自然人,用两个第一类节点A、E分别表示该自然人担任高管的两家企业,用两条第二类边q1、q2的边属性表示该自然人在每家企业担任的高管职位。
步骤104:对步骤102所构建的图进行分割,得到一个或多个连通子图(connectedsubgraph)。在步骤102所构建的图中,任意两个节点之间如果能通过一条或多条边相连接,则在一个连通子图内;否则就分别属于不同的连通子图。
请参阅图3,图2所示的图在分割后可以得到三个连通子图。对图进行分割以划分连通子图可通过多种现有算法实现,本申请对此不再赘述。
步骤106:在每一个连通子图中,如果任意两个节点之间通过多条第一类边以相同方向连接,则为这两个节点之间新增第三类边。第三类边是有方向的,与连接这两个节点的多条第一类边的结合所指向的方向相同。第三类边的边属性为实际投资比例,由所述两个节点之间由一条或多条第一类边构成的所有路径通过计算得到。第三类边的边属性反映的是两个实体之间计算股权穿透后的实际投资比例。
请参阅图4,图3中的连通子图一中,两个节点A、D之间通过多条第一类边以相同方向连接。首先,节点A通过第一类边k1指向并连接节点B,节点B又通过第一类边k3指向并连接节点D,这是从节点A指向并连接到节点D的由两条第一类边k1、k3所组成的第一路径。第一路径表示企业A通过企业B间接投资企业D,该条路径的间接投资比例是第一类边k1、k3的边属性所记载的直接投资比例的乘积即k1×k3。其次,节点A通过第一类边k2指向并连接节点C,节点C又通过第一类边k4指向并连接节点D,这是从节点A指向并连接到节点D的由两条第一类边k2、k4所组成的第二路径。第二路径表示企业A通过企业C间接投资企业D,该条路径的间接投资比例是第一类边k2、k4的边属性所记载的直接投资比例的乘积即k2×k4。那么,企业A对企业D虽然没有直接投资,但通过企业B和企业C均有间接投资,企业A对企业D的实际投资比例可由两条路径分别表示的间接投资比例相加得到。为企业A到企业D之间增加一条第三类边s1,第三类边s1的方向是从企业A指向企业D表示实际投资关系,第三类边s1的边属性是企业A对企业D的实际投资比例即k1×k3+k2×k4。
请参阅图5,图3中的连通子图二中,两个节点I、L之间通过多条第一类边以相同方向连接。首先,节点I通过第一类边k10指向并连接节点J,节点J又通过第一类边k12指向并连接节点L,这是从节点I指向并连接到节点L的由两条第一类边k10、k12所组成的第一路径。第一路径表示企业I通过企业J间接投资企业L,该条路径的间接投资比例是第一类边k10、k12的边属性所记载的直接投资比例的乘积即k10×k12。除此之外,节点I还通过第一类边k11指向并连接节点L,这是从节点I指向并连接到节点L的由第一类边k11构成的第二路径。第二路径表示企业I直接投资企业L,该条路径的直接投资比例是第一类边k11的边属性所记载的即k11。那么,企业I对企业L既有直接投资,又通过企业J有间接投资,企业I对企业L的实际投资比例可由两条路径分别表示的直接投资比例和间接投资比例相加得到。为企业I到企业L之间增加一条第三类边s2,第三类边s2的方向是从企业I指向企业L表示实际投资关系,第三类边s2的边属性是企业I对企业L的实际投资比例即k10×k12+k11。
可替换地,在每一个连通子图中,如果任意两个节点之间既有第一类边直接连接,又通过多条第一类边以相同方向连接,则将直接连接的第一类边改为第三类边,同时将第一类边的直接投资比例的边属性改为第三类边的实际投资比例的边属性。在图5所示场景下,节点I通过第一类边k11指向并连接节点L。节点I还通过第一类边k10、k12的结合指向并连接节点L。那么,将第一类边k11改为第三类边s2,第一类边k11的边属性原本为直接投资比例k11,一并改为第三类边s2的实际投资比例s2=k10×k12+k11,如图6所示。
步骤108:在每一个连通子图中,如果任意两个第一类节点之间通过一个或多个第二类边和第二类节点相连接,则为这两个第一类节点之间新增第四类边。第四类边可以不具有方向。第四类边的边属性为高管相似度,所述高管相似度例如是max(COM_12/NUM_1,COM_12/NUM_2),其中max函数表示取两者或多者中的最大者。其中,COM_12表示这两个第一类节点所共同连接的第二类节点的数量,NUM_1表示其中一个第一类节点所连接的全部第二类边的数量,NUM_2表示其中另一个第二类节点所连接的全部第二类边的数量。
请参阅图7,图3中的连通子图三中,第一类节点M、N之间既通过第二类边q5、第二类节点P3、第二类边q6相连接,又通过第二类边q8、第二类节点P6、第二类边q9相连接。这表明自然人P3既作为企业M的高管,又作为企业N的高管;同时这表明自然人P6既作为企业M的高管,又作为企业N的高管。那么为第一类节点M、N之间新增第四类边t1,第四类边t1可以没有方向,第四类边t1的边属性是两个第一类节点M、N之间的高管相似度。所述高管相似度的计算规则例如是:将第一类节点M、N所共同连接的第二类节点的数量称为COM_MN,这表示企业M和企业N所具有的共同的高管人员数量。将第一类节点M所连接的全部第二类边的数量称为NUM_M,这表示企业M所具有的高管人员总数。将第一类节点N所连接的全部第二类边的数量称为NUM_N,这表示企业N所具有的高管人员总数。将COM_MN/NUM_M与COM_MN/NUM_N中的较大值作为企业M与企业N之间的高管相似度。
或者,所述高管相似度也可以是2×COM_12/(NUM_1+NUM_2)。
或者,所述高管相似度也可以是COM_12/ min(NUM_1, NUM_2),其中min函数表示取两者或多者中的最小者。
所述步骤106、步骤108的顺序可以互换,或者同时进行。
步骤110:在每一个连通子图中,根据任意两个第一类节点之间的第一类边、第三类边、第四类边,判定这两个第一类节点是否属于一个集合。一个集合中的所有第一类节点就属于一个企业集团,相互之间存在企业集团关系。这一步中,每个集合仅包含两个第一类节点。
例如判定规则一为,设定第一阈值,任意两个第一类节点之间如果存在第三类边、且第三类边的边属性所记载的实际投资比例大于或等于第一阈值,则判定这两个节点属于一个集合。
或者判定规则二为,对任意一个第一类节点而言,从指向该节点的所有第一类边中选择直接投资比例最大的那个节点,将该第一类节点和所选取的节点判定为属于一个集合。
或者判定规则三为,对任意一个第一类节点而言,从指向该节点的所有第一类边和第三类边中选择实际投资比例最大的节点、实际投资比例第二大的节点,并且最大的实际投资比例≥k倍的第二大的实际投资比例时,将该第一类节点和实际投资比例最大的节点判定为属于一个集合。优选地,k取2。
又如判定规则四为,设定第二阈值,任意两个第一类节点之间如果存在第四类边、且第四类边的边属性所记载的高管相似度大于或等于第二阈值,则判定这两个节点属于一个集合。
再如,满足上述判定规则一至三中任意一个,同时满足上述判定规则四,则判定这两个节点属于一个集合。
请参阅图8,这是本申请企业集团关系获取方法的实施例二。与图1所示的实施例一相比,实施例二在步骤110之后新增了步骤112与步骤114。
步骤112:在每一个连通子图中,为属于一个集合的两个第一类节点之间新增第五类边。第五类边可以没有方向。第五类边的边属性为企业集团的名称或标识。
请参阅图9,图3中的连通子图一中,假设通过步骤110判定第一类节点A、B属于一个集合,则为第一类节点A、B之间新增第五类边u1,第五类边u1的边属性例如为企业集团一。假设通过步骤110判定第一类节点A、E也属于一个集合,则为第一类节点A、E之间新增第五类边u2,第五类边u2的边属性例如为企业集团二。假设通过步骤110判定第一类节点B、E属于一个集合,则为第一类节点B、E之间新增第五类边u3,第五类边u3的边属性例如为企业集团三。
步骤114:在每一个连通子图中,如果任意两个以上的第一类节点之间通过一条或多条第五类边相连接,则将连接这些第一类节点之间的所有第五类边的边属性改为相同的企业集团的名称或标识。换而言之,这一步是将由一条或多条第五类边相连接的两个以上的第一类节点归属为同一个集合,每个集合包括两个以上的第一类节点。
仍以图9为例,由于第一类节点A、B、E之间两两通过第五类边相连接,因此将相应的第五类边u1、u2、u3的边属性改为相同,例如将边属性均改为企业集团一。
例如,所述步骤114可由一种新的基于最小HASH值的标签传播算法实现。对于某个节点A,假设其连接有K条第五类边,每条第五类边都有一个边属性Si,i=1, 2,…,K。将一个连通子图中的所有节点放入一个数组L1,每一轮对数组L1中的所有节点进行更新。以节点A为例,更新方法为对节点A所连接的所有第五类边的边属性进行更新,更新后的第五类边的边属性Si’=min(Si), i=1, 2,…,K。每更新一个节点,将该节点存入数组L2。如果某个节点在更新前后的所有第五类边的边属性均无变化,则表示该节点无更新,不放入数组L2。每更新一轮后判断数组L2是否为空,如果不为空则清空数组L2继续对数组L1中的所有节点进行更新,直到数组L2为空时停止更新。
图1所示的企业集团关系获取方法的实施例一用来判定任意两个第一类节点是否属于一个集合,可用来判定任意两个企业是否属于一个企业集团。图8所示的企业集团关系获取方法的实施例二用来对实施例一所判定的集合进行合并,以用来判定任意多个第一类节点是否属于一个集合,可用来判定任意多个企业是否属于一个企业集团。
请参阅图10,这是本申请企业集团关系获取系统的实施例一,与图1所示的企业集团关系获取方法的实施例一相对应。所述企业集团关系获取系统的实施例一包括顺序连接的图构建模块82、连通子图切分模块84、第三类边扩展模块86、第四类边扩展模块88和判定模块810。
所述图构建模块82用来基于企业工商信息构建图。图中的节点分为两类,第一类节点是企业,第二类节点是担任企业高管的自然人。图中的边也分为两类,第一类边是从股东指向所投资企业的有方向的边,其中边的方向表示直接投资关系,边属性表示直接投资比例;第二类边连接企业及其高管,可以不具有方向,边属性表示高管职位。
所述连通子图切分模块84用来对图构建模块82所构建的图进行分割,得到一个或多个连通子图。
所述第三类边扩展模块86用来为通过多条第一类边以相同方向连接的任意两个节点之间新增第三类边。第三类边是有方向的,与多条第一类边的结合所指向的方向相同。第三类边的边属性为实际投资比例,由所述两个节点之间由一条或多条第一类边构成的所有路径通过计算得到。
所述第四类边扩展模块88用来为通过一个或多个第二类边和第二类节点连接的任意两个第一类节点之间新增第四类边。第四类边可以不具有方向,边属性为高管相似度。
可替换地,所述第三类边扩展模块86、第四类边扩展模块88的连接顺序可以互换,或者合并为一个模块。
所述判定模块810用来根据任意两个第一类节点之间的第一类边、第三类边、第四类边,判定这两个第一类节点是否属于一个集合。一个集合中的所有第一类节点就属于一个企业集团,相互之间存在企业集团关系。
请参阅图11,这是本申请企业集团关系获取系统的实施例二,与图8所示的企业集团关系获取方法的实施例二相对应。所述企业集团关系获取系统的实施例二在实施例一的基础上在所述判定模块810之后新增了第五类边扩展模块812和合并模块814。
所述第五类边扩展模块812用来为属于一个集合的两个第一类节点之间新增第五类边。第五类边可以没有方向,边属性为企业集团的名称或标识。
所述合并模块814用来将由一条或多条第五类边相连接的两个以上的第一类节点归属为同一个集合,每个集合包括两个以上的第一类节点。
图10所示的企业集团关系获取系统的实施例一用来判定任意两个第一类节点是否属于一个集合,可用来判定任意两个企业是否属于一个企业集团。图11所示的企业集团关系获取系统的实施例二用来对实施例一所判定的集合进行合并,以用来判定任意多个第一类节点是否属于一个集合,可用来判定任意多个企业是否属于一个企业集团。
以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种企业集团关系获取方法,其特征是,包括如下步骤:
步骤102:基于企业工商信息中的股东及出资比例和企业高管数据构建图;图中的节点分为两类,第一类节点是企业,第二类节点是担任企业高管的自然人;图中的边也分为两类,第一类边是从股东指向所投资企业的有方向的边,边属性为直接投资比例;第二类边连接企业及其高管;
步骤104:对所构建的图进行分割,得到一个或多个连通子图;
步骤106:在每一个连通子图中,如果任意两个节点之间通过多条第一类边以相同方向连接,则为这两个节点之间新增第三类边;第三类边的方向与多条第一类边的结合所指向的方向相同,边属性为实际投资比例;
步骤108:在每一个连通子图中,如果任意两个第一类节点之间通过一个或多个第二类边和第二类节点相连接,则为这两个第一类节点之间新增第四类边,边属性为高管相似度;
所述步骤106、步骤108的顺序或者互换,或者同时进行;
步骤110:在每一个连通子图中,根据任意两个第一类节点之间的第一类边、第三类边、第四类边,判定这两个第一类节点是否属于一个集合;每个集合仅包含两个第一类节点。
2.根据权利要求1所述的企业集团关系获取方法,其特征是,所述步骤102中,先对企业工商信息中的股东及出资比例、企业高管数据进行数据清洗,再对经过清洗后的数据通过图计算的数据结构进行建模。
3.根据权利要求1所述的企业集团关系获取方法,其特征是,所述步骤106中,所述实际投资比例为第三类边所连接的两个节点之间由一条或多条第一类边构成的每一条路径所表示的直接或间接投资比例之和。
4.据权利要求1所述的企业集团关系获取方法,其特征是,所述步骤106中,如果任意两个节点之间既有第一类边直接连接,又通过多条第一类边以相同方向连接,则将直接连接的第一类边改为第三类边,同时将第一类边的直接投资比例的边属性改为第三类边的实际投资比例的边属性。
5. 根据权利要求1所述的企业集团关系获取方法,其特征是,所述步骤108中,所述高管相似度为max(COM_12/NUM_1, COM_12/NUM_2);
或者,所述高管相似度为2×COM_12/(NUM_1+NUM_2);
或者,所述高管相似度为COM_12/ min(NUM_1, NUM_2);
其中,max函数表示取两者或多者中的最大者,min函数表示取两者或多者中的最小者,COM_12表示这两个第一类节点所共同连接的第二类节点的数量,NUM_1表示其中一个第一类节点直接连接的全部第二类节点的数量,NUM_2表示其中另一个第二类节点直接连接的全部第二类节点的数量。
6.根据权利要求1所述的企业集团关系获取方法,其特征是,所述步骤110中,判定规则一为:设定第一阈值,任意两个第一类节点之间如果存在第三类边、且第三类边的属性所记载的实际投资比例大于或等于第一阈值,则判定这两个节点属于一个集合;
或者,判定规则二为:对任意一个第一类节点而言,从指向该节点的所有第一类边中选择直接投资比例最大的那个节点,将该第一类节点和所选取的节点判定为属于一个集合;
或者,判定规则三为:对任意一个第一类节点而言,从指向该节点的所有第一类边和第三类边中选择实际投资比例最大的节点、实际投资比例第二大的节点,并且最大的实际投资比例≥k倍的第二大的实际投资比例时,将该第一类节点和实际投资比例最大的节点判定为属于一个集合;
或者,判定规则四为:设定第二阈值,任意两个第一类节点之间如果存在第四类边、且第四类边的属性所记载的高管相似度大于或等于第二阈值,则判定这两个节点属于一个集合;
或者,满足判定规则一至三中任意一个,同时满足判定规则四,则判定这两个节点属于一个集合。
7.根据权利要求1所述的企业集团关系获取方法,其特征是,所述步骤110之后新增步骤112与步骤114;
步骤112:在每一个连通子图中,为属于一个集合的两个第一类节点之间新增第五类边,边属性为企业集团的名称或标识;
步骤114:在每一个连通子图中,将由一条或多条第五类边相连接的两个以上的第一类节点归属为同一个集合,每个集合包括两个以上的第一类节点。
8.根据权利要求1所述的企业集团关系获取方法,其特征是,所述步骤114中,如果任意两个以上的第一类节点之间通过一条或多条第五类边相连接,则将连接这些第一类节点的所有第五类边的边属性改为相同的企业集团的名称或标识。
9.根据权利要求1所述的企业集团关系获取方法,其特征是,所述步骤114的具体实现方式为:将一个连通子图中的所有节点放入数组一,每一轮对数组一中的所有节点进行更新;更新方法为对每个节点所连接的所有第五类边的边属性进行更新,更新后的第五类边的边属性为该节点所连接的所有第五类边的边属性的最小者;每更新一个节点,将该节点存入数组二;如果某个节点在更新前后的所有第五类边的边属性均无变化,则表示该节点无更新,不放入数组二;每更新一轮后判断数组二是否为空,如果不为空则清空数组二继续对数组一中的所有节点进行更新,直到数组二为空时停止更新。
10.一种企业集团关系获取系统,其特征是,包括顺序连接的图构建模块、连通子图切分模块、第三类边扩展模块、第四类边扩展模块和判定模块;
所述图构建模块用来基于企业工商信息中的股东及出资比例和企业高管数据构建图;图中的节点分为两类,第一类节点是企业,第二类节点是担任企业高管的自然人;图中的边也分为两类,第一类边是从股东指向所投资企业的有方向的边,边属性为直接投资比例;第二类边连接企业及其高管;
所述连通子图切分模块用来对所构建的图进行分割,得到一个或多个连通子图;
所述第三类边扩展模块用来为通过多条第一类边以相同方向连接的任意两个节点之间新增第三类边;第三类边的方向与多条第一类边的结合所指向的方向相同,边属性为实际投资比例;
所述第四类边扩展模块用来为通过一个或多个第二类边和第二类节点连接的任意两个第一类节点之间新增第四类边,边属性为高管相似度;
或者,所述第三类边扩展模块、第四类边扩展模块的连接顺序互换,或者合并为一个模块;
所述判定模块用来根据任意两个第一类节点之间的第一类边、第三类边、第四类边,判定这两个第一类节点是否属于一个集合;每个集合仅包含两个第一类节点。
11.根据权利要求10所述的企业集团关系获取系统,其特征是,在所述判定模块之后还包括第五类边扩展模块和合并模块;
所述第五类边扩展模块用来为属于一个集合的两个第一类节点之间新增第五类边,属性为企业集团的名称或标识;
所述合并模块用来将由一条或多条第五类边相连接的两个以上的第一类节点归属为同一个集合,每个集合包括两个以上的第一类节点。
CN201910342464.3A 2019-04-26 2019-04-26 一种企业集团关系获取方法及系统 Active CN110232078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910342464.3A CN110232078B (zh) 2019-04-26 2019-04-26 一种企业集团关系获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910342464.3A CN110232078B (zh) 2019-04-26 2019-04-26 一种企业集团关系获取方法及系统

Publications (2)

Publication Number Publication Date
CN110232078A true CN110232078A (zh) 2019-09-13
CN110232078B CN110232078B (zh) 2021-03-30

Family

ID=67860354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910342464.3A Active CN110232078B (zh) 2019-04-26 2019-04-26 一种企业集团关系获取方法及系统

Country Status (1)

Country Link
CN (1) CN110232078B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765317A (zh) * 2019-09-18 2020-02-07 上海生腾数据科技有限公司 一种企业受益人运算系统及方法
CN110781311A (zh) * 2019-09-18 2020-02-11 上海生腾数据科技有限公司 一种企业一致行动人运算系统及方法
CN110826976A (zh) * 2019-09-18 2020-02-21 上海生腾数据科技有限公司 一种企业实际控制人运算系统及方法
CN112991063A (zh) * 2021-04-01 2021-06-18 执立信息科技(上海)有限公司 企业股权穿透方法
CN113032467A (zh) * 2021-04-22 2021-06-25 无锡极数宝大数据科技有限公司 一种计算集团成员清单的算法和装置
CN114201663A (zh) * 2021-07-23 2022-03-18 北京恒通慧源大数据技术有限公司 一种基于标签传播的集团客户挖掘方法、装置和电子设备
CN114925111A (zh) * 2022-04-29 2022-08-19 数魔方(北京)医药科技有限公司 投资关系挖掘方法、装置、投资关系查询方法和装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383767A (zh) * 2013-07-12 2013-11-06 西安交通大学 基于纳税人利益关联网络模型的偷漏税关联企业识别方法
CN104517232A (zh) * 2014-12-19 2015-04-15 西安交通大学 一种挖掘纳税金额突增的关联纳税人群体的方法
CN104933442A (zh) * 2015-06-16 2015-09-23 陕西师范大学 一种基于最小代价路径进行图像标签传播的方法
CN105574649A (zh) * 2015-12-10 2016-05-11 西安交通大学 一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法
CN106097091A (zh) * 2016-08-05 2016-11-09 西安交通大学 一种面向互锁股东利益输送行为的嫌疑群组识别方法
US9535963B1 (en) * 2015-09-18 2017-01-03 Linkedin Corporation Graph-based queries
CN106327320A (zh) * 2016-08-18 2017-01-11 西安交通大学 基于纳税人利益关联网络的价格错配偷漏税行为识别方法
CN107229756A (zh) * 2017-06-30 2017-10-03 山东合天智汇信息技术有限公司 一种直观展现企业关系图谱的设计方法及系统
CN107402927A (zh) * 2016-05-19 2017-11-28 上海斯睿德信息技术有限公司 一种基于图模型的企业关联关系拓扑建立方法及查询方法
CN108038136A (zh) * 2017-11-23 2018-05-15 上海斯睿德信息技术有限公司 基于图模型的企业知识图谱的建立方法和图形化查询方法
CN109189867A (zh) * 2018-10-23 2019-01-11 中山大学 基于公司知识图谱的关系发现方法、装置及存储介质
CN109582806A (zh) * 2018-12-06 2019-04-05 上海合合信息科技发展有限公司 一种基于图计算的个人信息处理方法及系统
CN109670944A (zh) * 2018-12-19 2019-04-23 信雅达系统工程股份有限公司 一种基于图谱关系网络的企业信用评估方法及系统
US10757016B2 (en) * 2016-04-28 2020-08-25 Fairflow Technologies Holding B.V. Distributing and aggregating resource data in a network

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383767A (zh) * 2013-07-12 2013-11-06 西安交通大学 基于纳税人利益关联网络模型的偷漏税关联企业识别方法
CN104517232A (zh) * 2014-12-19 2015-04-15 西安交通大学 一种挖掘纳税金额突增的关联纳税人群体的方法
CN104933442A (zh) * 2015-06-16 2015-09-23 陕西师范大学 一种基于最小代价路径进行图像标签传播的方法
US9535963B1 (en) * 2015-09-18 2017-01-03 Linkedin Corporation Graph-based queries
CN105574649A (zh) * 2015-12-10 2016-05-11 西安交通大学 一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法
US10757016B2 (en) * 2016-04-28 2020-08-25 Fairflow Technologies Holding B.V. Distributing and aggregating resource data in a network
CN107402927A (zh) * 2016-05-19 2017-11-28 上海斯睿德信息技术有限公司 一种基于图模型的企业关联关系拓扑建立方法及查询方法
CN106097091A (zh) * 2016-08-05 2016-11-09 西安交通大学 一种面向互锁股东利益输送行为的嫌疑群组识别方法
CN106327320A (zh) * 2016-08-18 2017-01-11 西安交通大学 基于纳税人利益关联网络的价格错配偷漏税行为识别方法
CN107229756A (zh) * 2017-06-30 2017-10-03 山东合天智汇信息技术有限公司 一种直观展现企业关系图谱的设计方法及系统
CN108038136A (zh) * 2017-11-23 2018-05-15 上海斯睿德信息技术有限公司 基于图模型的企业知识图谱的建立方法和图形化查询方法
CN109189867A (zh) * 2018-10-23 2019-01-11 中山大学 基于公司知识图谱的关系发现方法、装置及存储介质
CN109582806A (zh) * 2018-12-06 2019-04-05 上海合合信息科技发展有限公司 一种基于图计算的个人信息处理方法及系统
CN109670944A (zh) * 2018-12-19 2019-04-23 信雅达系统工程股份有限公司 一种基于图谱关系网络的企业信用评估方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JACK P.KUKLUK等: "Infernce of node and edge replacement graph grammars", 《ICML-2207》 *
朱鹏: "基于点赋权图的企业核心能力研究", 《中国博士学位论文全文数据库 经济与管理学辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765317A (zh) * 2019-09-18 2020-02-07 上海生腾数据科技有限公司 一种企业受益人运算系统及方法
CN110781311A (zh) * 2019-09-18 2020-02-11 上海生腾数据科技有限公司 一种企业一致行动人运算系统及方法
CN110826976A (zh) * 2019-09-18 2020-02-21 上海生腾数据科技有限公司 一种企业实际控制人运算系统及方法
CN110781311B (zh) * 2019-09-18 2024-02-27 上海合合信息科技股份有限公司 一种企业一致行动人运算系统及方法
CN110765317B (zh) * 2019-09-18 2024-03-01 上海合合信息科技股份有限公司 一种企业受益人运算系统及方法
CN112991063A (zh) * 2021-04-01 2021-06-18 执立信息科技(上海)有限公司 企业股权穿透方法
CN113032467A (zh) * 2021-04-22 2021-06-25 无锡极数宝大数据科技有限公司 一种计算集团成员清单的算法和装置
CN113032467B (zh) * 2021-04-22 2024-03-08 无锡极数宝大数据科技有限公司 一种计算集团成员清单的算法和装置
CN114201663A (zh) * 2021-07-23 2022-03-18 北京恒通慧源大数据技术有限公司 一种基于标签传播的集团客户挖掘方法、装置和电子设备
CN114925111A (zh) * 2022-04-29 2022-08-19 数魔方(北京)医药科技有限公司 投资关系挖掘方法、装置、投资关系查询方法和装置
CN114925111B (zh) * 2022-04-29 2023-04-18 数魔方(北京)医药科技有限公司 投资关系挖掘方法、装置、投资关系查询方法和装置

Also Published As

Publication number Publication date
CN110232078B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN110232078A (zh) 一种企业集团关系获取方法及系统
Zhang et al. Branch and price for chance-constrained bin packing
CN111382956A (zh) 企业集团关系的挖掘方法和装置
CN110826976A (zh) 一种企业实际控制人运算系统及方法
CN105701204A (zh) 基于道路网的电子地图兴趣点的提取方法及显示方法
Engelstoft et al. Industrial clusters in Denmark: Theory and empirical evidence
CN105574649B (zh) 一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法
CN109033471A (zh) 一种信息资产识别方法及装置
Nuttens et al. Using BIM models for the design of large rail infrastructure projects: key factors for a successful implementation
CN110781311B (zh) 一种企业一致行动人运算系统及方法
Lin et al. Status of value management studies in construction projects: A systematic review
Hervás Oliver How do multinational enterprises co-locate in industrial districs? An introduction to the integration of alternative explanations from international business and economic geography literatures
CN110765317B (zh) 一种企业受益人运算系统及方法
Kifokeris et al. ’Blockchain in building logistics: emerging knowledge, and related actors in Sweden’
El‐Ghandour et al. Survey of information technology applications in construction
Baldacci et al. Pricing strategies for capacitated ring-star problems based on dynamic programming algorithms
Katuu Enterprise architecture—a value proposition for records professionals
CN110472996A (zh) 一种客户信息管理方法和系统
CN105975640A (zh) 一种大数据质量管理与有用数据挖掘装置
CN106294834B (zh) 基于纳税人利益关联网络的关联交易偷漏税行为识别方法
de Aguiar et al. Modelling Spatial Relations by Generalized Proximity Matrices.
Palve Applications of GIS in infrastructure project management
Lu et al. Nexus between contracting and construction professional service businesses: Empirical evidence from international market
Essadiki et al. Optimisation of technical steps of a rural land consolidation using a geographic information system: Land reallocation step
Rahimi et al. Enterprise Architecture: Enabling Digital Transformation for Healthcare Organization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Ding Kai

Inventor after: Xu Jie

Inventor after: Su Guohui

Inventor after: Xu Beiyun

Inventor after: Wu Lijuan

Inventor after: Guo Fengjun

Inventor after: Zhang Bin

Inventor after: Long Teng

Inventor after: Chen Qingshan

Inventor before: Ding Kai

Inventor before: Xu Jie

Inventor before: Su Guohui

Inventor before: Xu Beiyun

Inventor before: Wu Lijuan

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210223

Address after: Room 1105-1123, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai, 200436

Applicant after: Shanghai hehe Information Technology Co., Ltd

Applicant after: Shanghai Shengteng Data Technology Co.,Ltd.

Applicant after: Shanghai Linguan Data Technology Co.,Ltd.

Applicant after: Shanghai yingwuchu Data Technology Co.,Ltd.

Address before: Room 1601-120, 238 JIANGCHANG Third Road, Jing'an District, Shanghai, 200436

Applicant before: Shanghai Shengteng Data Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant