一种企业受益人运算系统及方法
技术领域
本申请涉及一种基于图计算(Graph Computing)的数据存储与运算方法,特别是涉及一种基于图计算的对企业相关数据进行存储、对企业受益人进行运算的方法。
背景技术
企业的受益人通常是指以下几类:直接或者间接拥有超过某一阈值的企业股权或者表决权的自然人;所述阈值例如为25%;通过人事、财务等其他方式对企业进行控制的自然人;企业的高管人员。了解企业的受益人对于政府机构反洗钱、反恐怖融资、反逃税的监管非常重要,对于投资者的投资决策也有重要参考意义。
其中,“间接拥有超过某一阈值的企业股权或者表决权”需要针对企业的间接持股股东及其持股比例进行大量运算。现有的处理方式是:建立企业及其直接持股股东的关系型数据表,并基于该关系型数据表反复地进行笛卡尔乘积(Cartesian Product)运算。这种方式的运算效率较低,如要处理大量数据则需要耗费相当长的时间,所以基于传统的关系型数据库(Relational Database)的存储及运算已经不能满足类似于挖掘企业的间接持股股东及其持股比例等需求。
图论(graph theory)是数学的一个分支,它以图(graph)为研究对象。图论中的图是由若干给定的节点(也称顶点、点、vertice、node或point)及连接节点的边(也称线、edge、arc或line)所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用节点代表事物,用边表示两个事物间具有某种关系,用节点和/或边的属性或权重来描述事物和/或关系的特性。
知识图谱(Knowledge Graph)就是图计算的一种应用,它由若干节点和边组成。节点表示知识,节点之间的边表示知识之间的关系。如果两个节点之间存在关系,它们就会被一条边连接在一起。知识图谱通常使用图数据库(Graph Database)来进行存储,常用的有Neo4j等。目前,基于知识图谱的应用主要体现在信息检索上,用知识图谱的相关技术去挖掘企业信息还相对匮乏。
发明内容
本申请所要解决的技术问题是提供一种基于知识图谱的企业受益人运算方法,可以提高存储和运算效率。为此,本申请还要提供一种相应的企业受益人运算系统。
为解决上述技术问题,本申请提供了一种企业受益人运算方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系的知识图谱。步骤S120:对知识图谱进行分割,得到一个或多个连通子图。步骤S130:在每一个连通子图中,根据表征直接投资关系的第一类边扩展出表征间接投资关系的第三类边。步骤S140:在每一个连通子图中,对每一个企业节点寻找表征企业受益人的目标节点。上述企业受益人运算方法采用图数据库构建和存储知识图谱,采用图计算的手段运算得到企业受益人,具有直观、高效、快速的特点。
进一步地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗,再基于清洗后的数据构建图。这样可以避免无效数据、错误数据等对构建知识图谱带来额外的负担,也能避免对后续运算带来干扰。
进一步地,所述数据清洗包括股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。这是数据清洗的一种优选实现方式。
进一步地,所述知识图谱中,每家企业及其直接持股股东、高管人员分别作为图中的每一个节点;直接持股股东节点对企业节点的直接投资关系以第一类边表示;高管人员节点在企业节点的高管任职关系以第二类边表示。这是构建知识图谱的一种优选实现方式。
进一步地,每个节点都有实体类型属性,包括PE、LE、GE、P、G、S、Z中的一项或多项;其中PE表示个体工商户、或个人独资企业、或合作社;GE表示受政府控制的企业法人;LE表示除PE和GE以外的企业法人;P表示自然人;G表示政府机关;S表示事业单位;Z表示社会组织。这用来区分节点的不同类型。
进一步地,所述第一类边的属性值为直接投资比例。这是构建知识图谱的一种优选实现方式。
进一步地,所述第二类边的属性值为任职的职务。这是构建知识图谱的一种优选实现方式。
进一步地,所述边都具有类型属性,以区分不同类型的边。这用来区分边的不同类型。
进一步地,所述步骤S130中,如果任意两个节点之间通过多条第一类边以相同方向依次连接,则为这两个节点之间新增表征间接投资关系的的第三类边。这是扩展知识图谱的一种优选实现方式,在原始数据的基础上通过图计算的方式扩展出新的数据。
进一步地,所述第三类边有方向,其方向是连接这两个节点的多条第一类边的结合所指向的方向。这是扩展知识图谱的一种优选实现方式。
进一步地,所述第三类边的属性为间接投资比例,由连接这两个节点的第一类边构成的所有路径的属性值相加得到。这是扩展知识图谱的一种优选实现方式。
进一步地,所述步骤S140中,对每一个实体类型属性为PE的源节点,将该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值最大的边所连接的节点、以及该源节点所连接的第二类边中任职职务属性值为法定代表人的节点均作为该源节点的目标节点。这是寻找目标节点的第一种实现方式。
进一步地,所述步骤S140中,对实体类型属性为LE或GE的源节点寻找目标节点包括如下步骤。步骤S310:对每一个实体类型属性为LE或GE的源节点,判断该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中是否有属性值超过第一阈值的;如果是,则进入步骤S320;如果否,则进入步骤S350。步骤S320:判断该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值超过第一阈值的边所连接的节点中是否有属性值为GE、G、S、Z的节点;如果是,则进入步骤S330;如果否,则进入步骤S340。步骤S330:将该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值超过第一阈值的所有边所连接的节点、以及该源节点所连接的第二类边中任职职务属性值为法定代表人的节点均作为目标节点。步骤S340:将该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值超过第一阈值的所有边所连接的节点均作为目标节点。步骤S350:将该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值最大的边所连接的节点、以及该源节点所连接的所有第二类边所连接的节点均作为目标节点。这是寻找目标节点的第二种实现方式。
进一步地,所述第一阈值为25%。这是一个参数的优选取值。
进一步地,所述步骤S140中,对于任意一个实体类型属性为PE、LE、GE的源节点,找到该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值最大的边所连接的节点作为节点集合M,找到该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值超过第一阈值的边所连接的节点作为节点集合GT,找到该源节点所连接的所有第二类边所连接的节点作为集合C,找到该源节点所连接的第二类边中任职职务属性值为法定代表人的节点作为节点集合LR。对于任意一个实体类型属性为PE的源节点,将其节点集合M与节点集合LR的并集中的所有节点作为该源节点的目标节点。对于任意一个实体类型属性为LE或GE的源节点,当其节点集合GT为空集时,将其节点集合M和节点集合C的并集中的所有节点作为该源节点的目标节点。对于任意一个实体类型属性为LE或GE的源节点,当其节点集合GT不是空集、且其节点集合GT中包含实体类型属性为GE、G、S、Z的节点时,将其节点集合GT和节点集合LR的并集中的所有节点作为该源节点的目标节点。对于任意一个实体类型属性为LE或GE的源节点,当其节点集合GT不是空集、且其节点集合GT中未包含实体类型属性为GE、G、S、Z的节点时,将其节点集合GT中的所有节点作为该源节点的目标节点。这是寻找目标节点的第三种实现方式。
进一步地,所述步骤S140中,还在每一个源节点及其目标节点之间新增表征企业受益人对企业的实际控制关系的第四类边。这是扩展知识图谱的一种优选实现方式,便于后续查询企业节点的受益人节点时使用。
本申请还提供了一种企业受益人运算系统,包括图谱构建模块、连通子图切分模块、第三类边扩展模块、目标节点判定模块。所述图构建模块用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系的知识图谱。所述连通子图切分模块用来分割知识图谱,得到一个或多个连通子图。所述第三类边扩展模块用来根据表征直接投资关系的第一类边扩展增加表征间接投资关系的第三类边。所述目标节点判定模块用来为每一个企业节点寻找表征企业受益人的目标节点。上述企业受益人运算系统采用图数据库构建和存储知识图谱,采用图计算的手段运算得到企业受益人,具有直观、高效、快速的特点。
进一步地,所述企业受益人运算系统还包括第四类边扩展模块,用来在每一个企业节点与其目标节点之间新增表征实际控制关系的第四类边。这是扩展知识图谱的一种优选实现方式,便于后续查询企业节点的受益人节点时使用。
本申请取得的技术效果是采用图数据库构建和存储反映企业的股权数据和高管数据的知识图谱,采用图计算的手段运算得到企业受益人,具有直观、高效、快速的特点。
附图说明
图1是本申请提供的企业受益人运算方法的流程图。
图2是步骤S110中构建知识图谱的方法的详细流程图。
图3是步骤S140中对LE或GE源节点寻找目标节点的方法的详细流程图。
图4是步骤S110所构建的知识图谱的一个示例的示意图。
图5是步骤S120分割连通子图的一个示例的示意图。
图6是步骤S130新增第三类边的第一示例的示意图。
图7是步骤S130新增第三类边的第二示例的示意图。
图8是本申请提供的企业受益人运算系统的结构示意图。
图中附图标记说明:800为企业受益人运算系统;810为图谱构建模块;820为连通子图切分模块;830为第三类边扩展模块;840为目标节点判定模块。
具体实施方式
请参阅图1,本申请提供的企业受益人运算方法包括如下步骤。
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系的知识图谱。
所述企业工商信息是指企业在工商行政管理部门登记的信息,包括企业名称、企业地址、企业注册资本、企业股权数据、企业高管数据等。所述股权数据是指企业的直接持股股东及出资比例。所述高管数据是指企业的高管人员信息,例如法定代表人、董事、监事等。
优选地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗(data cleaning),再基于清洗后的数据构建知识图谱。所述数据清洗例如包括股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。
请参阅图2,所述构建知识图谱具体包括如下步骤。
步骤S210:将企业工商信息中的每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点。每个节点包含两个属性:实体名称、实体类型。实体名称属性是指单位名称或自然人姓名。实体类型属性包括PE、LE、GE、P、G、S、Z中的一项或多项。其中PE表示个体工商户、或个人独资企业、或合作社,GE表示受政府控制的企业法人例如国有企业,LE表示除PE和GE以外的企业法人。这也是常见的三种企业类型。P表示自然人,G表示政府机关,S表示事业单位,Z表示社会组织。
步骤S220:基于每一家企业的股权数据,为企业节点及其直接持股股东节点之间增加表征直接投资关系的第一类边。第一类边有方向,其方向例如从直接持股股东节点指向企业节点,也可变为相反方向。第一类边的属性为直接投资比例。
步骤S230:基于每一家企业的高管任职数据,为企业节点及其高管人员节点之间增加表征高管任职关系的第二类边。第二类边可以有方向,也可以无方向。第二类边的属性为任职的职务。
所述步骤S220、步骤S230的执行顺序没有严格限制,两者或者顺序互换,或者同时进行,或者交叉进行,都是允许的。
通过步骤S210至S230构建的图就是反映企业的股东投资和高管任职关系的知识图谱。
优选地,知识图谱中的所有边都具有类型属性,以区分第一类边、第二类边、……。
步骤S120:对步骤S110所构建的知识图谱进行分割,得到一个或多个连通子图(connected subgraph)。在步骤S110所构建的知识图谱中,任意两个节点之间如果能通过一条或多条边相连接,则在一个连通子图内;否则就分别属于不同的连通子图。
步骤S130:在步骤S120分割出的每一个连通子图中,根据表征直接投资关系的第一类边扩展增加表征间接投资关系的第三类边。
如果任意两个节点之间通过多条第一类边以相同方向依次连接,则为这两个节点之间新增表征间接投资关系的第三类边。第三类边有方向,其方向与连接这两个节点的多条第一类边的结合所指向的方向相同。第三类边的属性为间接投资比例即实际投资比例。第三类边的属性由连接这两个节点的第一类边构成的所有路径的属性值相加得到。任一条路径如仅为一条第一类边,则该条路径的整体属性值就是这一条第一类边的直接投资比例属性值。任一条路径如由多条第一类边以相同方向依次连接构成,则将每条第一类边的直接投资比例属性值相乘作为该条路径的整体属性值。任一条路径如由多条第一类边以不同方向连接构成,则该条路径不在计算第三类边的属性的考量范围之内,或者该条路径的整体属性值为零。
步骤S140:在步骤S120分割出的每一个连通子图中,将实体类型属性为PE、LE、GE的节点称为源节点,源节点也就是全部企业节点,对每一个源节点寻找表征企业受益人的目标节点。
对实体类型属性为PE的源节点寻找目标节点例如采用如下方式。对每一个实体类型属性为PE的源节点,将该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值最大的边所连接的节点、以及该源节点所连接的第二类边中任职职务属性值为法定代表人的节点均作为该源节点的目标节点。
请参阅图3,对实体类型属性为LE或GE的源节点寻找目标节点例如包括如下步骤。
步骤S310:对每一个实体类型属性为LE或GE的源节点,首先判断该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中是否有属性值超过第一阈值的。如果是,则进入步骤S320。如果否,则进入步骤S350。
步骤S320:继续判断该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值超过第一阈值的边所连接的节点中是否有属性值为GE、G、S、Z的节点。如果是,则进入步骤S330。如果否,则进入步骤S340。
步骤S330:将该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值超过第一阈值的所有边所连接的节点、以及该源节点所连接的第二类边中任职职务属性值为法定代表人的节点均作为目标节点。
步骤S340:将该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值超过第一阈值的所有边所连接的节点均作为目标节点。
步骤S350:将该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值最大的边所连接的节点、以及该源节点所连接的所有第二类边所连接的节点均作为目标节点。
优选地,所述第一阈值例如为25%。
优选地,所述步骤S140还包括在每一个源节点及其目标节点之间新增表征企业受益人对企业的实际控制关系的第四类边。优选地,第四类边有方向,例如从受益人指向企业,也可变为相反方向。或者,第四类边无方向。第四类边的属性为实际受益人。
请参阅图4,这是步骤S110所构建的的知识图谱的一个示例。其中,圆表示节点,线条表示边。为简化描述,节点LE1至LE5表示实体类型属性为LE,节点PE1、PE2表示实体类型属性为PE,节点P1至P5表示实体类型属性为P。第一类边的直接投资比例属性值以k1、k2……表示。第二类边的任职职务属性值直接标注在图中。
请参阅图5,这是步骤S120分割连通子图的一个示例。对图4所示的知识图谱进行分割,可以得到3个连通子图。
请参阅图6,这是步骤S130新增第三类边的第一示例。节点LE1和节点LE4之间通过第一类边k1和k3以相同方向依次连接,例如称为路径一。节点LE1和节点LE4之间还通过第一类边k2和k4以相同方向依次连接,例如称为路径二。k1至k4分别表示第一类边的直接投资比例属性值,在本示例中也作为第一类边的名称。以上两条路径中的任意一条都使得节点LE1和节点LE4之间新增表征间接投资比例的第三类边s1。第三类边s1的方向是从节点LE1指向节点LE4,从而与第一类边k1和k3的结合所指向的方向相同,也与第一类边k2和k4的结合所指向的方向相同。路径一的整体属性值是k1×k3,路径二的整体属性值是k2×k4,第三类边s1的间接投资比例属性值是k1×k3+k2×k4,表示节点LE1对节点LE4的实际投资比例。
请参阅图7,这是步骤S130新增第三类边的第二示例。节点LE1和节点LE3之间通过第一类边k1和k3以相同方向依次连接,例如称为路径一。这使得节点LE1和节点LE3之间新增第三类边s1。第三类边s1的方向是从节点LE1指向节点LE3,从而与第一类边k1和k3的结合所指向的方向相同。同时节点LE1和节点LE3之间还通过第一类边k2相连接,例如称为路径二。k1至k3分别表示这些第一类边的直接投资比例属性值,在本示例中也作为第一类边的名称。路径一的整体属性值是k1×k3,路径二的整体属性值是k2,第三类边s1的间接投资比例属性值是k1×k3+k2,表示节点LE1对节点LE3的实际投资比例。
所述步骤S140中,为实体类型属性为PE、LE、GE的源节点寻找目标节点还可采用以下方式。
对于任意一个实体类型属性为PE、LE、GE的源节点,找到该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值最大的边所连接的节点作为节点集合M,找到该源节点所连接的第一类边的直接投资比例属性值或第三类边的间接投资比例属性值中属性值超过第一阈值的边所连接的节点作为节点集合GT,找到该源节点所连接的所有第二类边所连接的节点作为集合C,找到该源节点所连接的第二类边中任职职务属性值为法定代表人的节点作为节点集合LR。显然,集合LR是集合C的一个子集。
对于任意一个实体类型属性为PE的源节点,将其节点集合M与节点集合LR的并集中的所有节点作为该源节点的目标节点。
对于任意一个实体类型属性为LE或GE的源节点,当其节点集合GT为空集时,将其节点集合M和节点集合C的并集中的所有节点作为该源节点的目标节点。
对于任意一个实体类型属性为LE或GE的源节点,当其节点集合GT不是空集、且其节点集合GT中包含实体类型属性为GE、G、S、Z的节点时,将其节点集合GT和节点集合LR的并集中的所有节点作为该源节点的目标节点。
对于任意一个实体类型属性为LE或GE的源节点,当其节点集合GT不是空集、且其节点集合GT中未包含实体类型属性为GE、G、S、Z的节点时,将其节点集合GT中的所有节点作为该源节点的目标节点。
请参阅图8,与上述企业受益人运算方法相对应地,本申请还提供了一种企业受益人运算系统。所述企业受益人运算系统800包括图谱构建模块810、连通子图切分模块820、第三类边扩展模块830、目标节点判定模块840。
所述图谱构建模块810用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系的知识图谱。构建好的知识图谱中,每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点。每个节点包含两个属性:实体名称、实体类型。实体名称是指单位名称或自然人姓名。实体类型包括PE、LE、GE、P、G、S、Z中的一项或多项。直接持股股东节点对企业节点的直接投资关系及直接投资比例用有方向的第一类边表示。高管人员节点在企业节点的任职关系及任职职务用第二类边表示。
所述连通子图切分模块820用来将图谱构建模块810所构建的知识图谱进行分割,得到一个或多个连通子图。
所述第三类边扩展模块830用来根据表征直接投资关系的第一类边扩展增加表征间接投资关系的第三类边。
所述目标节点判定模块840用来为每一个企业节点寻找表征企业受益人的目标节点。
优选地,所述企业受益人运算系统还包括第四类边扩展模块,用来在每一个企业节点与其目标节点之间新增表征实际控制关系的第四类边。
本申请基于图数据库来构建并存储反映企业的股权投资及高管任职关系的知识图谱,并采用图计算的技术手段找出企业受益人,并将其保存在知识图谱中。这样,对任意企业的受益人的查询可在所述知识图谱中立即得到结果,极大地提升了存储和运算效率以及响应的及时性。
以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。