一种企业一致行动人运算系统及方法
技术领域
本申请涉及一种基于图计算(Graph Computing)的数据存储与运算方法,特别是涉及一种基于图计算的对企业相关数据进行存储、对企业的一致行动人进行运算的方法。
背景技术
中国证券监督管理委员会在2006年5月17日通过的《上市公司收购管理办法》第八十三条给出了“一致行动”、“一致行动人”的定义,并给出了十二种可认定为一致行动人的情形。其将在公司的收购及相关股份权益变动活动中有一致行动情况的投资者定义为互为一致行动人。一致行动人是依据企业的股东、董事、监事等高管人员、核心团队及其亲属之间在企业持有股份上的关系信息进行判定的。在实际操作中,由于信息的不公开、不规范、一致行动协议的隐蔽性、定性判断因素等,会导致很多一致行动人的判断存在偏差。
图论(graph theory)是数学的一个分支,它以图(graph)为研究对象。图论中的图是由若干给定的节点(也称顶点、点、vertice、node或point)及连接节点的边(也称线、edge、arc或line)所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用节点代表事物,用边表示两个事物间具有某种关系,用节点和/或边的属性或权重来描述事物和/或关系的特性。
知识图谱(Knowledge Graph)就是图计算的一种应用,它由若干节点和边组成。节点表示知识,节点之间的边表示知识之间的关系。如果两个节点之间存在关系,它们就会被一条边连接在一起。知识图谱通常使用图数据库(Graph Database)来进行存储,常用的有Neo4j等。目前,基于知识图谱的应用主要体现在信息检索上,用知识图谱的相关技术去挖掘企业信息还相对匮乏。
发明内容
本申请所要解决的技术问题是提供一种基于知识图谱的企业一致行动人运算方法,可以提高存储和运算效率。为此,本申请还要提供一种相应的企业一致行动人运算系统。
为解决上述技术问题,本申请提供了一种企业一致行动人运算方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:对知识图谱进行分割,得到一个或多个连通子图。步骤S130:在每一个连通子图中,扩展增加表征一致行动人关系的第四类边;由第四类边所连接的多个节点就是企业一致行动人节点。上述企业一致行动人运算方法采用图数据库构建和存储知识图谱,采用图计算的手段运算得到企业一致行动人,具有直观、高效、快速的特点。
进一步地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗,再基于清洗后的数据构建知识图谱。这样可以避免无效数据、错误数据等对构建知识图谱带来额外的负担,也能避免对后续运算带来干扰。
进一步地,所述数据清洗包括股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。这是数据清洗的一种优选实现方式。
进一步地,所述知识图谱中,每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点;直接持股股东节点对企业节点的直接投资关系以第一类边表示;高管人员节点在企业节点的高管任职关系以第二类边表示;同一自然人关系以第三类边表示。这是构建知识图谱的一种优选实现方式。
进一步地,每个节点都有实体类型属性,包括E、P、G、S、Z中的一项或多项;E表示企业;P表示自然人;G表示政府机关;S表示事业单位;Z表示社会组织。这用来区分节点的不同类型。
进一步地,所述第一类边的属性值为直接投资比例。这是构建知识图谱的一种优选实现方式。
进一步地,所述第二类边的属性值为任职的职务。这是构建知识图谱的一种优选实现方式。
进一步地,所述边都具有类型属性,以区分不同类型的边。这用来区分边的不同类型。
进一步地,所述步骤S130中,当任意一个企业节点E1或自然人节点A作为直接持股股东节点通过一条或多条直接投资比例属性值大于或等于第一阈值的第一类边连接到某一个或多个企业节点Em至En,则为所述节点E1、A、Em至En之间两两新增表征一致行动人关系的第四类边。这是扩展知识图谱、运算得到一致行动人关系的第一种实现方式。
进一步地,所述步骤S130中,当任意一个企业节点E1通过多条第一类边连接到多个直接持股股东节点Em至En,并且所述多个直接持股股东节点Em至En又通过第二类边连接到同一个高管人员节点A,则为所述节点E1、Em至En、A之间两两新增表征一致行动人关系的第四类边。这是扩展知识图谱、运算得到一致行动人关系的第二种实现方式。
进一步地,所述步骤S130中,当任意一个企业节点E1通过多条第一类边连接到多个直接持股股东节点,并且其中至少一个直接持股股东节点为自然人节点A,并且自然人节点A又作为高管人员节点通过一条或多条第二类边连接到一个或多个企业节点Em至En,则为所述节点E1、A、Em至En之间两两新增表征一致行动人关系的第四类边。这是扩展知识图谱、运算得到一致行动人关系的第三种实现方式。
进一步地,所述步骤S130中,当任意一个企业节点通过多条第一类边连接到多个直接持股股东节点,并且其中有多个直接持股股东节点为自然人节点Pm至Pn,则为所述节点Pm至Pn之间两两新增表征一致行动人关系的第四类边。这是扩展知识图谱、运算得到一致行动人关系的第四种实现方式。
进一步地,所述步骤S130中,当任意一个自然人节点A作为直接持股股东节点通过多条第一类边连接到至少两个企业节点E1和E2,并且自然人节点A与第一企业节点E1之间的第一类边的直接投资比例属性值大于或等于第二阈值,并且第一企业节点E1又作为直接持股股东节点通过第一类边连接到第二企业节点E2,则为所述节点A、E1之间新增表征一致行动人关系的第四类边。这是扩展知识图谱、运算得到一致行动人关系的第五种实现方式。
进一步地,所述步骤S130中,当任意一个自然人节点A作为直接持股股东节点通过第一类边连接到第一企业节点E1,并且自然人节点A还作为高管人员节点通过第二类边连接到第二企业节点E2,并且第二企业节点E2作为直接持股股东节点通过第一类边连接到第一企业节点E1,则为所述节点A、E2之间新增表征一致行动人关系的第四类边。这是扩展知识图谱、运算得到一致行动人关系的第六种实现方式。
进一步地,由第三类边所连接的多个自然人节点均被认为是一个自然人节点。这是扩展知识图谱时的一种优选操作方式。
进一步地,所述步骤S130之后还包括如下步骤。步骤S140:在每一个连通子图中,根据表征直接投资关系的第一类边和表征一致行动人关系的第四类边扩展增加表征一致行动人的间接投资关系的第五类边。步骤S150:在每一个连通子图中,为每一个企业节点寻找表征企业实际控制人或疑似实际控制人的扩展目标节点。新增的两个步骤可用来在企业一致行动人的基础上获取企业实际控制人或疑似实际控制人的信息。
进一步地,所述步骤S140中,当任意两个节点之间通过多条第一类边以相同方向依次连接,并且这两个节点之间还通过第四类边相连接,则为这两个节点之间新增表征一致行动人的间接投资关系的第五类边。这是扩展知识图谱的一种优选实现方式,在原始数据的基础上通过图计算的方式扩展出新的数据。
进一步地,所述第五类边有方向,其方向与连接这两个节点的多条第一类边的结合所指向的方向相同。这是扩展知识图谱的一种优选实现方式。
进一步地,所述第五类边的属性是一致行动人的间接持股比例即实际投资比例;将与这两个节点通过第四类边相连接的节点构成一致行动人节点集合,第五类边的属性由连接这两个节点的第一类边、且要求第一类边两端的节点均在一致行动人节点集合中的所有路径的属性值相加得到。这是扩展知识图谱的一种优选实现方式。
进一步地,所述步骤S150中,将源节点通过第一类边和第五类边所连接的所有节点作为候选节点集合;当候选节点集合中有任意节点连接源节点的第一类边的直接投资比例属性值或第五类边的一致行动人的间接持股比例属性值大于或等于第一阈值,则该节点作为源节点的表征企业实际控制人的扩展目标节点。这是寻找扩展目标节点的第一种实现方式。
进一步地,所述步骤S150中,将源节点通过第一类边和第五类边所连接的所有节点作为候选节点集合;当候选节点集合中所有节点连接源节点的第一类边的直接投资比例属性值或第五类边的一致行动人的间接持股比例属性值均小于第一阈值,有任意节点连接源节点的第一类边的直接投资比例属性值或第五类边的一致行动人的间接持股比例属性值大于或等于第二阈值,则将其中第一类边的直接投资比例属性值或第五类边的一致行动人的间接持股比例属性值最大的节点作为源节点的表征企业疑似控制人的扩展目标节点。这是寻找扩展目标节点的第二种实现方式。
进一步地,所述步骤S150中,将源节点通过第一类边和第五类边所连接的所有节点作为候选节点集合;当候选节点集合中所有节点连接源节点的第一类边的直接投资比例属性值或第五类边的一致行动人的间接持股比例属性值均小于第二阈值,则源节点不存在实际控制人或疑似实际控制人的扩展目标节点。这是寻找扩展目标节点的第三种实现方式。
进一步地,所述第一阈值在45%至66.7%之间。这是一个参数的优选取值范围。
进一步地,所述第二阈值在25%至35%之间。这是一个参数的优选取值范围。
本申请还提供了一种企业一致行动人运算系统,包括图谱构建模块、连通子图切分模块、第四类边扩展模块。所述图谱构建模块用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。所述连通子图切分模块用来分割知识图谱,得到一个或多个连通子图。所述第四类边扩展模块用来扩展增加表征一致行动人关系的第四类边;由第四类边所连接的多个节点就是企业一致行动人节点。上述企业一致行动人运算系统采用图数据库构建和存储知识图谱,采用图计算的手段运算得到企业一致行动人,具有直观、高效、快速的特点。
进一步地,所述企业一致行动人运算系统还包括第五类边扩展模块、扩展目标节点判定模块。所述第五类边扩展模块用来根据表征直接投资关系的第一类边和表征一致行动人关系的第四类边扩展增加表征一致行动人的间接投资关系的第五类边。所述扩展目标节点判定模块用来为每一个企业节点寻找表征企业实际控制人或疑似实际控制人的扩展目标节点。新增的两个模块可用来在企业一致行动人的基础上获取企业实际控制人或疑似实际控制人的信息。
本申请取得的技术效果是通过图数据库来存储企业相关数据,通过图计算方式来相对准确地计算出企业一致行动人。在图计算过程中采用剪枝操作减少了运算量,提高了运算速度。
附图说明
图1是本申请提供的企业一致行动人运算方法的流程图。
图2是步骤S110中构建知识图谱的方法的详细流程图。
图3是本申请提供的企业一致行动人运算方法的一种扩展流程图。
图4是本申请提供的企业一致行动人运算系统的结构示意图。
图5是本申请提供的企业一致行动人运算系统的一种扩展结构图。
图中附图标记说明:400为企业一致行动人运算系统;410为图谱构建模块;420为连通子图切分模块;430为第四类边扩展模块;440为第五类边扩展模块;450为扩展目标节点判定模块。
具体实施方式
请参阅图1,本申请提供的企业一致行动人运算方法包括如下步骤。
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。
所述企业工商信息是指企业在工商行政管理部门登记的信息,包括企业名称、企业地址、企业注册资本、企业股权数据、企业高管数据等。所述股权数据是指企业的直接持股股东及出资比例。所述高管数据是指企业的高管人员信息,例如法定代表人、董事、监事等。
优选地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗(data cleaning),再基于清洗后的数据构建知识图谱。所述数据清洗例如包括股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。
请参阅图2,所述构建知识图谱具体包括如下步骤。
步骤S210:将企业工商信息中的每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点。每个节点包含两个属性:实体名称、实体类型。实体名称属性是指企业名称或自然人姓名。实体类型属性包括E、P、G、S、Z中的一项或多项。其中E表示个体工商户、个人独资企业、合作社、企业法人等各种类型的企业;P表示自然人;G表示政府机关;S表示事业单位;Z表示社会组织。
步骤S220:基于每一家企业的股权数据,为企业节点及其直接持股股东节点之间增加表征直接投资关系的第一类边。第一类边有方向,其方向例如从直接持股股东节点指向企业节点,也可变为相反方向。第一类边的属性为直接投资比例。
步骤S230:基于每一家企业的高管任职数据,为企业节点及其高管人员节点之间增加表征高管任职关系的第二类边。第二类边可以有方向,也可以无方向。第二类边的属性为任职的职务。
步骤S240:为具有相同姓名、且的确是同一自然人的多个自然人节点之间两两增加表征同一自然人关系的第三类边。第三类边优选为无方向。第三类边的属性是同一自然人关系。
所述步骤S220至步骤S240的执行顺序没有严格限制,三者或者顺序互换,或者同时进行,或者交叉进行,都是允许的。
通过步骤S210至S240构建的图就是反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。
优选地,知识图谱中的所有边都具有类型属性,以区分第一类边、第二类边、……。
步骤S120:对步骤S110所构建的知识图谱进行分割,得到一个或多个连通子图(connected subgraph)。在步骤S110所构建的知识图谱中,任意两个节点之间如果能通过一条或多条边相连接,则在一个连通子图内;否则就分别属于不同的连通子图。
步骤S130:在步骤S120分割出的每一个连通子图中,根据表征直接投资关系的第一类边、表征高管任职关系的第二类边、表征同一自然人关系的第三类边扩展增加表征一致行动人关系的第四类边。第四类边优选为无方向。第四类边的属性为一致行动人关系。由第四类边所连接的多个节点就是企业一致行动人节点。
例如,当任意一个企业节点E1或自然人节点A作为直接持股股东节点通过一条或多条直接投资比例属性值大于或等于第一阈值的第一类边连接到某一个或多个企业节点Em至En,则为所述节点E1、A、Em至En之间两两新增表征一致行动人关系的第四类边。所述第一阈值在45%至66.7%之间,优选为50%,用来筛选出绝对控股股东。
又如,当任意一个企业节点E1通过多条第一类边连接到多个直接持股股东节点Em至En,并且所述多个直接持股股东节点Em至En又通过第二类边连接到同一个高管人员节点A,则为所述节点E1、Em至En、A之间两两新增表征一致行动人关系的第四类边。
又如,当任意一个企业节点E1通过多条第一类边连接到多个直接持股股东节点,并且其中至少一个直接持股股东节点为自然人节点A,并且自然人节点A又作为高管人员节点通过一条或多条第二类边连接到一个或多个企业节点Em至En,则为所述节点E1、A、Em至En之间两两新增表征一致行动人关系的第四类边。
又如,当任意一个企业节点通过多条第一类边连接到多个直接持股股东节点,并且其中有多个直接持股股东节点为自然人节点Pm至Pn,则为所述节点Pm至Pn之间两两新增表征一致行动人关系的第四类边。
又如,当任意一个自然人节点A作为直接持股股东节点通过多条第一类边连接到至少两个企业节点E1和E2,并且自然人节点A与第一企业节点E1之间的第一类边的直接投资比例属性值大于或等于第二阈值,并且第一企业节点E1又作为直接持股股东节点通过第一类边连接到第二企业节点E2,则为所述节点A、E1之间新增表征一致行动人关系的第四类边。所述第二阈值在25%至35%之间,优选为30%,用来筛选出重要股东。
又如,当任意一个自然人节点A作为直接持股股东节点通过第一类边连接到第一企业节点E1,并且自然人节点A还作为高管人员节点通过第二类边连接到第二企业节点E2,并且第二企业节点E2作为直接持股股东节点通过第一类边连接到第一企业节点E1,则为所述节点A、E2之间新增表征一致行动人关系的第四类边。
在步骤S130中,由第三类边所连接的多个自然人节点均被认为是一个自然人节点。
可选地,在步骤S130之后还包括如下步骤,如图3所示。
步骤S140:在步骤S120分割出的每一个连通子图中,根据表征直接投资关系的第一类边和表征一致行动人关系的第四类边扩展增加表征一致行动人的间接投资关系的第五类边。
如果任意两个节点之间通过多条第一类边以相同方向依次连接,并且这两个节点之间还通过第四类边相连接,则为这两个节点之间新增表征一致行动人的间接投资关系的第五类边。第五类边有方向,其方向与连接这两个节点的多条第一类边的结合所指向的方向相同。第五类边的属性是一致行动人的间接持股比例即实际投资比例。将与这两个节点通过第四类边相连接的节点构成一致行动人节点集合,第五类边的属性由连接这两个节点的第一类边、且要求第一类边两端的节点均在一致行动人节点集合中的所有路径的属性值相加得到。任一条路径如仅为一条第一类边,则该条路径的整体属性值就是这一条第一类边的直接投资比例属性值。任一条路径如由多条第一类边以相同方向依次连接构成,则将每条第一类边的直接投资比例属性值相乘作为该条路径的整体属性值。任一条路径如由多条第一类边以不同方向连接构成,则该条路径不在计算第五类边的属性的考量范围之内,或者该条路径的整体属性值为零。
在步骤S140中,同时基于表征直接投资关系的第一类边和表征一致行动人关系的第四类边来扩展新增表征一致行动人的间接投资关系的第五类边。新增的第五类边的数量必然小于或等于第四类边的数量。其运算规模必然小于仅基于第一类边来决定扩展新增第五类边。这是图计算中的剪枝(Pruning)操作,可大幅度降低运算资源、减少运算时间。
步骤S150:在步骤S120分割出的每一个连通子图中,将实体类型属性为E的节点称为源节点,源节点也就是全部企业节点,对每一个源节点寻找表征企业实际控制人或疑似实际控制人的扩展目标节点。
将源节点通过第一类边和第五类边所连接的所有节点作为候选节点集合。
例如,当候选节点集合中有任意节点连接源节点的第一类边的直接投资比例属性值或第五类边的一致行动人的间接持股比例属性值大于或等于第一阈值,则该节点作为源节点的表征企业实际控制人的扩展目标节点。所述第一阈值在45%至66.7%之间,优选为50%。
又如,当候选节点集合中所有节点连接源节点的第一类边的直接投资比例属性值或第五类边的一致行动人的间接持股比例属性值均小于第一阈值,有任意节点连接源节点的第一类边的直接投资比例属性值或第五类边的一致行动人的间接持股比例属性值大于或等于第二阈值,则将其中第一类边的直接投资比例属性值或第五类边的一致行动人的间接持股比例属性值最大的节点作为源节点的表征企业疑似控制人的扩展目标节点。所述第二阈值在25%至35%之间,优选为30%。
又如,当候选节点集合中所有节点连接源节点的第一类边的直接投资比例属性值或第五类边的一致行动人的间接持股比例属性值均小于第二阈值,则源节点不存在实际控制人或疑似实际控制人的扩展目标节点。
上述新增的步骤S140至S150基于企业一致行动人进行图计算,来获取企业实际控制人。企业的实际控制人是指通过投资关系、协议或者其他安排,能够实际支配企业行为的自然人或单位。企业的实际控制人的定义较为模糊。在通过运算获取企业的实际控制人时,运算结果包括企业的实际控制人、企业的疑似实际控制人、企业无实际控制人等情形。
请参阅图4,与上述企业一致行动人运算方法相对应地,本申请还提供了一种企业一致行动人运算系统。所述企业一致行动人运算系统400包括图谱构建模块410、连通子图切分模块420、第四类边扩展模块430。
所述图谱构建模块410用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。构建好的知识图谱中,每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点。每个节点包含两个属性:实体名称、实体类型。实体名称是指单位名称或自然人姓名。实体类型包括PE、LE、GE、P、G、S、Z中的一项或多项。直接持股股东节点对企业节点的直接投资关系及直接投资比例用有方向的第一类边表示。高管人员节点在企业节点的任职关系及任职职务用第二类边表示。同一自然人关系用第三类边表示。
所述连通子图切分模块420用来将图谱构建模块410所构建的知识图谱进行分割,得到一个或多个连通子图。
所述第四类边扩展模块430用来根据表征直接投资关系的第一类边、表征高管任职关系的第二类边、表征同一自然人关系的第三类边扩展增加表征一致行动人关系的第四类边。由第四类边所连接的多个节点就是企业一致行动人节点。
可选地,所述企业一致行动人运算系统还包括第五类边扩展模块440、扩展目标节点判定模块450,如图5所示。
所述第五类边扩展模块440用来根据表征直接投资关系的第一类边和表征一致行动人关系的第四类边扩展增加表征一致行动人的间接投资关系的第五类边。
所述扩展目标节点判定模块450用来为每一个企业节点寻找表征企业实际控制人或疑似实际控制人的扩展目标节点。
本申请基于图数据库来构建并存储反映企业的股权投资及高管任职关系、且对同一自然人进行标注的知识图谱,并采用图计算的技术手段找出企业一致行动人,并将其保存在知识图谱中。这样,对任意企业的一致行动人的查询可在所述知识图谱中立即得到结果,极大地提升了存储和运算效率以及响应的及时性。
以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。