CN111209330A - 一种识别一致行动人的方法及系统 - Google Patents

一种识别一致行动人的方法及系统 Download PDF

Info

Publication number
CN111209330A
CN111209330A CN201911409385.6A CN201911409385A CN111209330A CN 111209330 A CN111209330 A CN 111209330A CN 201911409385 A CN201911409385 A CN 201911409385A CN 111209330 A CN111209330 A CN 111209330A
Authority
CN
China
Prior art keywords
consistent
actor
graph
actors
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911409385.6A
Other languages
English (en)
Inventor
刘鹏飞
耿少华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911409385.6A priority Critical patent/CN111209330A/zh
Publication of CN111209330A publication Critical patent/CN111209330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种识别一致行动人的方法及系统,其中该方法包括:根据待识别客户标识从预先保存的股权网络中确定一致行动人候选集;根据预先定义的一致行动人识别模型从所述一致行动人候选集中确定所述待识别客户的一致行动人。如此,能够从海量股权关系中识别出客户的一致行动人,提升了一致行动人的识别效率。

Description

一种识别一致行动人的方法及系统
技术领域
本发明实施例涉及数据挖掘技术,尤指一种识别一致行动人的方法及系统。
背景技术
一致行动人是指通过协议、合作、关联方关系等合法途径扩大其对一个上市公司股份的控制比例,或者巩固其对上市公司的控制地位,在行使上市公司表决权时采取相同意思表示的两个以上的自然人、法人或者其他组织。
随着企业集团化运作模式不断深入,企业越来越不是单一的个体,企业与个人、企业与企业之间的联系与交互作用愈加复杂,企业间的社会行为存在紧密且稳定的关联,信用风险传导往往是一致行动人作为背后的真正推手,因此在信用预警的管理上,要建立有效的企业关联关系管理,实现对企业关联客群的监控管理,首先要识别一致行动人。
目前为了识别一致行动人,银行基于现有系统及数据采用了以结构化数据库为核心,采用存储过程sql(结构化查询语言,Structured Query Language)实现一致行动人识别方案。该方案的主要思路是采用深度优先搜索算法(Depth First Search,DFS)对股权关系生成的图(Graph)进行遍历,对所有股权关系进行穷尽搜索,直至所有的满足规则的节点都被触达,即形成最终的控股路径,并为每户企业打上相应的一致行动人标识。例如,依据上述遍历过程,一致行动人识别的具体步骤如下:第一步,提取股权关系并生成图。从数据库中导出所有股权关系(去除重复的股权关系),以(x,y)表示一条股权关系,x为控制结点,y为被控制企业结点。以控股关系为边,以企业(自然人或法人)为结点,构成一个图。由于控股关系是有向的,所以将其表示为有向图。第二步,将图表示为邻接矩阵(X,Y)。邻接矩阵是一个二维数组,其中每一维度均为图中的所有结点(即企业名,或者自然人或法人)。当结点i和结点j之间存在一条边时(即存在控股关系),第i行、第j列对应的元素的值为1,否则为0。邻接矩阵将复杂的股权关系表示为清晰的二维矩阵,有利于DFS快速查找图中任意结点的所有相邻结点,确保搜索的高效和准确。第三步,采用DFS算法进行一致行动人识别。利用DFS算法,对邻接矩阵(X,Y)进行搜索遍历,得出一致行动人识别结果。
但是,随着银行企业客户数量快速增长,伴随着大量不断变化的股权关系,以此构建的股权关系数量急剧增加,基于现有一致行动人识别方案一般难以满足复杂图挖掘的性能要求。如此,基于上述一致行动人识别方案,由于股权关系网络的复杂性,导致目前的一致行动人识别策略难以满足海量股权关系数据挖掘的要求。例如,传统sql存储过程实现的深度优先算法,难以在大数据环境下,将图表示为邻接矩阵;大量的迭代导致性能及内存瓶颈,难以实现对图数据的搜索;并且通过数据库技术实现的邻接矩阵表示方法,在股权关系增加的情况下,会存在数据稀疏问题,并且实体及关系的增加,带来了高度复杂性,难以满足表示需求。另外,由于一致行动人判定条件的复杂性,传统sql的方式很难实现对一致行动人的识别。
发明内容
有鉴于此,本发明实施例提供了一种识别一致行动人的方法,包括:
根据待识别客户标识从预先保存的股权网络中确定一致行动人候选集;
根据预先定义的一致行动人识别模型从所述一致行动人候选集中确定所述待识别客户的一致行动人。
本发明实施例还提供了一种识别一致行动人的系统,包括:
第一确定单元,用于根据待识别客户标识从预先保存的股权网络中确定识别一致行动人候选集;
第二确定单元,用于根据预先定义的一致行动人识别模型从所述一致行动人候选集中确定所述待识别客户的一致行动人。
本发明实施例还提供了一种识别一致行动人的系统,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述识别一致行动人的方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现上述识别一致行动人的方法的步骤。
本发明实施例提供的技术方案,能够从海量股权关系中识别出客户的一致行动人,提升了一致行动人的识别效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本发明一实施例提供的一种识别一致行动人的方法的流程示意图;
图2为本发明另一实施例提供的一种识别一致行动人的方法的流程示意图;
图3为本发明另一实施例提供的一种识别一致行动人的方法的流程示意图;
图4为本发明一实施例提供的一种识别一致行动人的系统的结构示意图;
图5为本发明另一实施例提供的一种识别一致行动人的系统的结构示意图;
图6为本发明一实施例中识别出的一致行动人的展示示意图;
图7为本发明另一实施例提供的一种识别一致行动人的系统的结构示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
图1为本发明一实施例提供的一种识别一致行动人的方法的流程示意图,如图1所示,该方法包括:
步骤101,根据待识别客户标识从预先保存的股权网络中确定一致行动人候选集;
步骤102,根据预先定义的一致行动人识别模型从所述一致行动人候选集中确定所述待识别客户的一致行动人。
可选地,所述股权网络是由点与点之间有向连接构成的点边关系图,其中点关系存储对应客户的属性,点与点之间连接的边关系存储对应关联客户属性及关联关系属性;
所述一致行动人识别模型中的一致行动人的类型包括以下至少之一:
控股目标企业超过50%的企业股东与所述目标企业是一致行动人;企业股东控股至少两个目标企业超过50%的,所述至少两个目标企业是一致行动人;存在自然人同时在至少两个目标企业任职董监高的,所述至少两个目标企业是一致行动人;至少两个目标企业同时投资某企业的,所述至少两个目标企业是一致行动人;自然人持有目标企业股份超过30%的,所述自然人和目标企业是一致行动人;自然人在目标企业任职董监高的,所述自然人和目标企业是一致行动人;自然人的亲属在目标企业任职董监高或者在目标企业持股超过30%的,所述自然人和目标企业是一致行动人;至少两个自然人同时投资目标的企业且所述至少两个自然人为亲属关系的,所述至少两个自然人是一致行动人。
可选地,所述根据待识别客户标识从预先保存的股权网络中确定一致行动人候选集,包括:
利用图计算引擎加载预先保存的股权网络;
利用最大连通图算法从所述股份网络中识别出所述待识别客户标识关联的股权子网络,作为所述待识别客户的一致行动人候选集。
可选地,所述根据预先定义的一致行动人识别模型从所述一致行动人候选集中确定所述待识别客户的一致行动人,包括:
利用图计算算法根据所述一致行动人识别模型遍历所述一致行动人候选集,从中识别出所述待识别客户对应的一致行动人。
可选地,在根据待识别客户标识从预先保存的股权网络中确定一致行动人候选集之前,该方法还包括:
利用图谱抽取工具从控股数据及亲属关系数据中抽取事先已梳理好的点边关系,形成所述股权网络,并保存到数据库中。
可选地,所述图计算引擎为spark graphx图计算引擎,所述最大连通图算法为深度优先图搜索算法,所述图计算算法为基于spark graphx的Pregel,所述图谱抽取工具为hive sql图谱抽取工具,所述数据库为hive数据库。
可选地,该方法还包括:
通过图展示工具展示所述待识别客户的一致行动人。
本发明实施例提供的技术方案,能够从海量股权关系中识别出客户的一致行动人,提升了一致行动人的识别效率。
图2为本发明另一实施例提供的一种识别一致行动人的方法的流程示意图,如图2所示,该方法包括:
步骤201,利用图谱抽取工具从控股数据及亲属关系数据中抽取事先已梳理好的点边关系,形成股权网络,并保存到数据库中;
其中,所述股权网络是由点与点之间有向连接构成的点边关系图,其中点关系存储对应客户的属性,点与点之间连接的边关系存储对应关联客户属性及关联关系属性。
具体而言,首先构建企业股权图谱,包括对股权及亲属关系数据进行梳理,提取数据中的相关实体,属性,关联关系;然后对所涉及股权关系进行统一表示,以企业为实体(点),股权关系为边构建股权图谱。
例如点边的存储方式可以如下表1、2所示。
表1:
顶点 顶点属性集
表2:
顶点1 顶点2 边属性集
其中,表1中存储点关系,顶点项对应于股权网络中各个点对应的客户的名称或者标识,顶点属性集对应于对应点的属性,例如点的身份属性为自然人或者法人或者其他组织等,例如顶点1代表的客户A,对应属性为自然人,顶点2代表客户B,对应属性为法人。表2中存储边关系,例如顶点1、2具有关联关系,其连接的边关系具有对应的边属性集,例如顶点1、2的关联关系为自然人股东与企业关系,且占股权20%,则表示顶点1对应的客户A是顶点2对应客户B的自然人股东,且占企业B股权的20%。
可选地,所述图谱抽取工具为现有技术中任一种图谱抽取工具,例如hive sql图谱抽取工具,所述数据库为现有技术中任一种数据库,例如hive数据库。例如,将股权图谱中的点和边分别存储在分布式数据库hive中,避免了存储图的邻接矩阵,点边分别存储利于spark graphx加载图谱。
步骤202,利用图计算引擎加载预先保存的股权网络;
可选地,所述图计算引擎为现有技术中任一种图计算引擎,例如spark graphx图计算引擎。例如,以spark graphx为图计算引擎,加载hive中存储的股权图谱。
步骤203,利用最大连通图算法从所述股权网络中识别出所述待识别客户标识关联的股权子网络,作为所述待识别客户的一致行动人候选集;
可选地,所述最大连通图算法为现有技术中任一种最大连通图算法,例如深度优先图搜索算法,例如,通过深度优先图搜索算法等最大连通图算法,识别股权图谱中的股权关系子图,并以节点id作为子图标识,存储在节点属性当中,以此将无关企业及相关关系剔除,获取一致行动人候选集。
其中,所述待识别客户是指待识别的实体,例如请求贷款的客户。所述待识别客户标识是指待识别的实体标识,例如客户id或者名称等表示客户身份的标识。该实体可以为自然人或者法人或者其他组织。
步骤204,利用图计算算法根据一致行动人识别模型遍历所述一致行动人候选集,从中识别出所述待识别客户对应的一致行动人;
可选地,所述一致行动人识别模型中的一致行动人的类型包括以下至少之一:
控股目标企业超过50%的企业股东与所述目标企业是一致行动人;企业股东控股至少两个目标企业超过50%的,所述至少两个目标企业是一致行动人;存在自然人同时在至少两个目标企业任职董监高的,所述至少两个目标企业是一致行动人;至少两个目标企业同时投资某企业的,所述至少两个目标企业是一致行动人;自然人持有目标企业股份超过30%的,所述自然人和目标企业是一致行动人;自然人在目标企业任职董监高的,所述自然人和目标企业是一致行动人;自然人的亲属在目标企业任职董监高或者在目标企业持股超过30%的,所述自然人和目标企业是一致行动人;至少两个自然人同时投资目标的企业且所述至少两个自然人为亲属关系的,所述至少两个自然人是一致行动人。
其中,目标企业的一致行动人必须属于目标企业的股东,例如找到目标企业M的股东(含企业或自然人),一致行动人必须属于M的股东。
其中,一致行动人又分为三种类别:一种是企业和企业是一致行动人,一种是企业和自然人是一致行动人,一种是自然人和自然人是一致行动人。
例如:对于企业A和企业B是一致行动人的情形,包括:
1、A对B控股超过50%,A和B是一致行动人;
2、存在C企业,对A和B控股超过50%,A和B是一致行动人;
3、存在自然人c,同时在A和B企业任职(董监高),A和B是一致行动人;
4、A和B企业,同时投资了企业C,A和B是一致行动人。
又例如:对于企业A和自然人b是一致行动人的情形,包括:
1、b持有A股份超过30%,A和b是一致行动人;
2、b在A公司任职(董监高),A和b是一致行动人;
3、b的亲属在A公司任职(董监高)或者b的亲属在A公司持股超过30%,A和b是一致行动人。
其中,亲属是指其父母、配偶、子女及其配偶、配偶的父母、兄弟姐妹及其配偶、配偶的兄弟姐妹及其配偶。董监高指上市公司的董事、监事和高级管理人员。董事是指董事会成员,监事是指监事会的成员,高级管理人员是指公司的经理、副经理、财务负责人,上市公司董事会秘书和公司章程规定的其他人员。
又例如:对于自然人a和自然人b是一致行动人的情形,包括:
a和b同时投资C企业,且a和b为亲属关系,a和b是一致行动人。
可选地,所述图计算算法为现有技术中任一种图计算算法,例如基于sparkgraphx的Pregel。例如,基于步骤203中获得的一致行动人候选集,结合上述一致行动人挖掘模型,通过pregel实现候选集遍历,对候选集进行筛选,获得所述待识别客户的一致行动人。
可选地,Pregel的使用能够有效解决大量迭代带来的性能问题,通过pregel遍历一致行动人候选集的具体实施步骤包括:
步骤1,遍历一致行动人候选集中所有的节点,将节点自身设为当前节点股权控制节点;
其中,股权关系图中的节点的属性(即点关系属性)包括以下至少之一:标识id、对应客户名称等。股权关系图中点与点之间连接的边关系存储对应关联客户属性及关联关系属性,关联关系属性例如为控股、亲属关系等,另外边关系是具有方向性的,例如节点A与节点B的边关系为从节点A指向节点B,表示节点A与节点B的关系为节点A对应客户是节点B对应客户的股东,还包括股权控制信息,例如节点B对节点A控股20%。
步骤2,由源节点向目的节点发送消息,将源节点类型、股权控制信息,以及边属性发送给目的节点;
步骤3,目的节点合并收到的信息,对股权重合节点进行合并,对不同类型的边进行分类标识;并根据一致行动人识别规则,标识本轮迭代中当前节点的一致行动人,以此获取一致行动人挖掘模型所需的各个规则要素;当源节点信息,在目标节点已存在时,不发送消息;
以此类推,基于上述迭代,直到没有活跃节点存在,使用aggregate Messages获取目标节点的一跳节点,形成目标节点相关的一致行动人候选集;
步骤4、对一致行动人候选集中记录的属性,基于一致行动人识别模型,筛选出目标节点的一致行动人。
步骤205,通过图展示工具展示所述待识别客户的一致行动人。
可选地,所述图展示工具可以为现有技术中任一个图展示工具,例如echarts等。
本发明实施例提供的技术方案,能够从海量股权关系中识别出客户的一致行动人,提升了一致行动人的识别效率。
图3为本发明另一实施例提供的一种识别一致行动人的方法的流程示意图,如图3所示,该方法包括:
步骤301,对控股数据及亲属关系数据,基于事先已梳理好的点边关系,通过hivesql图谱抽取工具,将点边关系抽取出来,形成股权图谱存储到hive中;
其中,所述股权图谱即是指上一实施例中的股权网络。
具体而言,对股权及亲属关系数据进行梳理,提取数据中的相关实体,属性,关联关系。对所涉及股权关系进行统一表示,以企业为实体,股权关系为边构建股权图谱。
步骤302,以spark graphx为图计算引擎加载hive中存储的股权图谱,通过最大连通图算法识别出待识别客户的股权最小图谱;
其中,所述股权最小图谱即是指上一实施例中的股权子网络,作为一致行动人候选集。
具体而言,以spark graphx为图计算引擎,加载股权图谱。通过实现的连通图算法,识别股权图谱中的股权关系子图。以此将无关企业及相关关系剔除,获取一致行动人候选集。
本步骤中,将无关企业及相关关系从股权网络中剔除,获取一致行动人候选集。
步骤303,通过pregel根据一致行动人识别模型遍历所述股权最小图谱,从中识别出所述待识别客户对应的一致行动人;
具体而言,针对已获得一致行动人候选集,结合一致行动人识别模型,以待识别客户为起始点,通过pregel实现的深度优先算法,遍历候选集,对候选集进行筛选,获得一致行动人。
步骤304,通过图展示工具展示所述待识别客户对应的一致行动人。
可选地,所述图展示工具为现有任一种图展示工具,例如echarts等。
本发明实施例提供的技术方案,通过spark graphx图计算引擎,解决了传统sql遍历复杂网络存在的性能问题;通过hive数据库存储图数据,避免了邻接矩阵的存储,解决了海量图数据存储表示问题,以此能够高效的从海量图数据中识别出目标企业的一致行动人。通过一致行动人的识别,并对其关联企业资金情况进行必要的分析,有利于调查企业的产权结构,掌握企业的管理模式,审查企业的经营管理、资金运作模式、资金控制能力和发展等制定有利于风险控制的授信方案,同时通过利益关联者对授信客户的信息优势,在获取信息方面实现“搭便车”,有效降低信贷监控成本。
图4为本发明一实施例提供的一种识别一致行动人的系统的结构示意图,如图4所示,该系统包括:
第一确定单元,用于根据待识别客户标识从预先保存的股权网络中确定识别一致行动人候选集;
第二确定单元,用于根据预先定义的一致行动人识别模型从所述一致行动人候选集中确定所述待识别客户的一致行动人。
可选地,所述股权网络是由点与点之间有向连接构成的点边关系图,其中点关系存储对应客户的属性,点与点之间连接的边关系存储对应关联客户属性及关联关系属性;
所述一致行动人识别模型中的一致行动人的类型包括以下至少之一:
控股目标企业超过50%的企业股东与所述目标企业是一致行动人;企业股东控股至少两个目标企业超过50%的,所述至少两个目标企业是一致行动人;存在自然人同时在至少两个目标企业任职董监高的,所述至少两个目标企业是一致行动人;至少两个目标企业同时投资某企业的,所述至少两个目标企业是一致行动人;自然人持有目标企业股份超过30%的,所述自然人和目标企业是一致行动人;自然人在目标企业任职董监高的,所述自然人和目标企业是一致行动人;自然人的亲属在目标企业任职董监高或者在目标企业持股超过30%的,所述自然人和目标企业是一致行动人;至少两个自然人同时投资目标的企业且所述至少两个自然人为亲属关系的,所述至少两个自然人是一致行动人。
可选地,所述第一确定单元,具体用于利用图计算引擎加载预先保存的股权网络;
利用最大连通图算法从所述股份网络中识别出所述待识别客户标识关联的股权子网络,作为所述待识别客户的一致行动人候选集。
可选地,所述第二确定单元,具体用于利用图计算算法根据所述一致行动人识别模型遍历所述一致行动人候选集,从中识别出所述待识别客户对应的一致行动人。
可选地,该系统还包括第三确定单元,用于在根据待识别客户标识从预先保存的股权网络中确定一致行动人候选集之前,利用图谱抽取工具从控股数据及亲属关系数据中抽取事先已梳理好的点边关系,形成所述股权网络,并保存到数据库中。
可选地,所述图计算引擎为spark graphx图计算引擎,所述最大连通图算法为深度优先图搜索算法,所述图计算算法为基于spark graphx的Pregel,所述图谱抽取工具为hive sql图谱抽取工具,所述数据库为hive数据库。
可选地,该系统还包括:
展示单元,用于通过图展示工具展示所述待识别客户的一致行动人。
本发明实施例提供的技术方案,能够从海量股权关系中识别出客户的一致行动人,提升了一致行动人的识别效率。
图5为本发明另一实施例提供的一种识别一致行动人的系统的结构示意图,如图5所示,该系统包括:
连通图API(Application Programming Interface,应用程序接口)和一致行动人识别API;
其中,连通图API对应于上述实施例中的第一确定单元,一致行动人识别API对应于上述实施例中的第二确定单元。
其中,连通图API,用于根据待识别客户标识从预先保存的股权网络中确定一致行动人候选集;
可选地,所述股权网络是由点与点之间有向连接构成的点边关系图,其中点关系存储对应客户的属性,点与点之间连接的边关系存储对应关联客户属性及关联关系属性;
所述一致行动人识别模型中的一致行动人的类型包括以下至少之一:
控股目标企业超过50%的企业股东与所述目标企业是一致行动人;企业股东控股至少两个目标企业超过50%的,所述至少两个目标企业是一致行动人;存在自然人同时在至少两个目标企业任职董监高的,所述至少两个目标企业是一致行动人;至少两个目标企业同时投资某企业的,所述至少两个目标企业是一致行动人;自然人持有目标企业股份超过30%的,所述自然人和目标企业是一致行动人;自然人在目标企业任职董监高的,所述自然人和目标企业是一致行动人;自然人的亲属在目标企业任职董监高或者在目标企业持股超过30%的,所述自然人和目标企业是一致行动人;至少两个自然人同时投资目标的企业且所述至少两个自然人为亲属关系的,所述至少两个自然人是一致行动人。
可选地,连通图API,具体用于利用图计算引擎加载预先保存的股权网络;
利用最大连通图算法从所述股权网络中识别出所述待识别客户标识关联的股权子网络,作为所述待识别客户的一致行动人候选集。
可选地,所述图计算引擎为现有任一种图计算引擎,例如spark graphx图计算引擎,所述最大连通图算法为现有任一种最大连通图算法,例如深度优先图搜索算法。例如,将上述股权网络作为连通图API的输入,计算股权网络中的一致行动人候选集。
其中,该系统还包括:
第三确定单元,用于利用图谱抽取工具从控股数据及亲属关系数据中抽取事先已梳理好的点边关系,形成所述股权网络,并保存到数据库中。
可选地,所述图谱抽取工具为现有任一种图谱抽取工具,例如hive sql图谱抽取工具,所述数据库为现有任一种数据库,例如hive数据库。
例如,本实施例中,基于某商业银行企业客户的控股数据及亲属关系数据进行说明,从数据中按事先定义的点边定义,通过hive sql工具抽取股权及亲属关系数据中的点边关系,构造股权网络。分别存储点和边关系。点关系存储企业实体、自然人实体及其相关属性,边关系存储以关联企业id、自然人id为主体的关联关系属性。然后,将hive数据库中的股权网络作为连通图API的输入,计算股权网络中的一致行动人候选集。
其中,一致行动人识别API,用于根据预先定义的一致行动人识别模型从所述一致行动人候选集中确定所述待识别客户的一致行动人。
可选地,一致行动人识别API,具体用于利用图计算算法根据所述一致行动人挖掘模型遍历所述一致行动人候选集,从中识别出所述待识别客户对应的一致行动人。
可选地,所述图计算算法为现有任一种图计算算法,例如基于spark graphx的Pregel。
例如,本实施例中,以待识别客户(即待识别实体)和一致行动人候选集为输入,调用一致行动人识别API,筛选待识别客户的一致行动人。
其中,该系统还包括:显示单元,
所述显示单元,用于通过图展示工具展示识别出的一致行动人。
可选地,所述图展示工具为现有任一种图展示工具,例如echarts等。例如图6所示,即为图展示工具展示的一种一致行动人示例图,其中,A、B、C、分别为图中各个节点可以分别代表不同的实体(客户),每一个实体可以代表不同的客户,其中每两个节点之间的边关系代表了这两个节点的关联关系,例如A(自然人)、B(企业)之间的边关系为自然人股东与企业的关系,股东A占企业B股权的20%;A(自然人)、C(企业)之间的边关系为自然人股东与企业的关系,B(企业)、C(企业)之间的边关系为企业股东与企业的关系,股东B占企业C股权的60%。
本发明实施例提供的技术方案,能够从海量股权关系中识别出客户的一致行动人,提升了一致行动人的识别效率。
图7为本发明另一实施例提供的一种识别一致行动人的系统的结构示意图,如图7所示,该系统包括:
股权图谱API、连通图API、一致行动人识别API和显示单元;
其中,股权图谱API对应于上述实施例中的第三确定单元。
其中,股权图谱API,用于对控股数据及亲属关系数据,基于事先已梳理好的点边关系,通过hive sql图谱抽取工具,将点边关系抽取出来,形成股权图谱存储到hive中;
其中,所述股权图谱即是指上述实施例中的股权网络。
其中,连通图API,用于以spark graphx为图计算引擎加载hive中存储的股权图谱,通过最大连通图算法识别出待识别客户的股权最小图谱;
其中,所述股权最小图谱即是指上一实施例中的股权子网络,作为一致行动人候选集。
本步骤中,将股权网络作为连通图API的输入,将无关企业及相关关系从股权网络中剔除,计算股权网络中的待识别客户对应的股权子网络,获取一致行动人候选集。
其中,一致行动人识别API,用于通过pregel根据一致行动人识别模型遍历所述股权最小图谱,从中识别出所述待识别客户对应的一致行动人;
本步骤中,以待识别客户的一致行动人候选集和一致行动人识别模型作为一致行动人识别API,筛选出待识别客户的一致行动人。
其中,显示单元,用于通过图展示工具展示所述待识别客户对应的一致行动人。
可选地,所述图展示工具为现有任一种图展示工具,例如echarts等。
本发明实施例提供的技术方案,对股权控股数据进行梳理提取出业务相关的实体及相关属性,以及梳理合和完善客户的控股关系,并构建股权图谱,并采用hive作为图谱存储介质,在构建的股权图谱的基础上,结合业务规则设计了一致行动人识别模型,并基于spark graphx的Pregel对一致行动人识别模型进行了工程化实现;以此实现对股权图谱的挖掘,完成对一致行动人的识别。
本发明实施例还提供了一种识别一致行动人的系统,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项所述识别一致行动人的方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现上述任一项所述识别一致行动人的方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种识别一致行动人的方法,其特征在于,包括:
根据待识别客户标识从预先保存的股权网络中确定一致行动人候选集;
根据预先定义的一致行动人识别模型从所述一致行动人候选集中确定所述待识别客户的一致行动人。
2.根据权利要求1所述的方法,其特征在于,
所述股权网络是由点与点之间有向连接构成的点边关系图,其中点关系存储对应客户的属性,点与点之间连接的边关系存储对应关联客户属性及关联关系属性;
所述一致行动人识别模型中的一致行动人的类型包括以下至少之一:
控股目标企业超过50%的企业股东与所述目标企业是一致行动人;企业股东控股至少两个目标企业超过50%的,所述至少两个目标企业是一致行动人;存在自然人同时在至少两个目标企业任职董监高的,所述至少两个目标企业是一致行动人;至少两个目标企业同时投资某企业的,所述至少两个目标企业是一致行动人;自然人持有目标企业股份超过30%的,所述自然人和目标企业是一致行动人;自然人在目标企业任职董监高的,所述自然人和目标企业是一致行动人;自然人的亲属在目标企业任职董监高或者在目标企业持股超过30%的,所述自然人和目标企业是一致行动人;至少两个自然人同时投资目标的企业且所述至少两个自然人为亲属关系的,所述至少两个自然人是一致行动人;。
3.根据权利要求1所述的方法,其特征在于,所述根据待识别客户标识从预先保存的股权网络中确定一致行动人候选集,包括:
利用图计算引擎加载预先保存的股权网络;
利用最大连通图算法从所述股份网络中识别出所述待识别客户标识关联的股权子网络,作为所述待识别客户的一致行动人候选集。
4.根据权利要求1所述的方法,其特征在于,所述根据预先定义的一致行动人识别模型从所述一致行动人候选集中确定所述待识别客户的一致行动人,包括:
利用图计算算法根据所述一致行动人识别模型遍历所述一致行动人候选集,从中识别出所述待识别客户对应的一致行动人。
5.根据权利要求1所述的方法,其特征在于,在根据待识别客户标识从预先保存的股权网络中确定一致行动人候选集之前,该方法还包括:
利用图谱抽取工具从控股数据及亲属关系数据中抽取事先已梳理好的点边关系,形成所述股权网络,并保存到数据库中。
6.根据权利要求3至5任一项所述的方法,其特征在于,
所述图计算引擎为spark graphx图计算引擎,所述最大连通图算法为深度优先图搜索算法,所述图计算算法为基于spark graphx的Pregel,所述图谱抽取工具为hive sql图谱抽取工具,所述数据库为hive数据库。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
通过图展示工具展示所述待识别客户的一致行动人。
8.一种识别一致行动人的系统,其特征在于,包括:
第一确定单元,用于根据待识别客户标识从预先保存的股权网络中确定识别一致行动人候选集;
第二确定单元,用于根据预先定义的一致行动人识别模型从所述一致行动人候选集中确定所述待识别客户的一致行动人。
9.一种识别一致行动人的系统,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述识别一致行动人的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现如权利要求1至7中任一项所述识别一致行动人的方法的步骤。
CN201911409385.6A 2019-12-31 2019-12-31 一种识别一致行动人的方法及系统 Pending CN111209330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911409385.6A CN111209330A (zh) 2019-12-31 2019-12-31 一种识别一致行动人的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911409385.6A CN111209330A (zh) 2019-12-31 2019-12-31 一种识别一致行动人的方法及系统

Publications (1)

Publication Number Publication Date
CN111209330A true CN111209330A (zh) 2020-05-29

Family

ID=70784126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911409385.6A Pending CN111209330A (zh) 2019-12-31 2019-12-31 一种识别一致行动人的方法及系统

Country Status (1)

Country Link
CN (1) CN111209330A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349358A (zh) * 2023-12-04 2024-01-05 中国电子投资控股有限公司 基于分布式图处理框架的数据匹配与合并的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383767A (zh) * 2013-07-12 2013-11-06 西安交通大学 基于纳税人利益关联网络模型的偷漏税关联企业识别方法
CN105468702A (zh) * 2015-11-18 2016-04-06 中国科学院计算机网络信息中心 一种大规模rdf数据关联路径发现方法
CN109189867A (zh) * 2018-10-23 2019-01-11 中山大学 基于公司知识图谱的关系发现方法、装置及存储介质
US20190102462A1 (en) * 2017-09-29 2019-04-04 International Business Machines Corporation Identification and evaluation white space target entity for transaction operations
CN110443457A (zh) * 2019-07-05 2019-11-12 阿里巴巴集团控股有限公司 数据处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383767A (zh) * 2013-07-12 2013-11-06 西安交通大学 基于纳税人利益关联网络模型的偷漏税关联企业识别方法
CN105468702A (zh) * 2015-11-18 2016-04-06 中国科学院计算机网络信息中心 一种大规模rdf数据关联路径发现方法
US20190102462A1 (en) * 2017-09-29 2019-04-04 International Business Machines Corporation Identification and evaluation white space target entity for transaction operations
CN109189867A (zh) * 2018-10-23 2019-01-11 中山大学 基于公司知识图谱的关系发现方法、装置及存储介质
CN110443457A (zh) * 2019-07-05 2019-11-12 阿里巴巴集团控股有限公司 数据处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田宇: ""商业银行担保圈风险识别与防范研究"", 《中国优秀硕士学位论文全文数据库(经济与管理科学辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349358A (zh) * 2023-12-04 2024-01-05 中国电子投资控股有限公司 基于分布式图处理框架的数据匹配与合并的方法和系统
CN117349358B (zh) * 2023-12-04 2024-02-20 中国电子投资控股有限公司 基于分布式图处理框架的数据匹配与合并的方法和系统

Similar Documents

Publication Publication Date Title
US11516219B2 (en) System and method for role mining in identity management artificial intelligence systems using cluster based analysis of network identity graphs
US11196804B2 (en) System and method for peer group detection, visualization and analysis in identity management artificial intelligence systems using cluster based analysis of network identity graphs
CN110489561B (zh) 知识图谱构建方法、装置、计算机设备和存储介质
CN109949154B (zh) 客户信息分类方法、装置、计算机设备和存储介质
CN111382956A (zh) 企业集团关系的挖掘方法和装置
US11689555B2 (en) Systems and methods for cybersecurity risk mitigation and management
DE112018005725T5 (de) Daten-deidentifikation auf der grundlage eines erkennens von zulässigen konfigurationen für daten-deidentifikationsprozesse
US10713573B2 (en) Methods and systems for identifying and prioritizing insights from hidden patterns
CN110019754A (zh) 一种知识库的建立方法、装置及设备
US9058470B1 (en) Actual usage analysis for advanced privilege management
CN111143430A (zh) 一种担保数据挖掘的方法及系统
CN109408643B (zh) 基金相似度计算方法、系统、计算机设备和存储介质
US10313291B2 (en) Method for determining predictive response time across enterprise communication systems
CN111209330A (zh) 一种识别一致行动人的方法及系统
US11675753B2 (en) Data cleansing system and method
CN109816338A (zh) 企业奖惩处理方法、装置、计算机设备和存储介质
CN111339373B (zh) 一种图谱特征的提取方法、系统、计算机设备和存储介质
CN111552847B (zh) 一种变更对象数量的方法和装置
CN111026705B (zh) 建筑工程文件管理方法、系统及终端设备
CN111177150A (zh) 一种识别集团族谱的方法及系统
CN110895604B (zh) 一种虚拟身份信息的关联融合方法
CN110399399B (zh) 用户分析的方法、装置、电子设备和存储介质
CN111179052A (zh) 一种识别实际控制人的方法及系统
Vaish et al. Business intelligence: Escalation of data warehousing and data mining for effective decision making
DE102012011831A1 (de) Verfahren und System zur Klassifizierung und Anwendung mindestens eines Ranking-Paramter bei Datenspuren

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200529