CN111177150A - 一种识别集团族谱的方法及系统 - Google Patents

一种识别集团族谱的方法及系统 Download PDF

Info

Publication number
CN111177150A
CN111177150A CN201911299296.0A CN201911299296A CN111177150A CN 111177150 A CN111177150 A CN 111177150A CN 201911299296 A CN201911299296 A CN 201911299296A CN 111177150 A CN111177150 A CN 111177150A
Authority
CN
China
Prior art keywords
group
clique
genealogy
identified
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911299296.0A
Other languages
English (en)
Inventor
刘鹏飞
耿少华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911299296.0A priority Critical patent/CN111177150A/zh
Publication of CN111177150A publication Critical patent/CN111177150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Abstract

本发明实施例公开了一种识别集团族谱的方法及系统,其中该方法包括:根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集;根据预先定义的集团族谱识别模型从所述集团族谱候选集中确定所述待识别客户的集团族谱。如此,能够从海量股权关系中识别出客户的集团族谱,提升了集团族谱的识别效率。

Description

一种识别集团族谱的方法及系统
技术领域
本发明实施例涉及数据挖掘技术,尤指一种识别集团族谱的方法及系统。
背景技术
各种跨国企业、跨行业企业、跨地区企业越来越多,集团性客户在商业银行中的地位和比重越来越高。相对于单个的企业而言,集团客户的经济实力更为雄厚,诚信度也比单个企业的好些,而且他们的需求更为多样化,可以给银行带来很大的利益。但是集团客户内部关联交易日益复杂,这些跨行业、跨地区经营带来的银企信息不对称等增加了银行授信资产的潜在风险。一旦这些风险暴露,将产生多米诺骨牌效应,会牵涉很多的债权银行,这不仅对银行企业会产生影响,对整个国家的金融系统都会带来巨大的冲击。因此,商业银行必须有效识别集团客户,并以此控制和防范集团客户的信贷风险,加强对集团客户授信业务的风险管理,才能促进各项业务健康和稳健发展。
目前为了识别集团族谱,银行基于现有系统及数据采用了以结构化数据库为核心,采用存储过程sql(结构化查询语言,Structured Query Language)实现集团族谱识别方案。该方案的主要思路是采用深度优先搜索算法(Depth First Search,DFS)对股权关系生成的图(Graph)进行遍历,对所有股权关系进行穷尽搜索,直至所有的满足规则的节点都被触达,即形成最终的控股路径,即集团图谱,并为每户企业打上相应的集团标识。例如,依据上述遍历过程,集团图谱识别的具体步骤如下:第一步,提取股权关系并生成图。从数据库中导出所有股权关系(去除重复的股权关系),以(x,y)表示一条股权关系,x为控制结点(控制人),y为被控制结点(被控制人)。以控股关系为边,以企业(自然人或法人)为结点,构成一个图。由于控股关系是有向的,所以将其表示为有向图。第二步,将图表示为邻接矩阵(X,Y)。邻接矩阵是一个二维数组,其中每一维度均为图中的所有结点(即企业名,或者自然人或法人)。当结点i和结点j之间存在一条边时(即存在控股关系),第i行、第j列对应的元素的值为1,否则为0。邻接矩阵将复杂的股权关系表示为清晰的二维矩阵,有利于DFS快速查找图中任意结点的所有相邻结点,确保搜索的高效和准确。第三步,采用DFS算法进行集团客户识别。利用DFS算法,对邻接矩阵(X,Y)进行搜索遍历,得出集团族谱识别结果。
银行企业客户数量快速增长,伴随着大量不断变化的股权关系,以此构建的股权关系数量急剧增加,基于现有集团族谱识别方案一般难以满足复杂股权关系挖掘的性能要求。如此,基于上述集团族谱识别方案,由于股权关系网络的复杂性,导致目前的集团图谱识别策略难以满足海量股权关系数据挖掘的要求。
发明内容
有鉴于此,本发明实施例提供了一种识别集团族谱的方法,包括:
根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集;
根据预先定义的集团族谱识别模型从所述集团族谱候选集中确定所述待识别客户的集团族谱。
本发明实施例还提供了一种识别集团族谱的系统,包括:
第一确定单元,用于根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集;
第二确定单元,用于根据预先定义的集团族谱识别模型从所述集团族谱候选集中确定所述待识别客户的集团族谱。
本发明实施例还提供了一种识别集团族谱的系统,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述识别集团族谱的方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现上述识别集团族谱的方法的步骤。
本发明实施例提供的技术方案,能够从海量股权关系中识别出客户的集团族谱,提升了集团族谱的识别效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本发明一实施例提供的一种识别集团族谱的方法的流程示意图;
图2为本发明另一实施例提供的一种识别集团族谱的方法的流程示意图;
图3a为本发明实施例中集团族谱识别模型中一种集团类型的示意图;
图3b为本发明实施例中集团族谱识别模型中一种集团类型的示意图;
图3c为本发明实施例中集团族谱识别模型中一种集团类型的示意图;
图4为本发明另一实施例提供的一种识别集团族谱的方法的流程示意图;
图5为本发明一实施例提供的一种识别集团族谱的系统的结构示意图;
图6为本发明另一实施例提供的一种识别集团族谱的系统的结构示意图;
图7为本发明一实施例中识别出的集团族谱的展示示意图;
图8为本发明另一实施例提供的一种识别集团族谱的系统的结构示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
图1为本发明一实施例提供的一种识别集团族谱的方法的流程示意图,如图1所示,该方法包括:
步骤101,根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集;
步骤102,根据预先定义的集团族谱识别模型从所述集团族谱候选集中确定所述待识别客户的集团族谱。
可选地,所述股权网络是由点与点之间有向连接构成的点边关系图,其中点关系存储对应客户的属性,点与点之间连接的边关系存储对应关联客户属性及关联关系属性;
所述集团族谱识别模型中的集团类型包括以下至少之一:
两个或两个以上的客户共同被第三方客户所控制共同组成的集团;在股权上或者经营决策上直接或间接控制其他客户或被其他客户控制的客户共同组成的集团;由主要投资者个人、关键管理人员或与其近亲属共同直接控制或间接控制的客户共同组成的集团。
可选地,所述根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集,包括:
利用图计算引擎加载预先保存的股权网络;
利用最大连通图算法从所述股份网络中识别出所述待识别客户标识关联的股权子网络,作为所述待识别客户的集团族谱候选集。
可选地,所述根据预先定义的集团族谱识别模型从所述集团族谱候选集中确定所述待识别客户的集团族谱,包括:
利用图计算算法根据所述集团族谱识别模型遍历所述集团族谱候选集,从中识别出所述待识别客户对应的全部集团族谱。
可选地,在根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集之前,该方法还包括:
利用图谱抽取工具从控股数据及亲属关系数据中抽取事先已梳理好的点边关系,形成所述股权网络,并保存到数据库中。
可选地,所述图计算引擎为spark graphx图计算引擎,所述最大连通图算法为深度优先图搜索算法,所述图计算算法为基于spark graphx的Pregel,所述图谱抽取工具为hive sql图谱抽取工具,所述数据库为hive数据库。
可选地,该方法还包括:
通过图展示工具展示所述待识别客户的集团族谱。
本发明实施例提供的技术方案,能够从海量股权关系中识别出客户的集团族谱,提升了集团族谱的识别效率。
图2为本发明另一实施例提供的一种识别集团族谱的方法的流程示意图,如图2所示,该方法包括:
步骤201,利用图谱抽取工具从控股数据及亲属关系数据中抽取事先已梳理好的点边关系,形成股权网络,并保存到数据库中;
其中,所述股权网络是由点与点之间有向连接构成的点边关系图,其中点关系存储对应客户的属性,点与点之间连接的边关系存储对应关联客户属性及关联关系属性。
可选地,所述图谱抽取工具为现有技术中任一种图谱抽取工具,例如hive sql图谱抽取工具,所述数据库为现有技术中任一种数据库,例如hive数据库。例如,对控股数据及亲属关系数据,可以基于事先已梳理好的点边关系,通过hive sql图谱抽取工具,将点边关系抽取出来,形成股权图谱存储到hive中。
步骤202,利用图计算引擎加载预先保存的股权网络;
可选地,所述图计算引擎为现有技术中任一种图计算引擎,例如spark graphx图计算引擎。例如,以spark graphx为图计算引擎,加载hive中存储的点边关系数据。
步骤203,利用最大连通图算法从所述股权网络中识别出所述待识别客户标识关联的股权子网络,作为所述待识别客户的集团族谱候选集;
可选地,所述最大连通图算法为现有技术中任一种最大连通图算法,例如深度优先图搜索算法,例如,通过深度优先图搜索算法等最大连通图算法,识别股权最小图谱中的股权关系子图,并以节点id作为子图标识,存储在节点属性当中,以此将无关企业及相关关系剔除,获取集团族谱候选集。
其中,所述待识别客户是指待识别的实体,例如请求贷款的客户。所述待识别客户标识是指待识别的实体标识,例如客户id或者名称等表示客户身份的标识。该实体可以为自然人或者法人或者其他组织。
步骤204,利用图计算算法根据集团族谱识别模型遍历所述集团族谱候选集,从中识别出所述待识别客户对应的全部集团族谱;
可选地,所述集团族谱识别模型中的集团类型包括以下至少之一:
两个或两个以上的客户共同被第三方客户所控制共同组成的集团;在股权上或者经营决策上直接或间接控制其他客户或被其他客户控制的客户共同组成的集团;由主要投资者个人、关键管理人员或与其近亲属共同直接控制或间接控制的客户共同组成的集团。
其中,两个或两个以上的客户共同被第三方客户所控制共同组成的集团:例如图3a所示,某两个客户共同被第三方企事业法人所控制,其中A客户作为控制方,从股权上控制B和C客户,客户A、B、C组成的控股路径即为一种集团族谱;另外,图3a中的控股路径也可以扩展为多个客户或多条控股路径的情况;
其中,在股权上或者经营决策上直接或间接控制其他客户或被其他客户控制的客户共同组成的集团:例如图3b所示,在股权上或者经营决策上直接或间接控制其他企事业法人或被其他企事业法人控制的,其中A客户作为控制方,从股权上控制B客户,同时B客户又作为控制方控制C客户,客户A、B、C组成的控股路径即为一种集团族谱;另外,图3b中的控股路径也可以扩展为多个客户或多条控股路径的情况;
其中,由主要投资者个人、关键管理人员或与其近亲属共同直接控制或间接控制的客户共同组成的集团:例如图3c所示,主要投资者个人、关键管理人员或与其近亲属(包括三代以内直系亲属关系和二代以内旁系亲属关系)共同直接控制或间接控制的集团,其中,自然人A、B都对客户C具有控股关系,自然人A与自然人B具有亲属关系,A、B、C组成的控股路径即为一种集团族谱;另外,图3c中的控股路径也可以扩展为多个客户或多条控股路径的情况。
可选地,所述图计算算法为现有技术中任一种图计算算法,例如基于sparkgraphx的Pregel。例如,基于步骤203中获得的集团族谱候选集,结合上述集团族谱识别模型,通过pregel实现候选集遍历,对候选集进行筛选,获得所述待识别客户的全部集团族谱。
可选地,通过pregel遍历集团族谱候选集的具体实施步骤包括:
步骤1,遍历集团族谱候选集中所有的节点,为目标节点(即待识别客户对应的节点)赋予初始链圈标识id,其他的所有节点设置为‘NULL’;并为目标节点关联的边赋予属性,标识是否遍历;
其中,股权关系图中的节点的属性(即点关系属性)包括以下至少之一:标识id、对应客户名称、是否为“NULL”等。股权关系图中点与点之间连接的边关系存储对应关联客户属性及关联关系属性,关联关系属性例如为控股人、亲属关系,占股权比例等,另外边关系是具有方向性的,例如节点A与节点B的边关系为从节点A指向节点B,表示节点A与节点B的关系为节点A对应客户是节点B对应客户的股权控制人。
步骤2,如果目的节点属性为‘NULL’,则源节点向目的节点发送消息;如果源节点属性为‘NULL’,则目的节点向源节点发送消息;如果两端节点都为’NULL’,则不发送消息;如果两端节点都出现id,并且边属性为未遍历,则出现集团族谱,基于集团族谱识别模型为该边做集团族谱标识;
以此类推,基于上述迭代,可获得目标节点的全部集团族谱。
步骤205,通过图展示工具展示所述待识别客户的集团族谱。
可选地,所述图展示工具可以为现有技术中任一个图展示工具,例如echarts等。
本发明实施例提供的技术方案,能够从海量股权关系中识别出客户的集团族谱,提升了集团族谱的识别效率。
图4为本发明另一实施例提供的一种识别集团族谱的方法的流程示意图,如图4所示,该方法包括:
步骤401,对控股数据及亲属关系数据,基于事先已梳理好的点边关系,通过hivesql图谱抽取工具,将点边关系抽取出来,形成股权图谱存储到hive中;
其中,所述股权图谱即是指上一实施例中的股权网络。
具体而言,对股权及亲属关系数据进行梳理,提取数据中的相关实体,属性,关联关系。对所涉及股权关系进行统一表示,以企业为实体,股权关系为边构建股权图谱。
步骤402,以spark graphx为图计算引擎加载hive中存储的股权图谱,通过最大连通图算法识别出待识别客户的股权最小图谱;
其中,所述股权最小图谱即是指上一实施例中的股权子网络,作为集团族谱候选集。
具体而言,以spark graphx为图计算引擎,加载股权图谱。通过实现的连通图算法,识别股权图谱中的股权关系子图。以此将无关企业及相关关系剔除,获取集团族谱候选集。
本步骤中,将无关企业及相关关系从股权网络中剔除,获取集团族谱候选集。
步骤403,通过pregel根据集团族谱识别模型遍历所述股权最小图谱,从中识别出所述待识别客户对应的全部集团族谱;
具体而言,针对已获得集团族谱候选集,结合集团族谱识别模型,以待识别客户为起始点,通过pregel实现的深度优先算法,遍历候选集,对候选集进行筛选,获得集团族谱。
步骤404,通过图展示工具展示所述待识别客户对应的全部集团族谱。
可选地,所述图展示工具为现有任一种图展示工具,例如echarts等。
本发明实施例提供的技术方案,通过hive数据库的使用解决了海量图数据存储表示问题,并通过spark graphx图计算引擎,解决了传统sql遍历复杂网络存在的性能问题,如此能够从海量图数据中识别出集团族谱。集团族谱的识别集团族谱的识别,有利于银行对集团客户的关系管理、日常业务管理、风险管理、效益分析等功能,达到动态掌握客户信息,实施有效监控,为客户提供差异化服务的目的,同事有助于银行集团客户管理部门提高风险预警和防范水平,促进集团客户业务的精细化、规范化管理。
图5为本发明一实施例提供的一种识别集团族谱的系统的结构示意图,如图5所示,该系统包括:
第一确定单元,用于根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集;
第二确定单元,用于根据预先定义的集团族谱识别模型从所述集团族谱候选集中确定所述待识别客户的集团族谱。
可选地,所述股权网络是由点与点之间有向连接构成的点边关系图,其中点关系存储对应客户的属性,点与点之间连接的边关系存储对应关联客户属性及关联关系属性;
所述集团族谱识别模型中的集团类型包括以下至少之一:
两个或两个以上的客户共同被第三方客户所控制共同组成的集团;在股权上或者经营决策上直接或间接控制其他客户或被其他客户控制的客户共同组成的集团;由主要投资者个人、关键管理人员或与其近亲属共同直接控制或间接控制的客户共同组成的集团。
可选地,第一确定单元,具体用于利用图计算引擎加载预先保存的股权网络;
利用最大连通图算法从所述股份网络中识别出所述待识别客户标识关联的股权子网络,作为所述待识别客户的集团族谱候选集。
可选地,第二确定单元,具体用于利用图计算算法根据所述集团族谱识别模型遍历所述集团族谱候选集,从中识别出所述待识别客户对应的全部集团族谱。
可选地,该系统还包括:
第三确定单元,用于在根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集之前,利用图谱抽取工具从控股数据及亲属关系数据中抽取事先已梳理好的点边关系,形成所述股权网络,并保存到数据库中。
可选地,所述图计算引擎为spark graphx图计算引擎,所述最大连通图算法为深度优先图搜索算法,所述图计算算法为基于spark graphx的Pregel,所述图谱抽取工具为hive sql图谱抽取工具,所述数据库为hive数据库。
可选地,该系统还包括:展示单元,用于通过图展示工具展示所述待识别客户的集团族谱。
本发明实施例提供的技术方案,能够从海量股权关系中识别出客户的集团族谱,提升了集团族谱的识别效率。
图6为本发明另一实施例提供的一种识别集团族谱的系统的结构示意图,如图6所示,该系统包括:
连通图API(Application Programming Interface,应用程序接口)和集团族谱过滤API;
其中,连通图API对应于上述实施例中的第一确定单元,集团族谱过滤API对应于上述实施例中的第二确定单元。
其中,连通图API,用于根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集;
可选地,所述股权网络是由点与点之间有向连接构成的点边关系图,其中点关系存储对应客户的属性,点与点之间连接的边关系存储对应关联客户属性及关联关系属性;
所述集团族谱识别模型中的集团类型包括以下至少之一:
两个或两个以上的客户共同被第三方客户所控制共同组成的集团;在股权上或者经营决策上直接或间接控制其他客户或被其他客户控制的客户共同组成的集团;由主要投资者个人、关键管理人员或与其近亲属共同直接控制或间接控制的客户共同组成的集团。
可选地,连通图API,具体用于利用图计算引擎加载预先保存的股权网络;
利用最大连通图算法从所述股权网络中识别出所述待识别客户标识关联的股权子网络,作为所述待识别客户的集团族谱候选集。
可选地,所述图计算引擎为现有任一种图计算引擎,例如spark graphx图计算引擎,所述最大连通图算法为现有任一种最大连通图算法,例如深度优先图搜索算法。例如,将上述股权网络作为连通图API的输入,计算股权网络中的集团族谱候选集。
其中,该系统还包括:
第三确定单元,用于利用图谱抽取工具从控股数据及亲属关系数据中抽取事先已梳理好的点边关系,形成所述股权网络,并保存到数据库中。
可选地,所述图谱抽取工具为现有任一种图谱抽取工具,例如hive sql图谱抽取工具,所述数据库为现有任一种数据库,例如hive数据库。
例如,本实施例中,基于某商业银行客户的控股数据及亲属关系数据进行说明,从控股数据及亲属关系数据数据中按事先定义的点边定义,通过hive sql工具抽取上述数据中的点边关系,构造股权网络,分别存储点和边关系。点关系存储客户及其相关属性,边关系存储以关联客户id为主体的信息以及关联关系属性。然后,将hive数据库中的股权网络作为连通图API的输入,计算股权网络中的集团族谱候选集。
其中,集团族谱过滤API,用于根据预先定义的集团族谱识别模型从所述集团族谱候选集中确定所述待识别客户的集团族谱。
可选地,集团族谱过滤API,具体用于利用图计算算法根据所述集团族谱识别模型遍历所述集团族谱候选集,从中识别出所述待识别客户对应的全部集团族谱。
可选地,所述图计算算法为现有任一种图计算算法,例如基于spark graphx的Pregel。
例如,本实施例中,以待识别客户(即待识别实体)和集团族谱候选集为输入,调用集团族谱过滤API,筛选待识别客户所在的全部集团族谱。
其中,该系统还包括:显示单元,
所述显示单元,用于通过图展示工具展示识别出的全部集团族谱。
可选地,所述图展示工具为现有任一种图展示工具,例如echarts等。例如图7所示,即为图展示工具展示的一种集团族谱示例图,其中,A、B、C、D、E、F、G分别为图中各个节点可以分别代表不同的实体(客户),每一个实体可以代表不同的客户,其中每两个节点之间的边关系代表了这两个节点的关联关系,例如A(自然人)、B(企业)之间的边关系为企业股东与企业的关系,股东A占企业B股权的60%。
本发明实施例提供的技术方案,能够从海量股权关系中识别出客户的集团族谱,提升了集团族谱的识别效率。
图8为本发明另一实施例提供的一种识别集团族谱的系统的结构示意图,如图8所示,该系统包括:
股权图谱API、连通图API、集团族谱过滤API和显示单元;
其中,股权图谱API对应于上述实施例中的第三确定单元。
其中,股权图谱API,用于对控股数据及亲属关系数据,基于事先已梳理好的点边关系,通过hive sql图谱抽取工具,将点边关系抽取出来,形成股权图谱存储到hive中;
其中,所述股权图谱即是指上述实施例中的股权网络。
其中,连通图API,用于以spark graphx为图计算引擎加载hive中存储的股权图谱,通过最大连通图算法识别出待识别客户的股权最小图谱;
其中,所述股权最小图谱即是指上一实施例中的股权子网络,作为集团族谱候选集。
本步骤中,将无关企业及相关关系从股权网络中剔除,获取集团族谱候选集。
其中,集团族谱过滤API,用于通过pregel根据集团族谱识别模型遍历所述股权最小图谱,从中识别出所述待识别客户对应的全部集团族谱;
其中,显示单元,用于通过图展示工具展示所述待识别客户对应的全部集团族谱。
可选地,所述图展示工具为现有任一种图展示工具,例如echarts等。
本发明实施例提供的技术方案,对股权控股数据进行治理提取出业务相关的实体及相关属性,以及梳理和完善客户的控股关系,构建股权图谱;并采用hive作为图谱存储介质,在构建的股权图谱的基础上,基于spark graphx的Pregel实现最大连通子图、深度优先等图搜索算法,实现对股权图谱的穷尽搜索;并结业务规则设计了集团族谱识别模型,以此完成对集团族谱的识别。
本发明实施例还提供了一种识别集团族谱的系统,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项所述识别集团族谱的方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现上述任一项所述识别集团族谱的方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种识别集团族谱的方法,其特征在于,包括:
根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集;
根据预先定义的集团族谱识别模型从所述集团族谱候选集中确定所述待识别客户的集团族谱。
2.根据权利要求1所述的方法,其特征在于,
所述股权网络是由点与点之间有向连接构成的点边关系图,其中点关系存储对应客户的属性,点与点之间连接的边关系存储对应关联客户属性及关联关系属性;
所述集团族谱识别模型中的集团类型包括以下至少之一:
两个或两个以上的客户共同被第三方客户所控制共同组成的集团;在股权上或者经营决策上直接或间接控制其他客户或被其他客户控制的客户共同组成的集团;由主要投资者个人、关键管理人员或与其近亲属共同直接控制或间接控制的客户共同组成的集团。
3.根据权利要求1所述的方法,其特征在于,所述根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集,包括:
利用图计算引擎加载预先保存的股权网络;
利用最大连通图算法从所述股份网络中识别出所述待识别客户标识关联的股权子网络,作为所述待识别客户的集团族谱候选集。
4.根据权利要求1所述的方法,其特征在于,所述根据预先定义的集团族谱识别模型从所述集团族谱候选集中确定所述待识别客户的集团族谱,包括:
利用图计算算法根据所述集团族谱识别模型遍历所述集团族谱候选集,从中识别出所述待识别客户对应的全部集团族谱。
5.根据权利要求1所述的方法,其特征在于,在根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集之前,该方法还包括:
利用图谱抽取工具从控股数据及亲属关系数据中抽取事先已梳理好的点边关系,形成所述股权网络,并保存到数据库中。
6.根据权利要求3至5任一项所述的方法,其特征在于,
所述图计算引擎为spark graphx图计算引擎,所述最大连通图算法为深度优先图搜索算法,所述图计算算法为基于spark graphx的Pregel,所述图谱抽取工具为hive sql图谱抽取工具,所述数据库为hive数据库。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
通过图展示工具展示所述待识别实体的集团族谱。
8.一种识别集团族谱的系统,其特征在于,包括:
第一确定单元,用于根据待识别客户标识从预先保存的股权网络中确定集团族谱候选集;
第二确定单元,用于根据预先定义的集团族谱识别模型从所述集团族谱候选集中确定所述待识别客户的集团族谱。
9.一种识别集团族谱的系统,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述识别集团族谱的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现如权利要求1至7中任一项所述识别集团族谱的方法的步骤。
CN201911299296.0A 2019-12-17 2019-12-17 一种识别集团族谱的方法及系统 Pending CN111177150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911299296.0A CN111177150A (zh) 2019-12-17 2019-12-17 一种识别集团族谱的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911299296.0A CN111177150A (zh) 2019-12-17 2019-12-17 一种识别集团族谱的方法及系统

Publications (1)

Publication Number Publication Date
CN111177150A true CN111177150A (zh) 2020-05-19

Family

ID=70622486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911299296.0A Pending CN111177150A (zh) 2019-12-17 2019-12-17 一种识别集团族谱的方法及系统

Country Status (1)

Country Link
CN (1) CN111177150A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201663A (zh) * 2021-07-23 2022-03-18 北京恒通慧源大数据技术有限公司 一种基于标签传播的集团客户挖掘方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278741A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Customer community analytics
CN105468702A (zh) * 2015-11-18 2016-04-06 中国科学院计算机网络信息中心 一种大规模rdf数据关联路径发现方法
CN109189867A (zh) * 2018-10-23 2019-01-11 中山大学 基于公司知识图谱的关系发现方法、装置及存储介质
CN110348978A (zh) * 2019-07-19 2019-10-18 中国工商银行股份有限公司 基于图计算的风险团伙识别方法、装置、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278741A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Customer community analytics
CN105468702A (zh) * 2015-11-18 2016-04-06 中国科学院计算机网络信息中心 一种大规模rdf数据关联路径发现方法
CN109189867A (zh) * 2018-10-23 2019-01-11 中山大学 基于公司知识图谱的关系发现方法、装置及存储介质
CN110348978A (zh) * 2019-07-19 2019-10-18 中国工商银行股份有限公司 基于图计算的风险团伙识别方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田宇: "商业银行担保圈风险识别与防范研究", 《中国优秀硕士学位论文全文数据库经济与管理科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201663A (zh) * 2021-07-23 2022-03-18 北京恒通慧源大数据技术有限公司 一种基于标签传播的集团客户挖掘方法、装置和电子设备

Similar Documents

Publication Publication Date Title
US10115108B1 (en) Rendering transaction data to identify fraud detection rule strength
Wang et al. Blockchain-based data privacy management with nudge theory in open banking
CN109816397A (zh) 一种欺诈判别方法、装置及存储介质
US20200265511A1 (en) Micro-Loan System
US10909625B2 (en) Computerized system and method of navigating data with tree structure visualization using segmented access rights
US20180069897A1 (en) Visualization of security entitlement relationships to identify security patterns and risks
WO2019116137A1 (en) Data de-identification based on detection of allowable configurations for data de-identification processes
CN110796269B (zh) 一种生成模型的方法、装置、信息处理的方法及装置
CN112215616B (zh) 一种基于网络的自动识别资金异常交易的方法和系统
CN110135943B (zh) 产品推荐方法、装置、计算机设备和存储介质
CN110070115A (zh) 一种单像素攻击样本生成方法、装置、设备及存储介质
CN106326438A (zh) 一种人员信息的关联方法
CN111143430A (zh) 一种担保数据挖掘的方法及系统
CN111666346A (zh) 信息归并方法、交易查询方法、装置、计算机及存储介质
WO2018233393A1 (zh) 投保校验的方法、装置、计算机设备及存储介质
CN110245954B (zh) 用于风险控制的方法和装置
CN111177150A (zh) 一种识别集团族谱的方法及系统
CN113888299A (zh) 风控决策方法、装置、计算机设备和存储介质
CN112819175A (zh) 非法所得合法化账户识别方法、装置、设备及存储介质
CN112633889A (zh) 一种企业基因测序系统及方法
CN111784495B (zh) 担保圈识别方法、装置、计算机设备和存储介质
CN111209330A (zh) 一种识别一致行动人的方法及系统
CN112991079B (zh) 多卡共现就医欺诈行为检测方法、系统、云端及介质
CN112528038B (zh) 基于多层图结构担保联通体唯一性识别方法、设备及介质
CN113159937A (zh) 识别风险的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination