CN117273954B

CN117273954B - 基于大规模关系图谱的股权关系穿透方法、装置及设备

Info

Publication number: CN117273954B
Application number: CN202311551785.7A
Authority: CN
Inventors: 赵方; 黄佳; 胡新; 万迎; 童灵馨; 秋永杰; 郑虎
Original assignee: Csi Digital Technology Shenzhen Co ltd
Current assignee: Csi Digital Technology Shenzhen Co ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-03-12
Anticipated expiration: 2043-11-21
Also published as: CN117273954A

Abstract

本发明实施例公开了一种基于大规模关系图谱的股权关系穿透方法、装置及设备，其中，所述方法包括：按照遍历参数对股权关系数据进行遍历，以获取与股权关系数据对应的第一股权关系图；采用强连通检测算法，对第一股权关系图进行子图切割，以得到至少一个子图，对得到的每一个子图进行环检测，并对检测到的环进行剔除处理，以得到第二股权关系图；生成第一邻接矩阵，对第一邻接矩阵进行稀疏化处理得到第二稀疏矩阵，基于累计持股比例计算第三特征值矩阵；确定待探查目标，从第三特征值矩阵获取目标节点集合；根据每一个节点的前序路径，获取目标节点集合中的每一个目标节点的股权穿透路径。采用本发明，提高了股权关系穿透的计算效率和准确性。

Description

基于大规模关系图谱的股权关系穿透方法、装置及设备

技术领域

本发明涉及知识图谱技术领域和数据处理，尤其涉及一种基于大规模关系图谱的股权关系穿透方法、装置及计算机设备。

背景技术

近年来，随着资本市场的进一步发展，股权投资关系成为不同企业、个人、金融产品之间至关重要的联系，也成为信用风险传递和转化的重要链条。因此金融机构需要更加清晰和完整的梳理和定位不同主体之间的多层股权关系，从而作为风险管理和风险投资的重要判断和决策依据。

但是，在现有技术中针对股权关系探查技术存在计算效率慢、穿透层级少、路径穷举难的问题。具体的，由于股权关系层层嵌套，呈网状分布，往往从一个主体出发，探寻3-5层以内的关系，效率还能够忍受，但是大于5层之后，效率呈指数级下降，往往无法在用户可接受的时间内获得结果，甚至会由于算力不够而宕机，也就是说，存在计算效率慢的问题。进一步的，传统股权穿透方法往往只能支持10层以内的股权关系穿透和遍历，10层以外的股权穿透会由于图数据库、硬件资源、超级节点等问题导致内存溢出、系统假死等情况，而对于一个大中型的上市发债企业或集团，往往其股权关系深度在10层以上，最多甚至可达100层以上。通过企业股权关系穿透，主体数量会根据股权层级数呈指数级增长。用户在定位或搜素目标企业时，往往陷入大海捞针。因此需要通过相关关键指标来对结果范围进行缩小和筛选。而相关筛选指标的计算会极大增加算法算力要求，尤其例如累计持股比例等需要根据层级迭代计算的指标，会进一步加大计算负载。当探寻层级较深后，从起始节点到目标节点的路径通常不止一条，往往随着层级深度而呈指数级增长，穷举并返回所有路径的时间复杂度和空间复杂度也大幅上升；如果要返回从起始节点出发到所有节点的路径，就更容易造成内存不足或假死宕机的现象。

也就是说，现有技术中无法支持股权穿透层级较多活股权穿透结果较复杂的情况，在大规模股权关系图谱的股权关系穿透中，存在明显的效率低下以及结果准确度不足的问题，从而导致基于股权穿透结果的后续的关联风险识别等操作的准确率也存在明显不足。

发明内容

基于此，有必要针对上述问题，提出了一种基于大规模关系图谱的股权关系穿透方法、装置及计算机设备。

在本发明的第一部分，提供了一种基于大规模关系图谱的股权关系穿透方法，所述方法包括：

获取待穿透的股权关系数据，按照预设的遍历参数对所述股权关系数据进行遍历，对遍历到的节点以及节点之间的关系按照预设的数据结构进行加载，以获取与所述股权关系数据对应的第一股权关系图，所述预设的遍历参数包括遍历层级数、遍历节点个数中的一个或多个；

采用强连通检测算法，对所述第一股权关系图进行子图切割操作，以得到至少一个子图，对得到的每一个子图进行环检测，并对检测到的环进行剔除处理，以得到与所述第一股权关系图对应的第二股权关系图；

根据第二股权关系图生成与所述第二股权关系图对应的第一邻接矩阵，对所述第一邻接矩阵进行稀疏化处理得到第二稀疏矩阵，基于累计持股比例和第二稀疏矩阵计算第三特征值矩阵，其中，所述第三特征值矩阵表示节点的累计持股比例；其中，所述第一邻接矩阵的数值为所述第二股权关系图中边的权重值；

确定待探查目标，根据所述待探查目标从所述第三特征值矩阵获取目标节点集合；

对所述第三特征值矩阵进行拓扑排序以生成拓扑排序节点序列，并基于拓扑排序节点序列对其中包含的每一个节点进行遍历，生成与每一个节点对应的前序路径；根据所述得到的前序路径，获取目标节点集合中的每一个目标节点的股权穿透路径作为与所述待探查目标对应的目标股权关系。

可选的，所述按照预设的遍历参数对所述股权关系数据进行遍历的步骤，还包括：确定至少一个起始节点;对于任一起始节点，基于该起始节点对所述股权关系数据中包含的节点以及节点之间的关系进行遍历，其中，对该起始节点的遍历不超过所述遍历层级数和/或遍历节点个数；获取当前次遍历对应的最后一层节点在所述股权关系数据中的出度；在所述出度大于0的情况下，将当前遍历对应的最后一层节点添加到所述至少一个起始节点中。

可选的，所述确定至少一个起始节点的步骤之后，还包括：针对每一个起始节点，确定该起始节点满足预设的剪枝参数，其中，所述预设的剪枝参数包括最大穿透层数和单层持股比例阈值中的一个或多个；在所述起始节点满足所述预设的剪枝参数的情况下，执行所述对于任一起始节点，基于该起始节点对所述股权关系数据中包含的节点以及节点之间的关系进行遍历的步骤;在所述起始节点不满足所述预设的剪枝参数的情况下，删除该起始节点。

可选的，所述对遍历到的节点以及节点之间的关系按照预设的数据结构进行加载，以获取与所述股权关系数据对应的股权关系图的步骤，还包括:对所述遍历到的节点以及节点之间的关系进行反序列化处理,并按照预设的数据结构对所述反序列化处理的节点以及节点之间的关系进行存储，其中，预设的数据结构包括十字链表或邻接多重表。

可选的，所述采用强连通检测算法，对所述第一股权关系图进行子图切割操作，以得到至少一个子图的步骤之前，还包括：对所述第一股权关系图进行标准化处理，其中，所述标准化处理包括对所述股权关系图包括的节点、边、边权值进行标准化处理，其中，标准化处理包括剔除处理或赋0处理；对所述股权关系图进行自循环检测，删除所述股权关系图中的自循环的边。

可选的，所述基于累计持股比例和第二稀疏矩阵计算第三特征值矩阵，其中，所述第三特征值矩阵表示节点的累计持股比例的步骤，还包括：根据所述第二稀疏矩阵确定节点之间的累计持股比例，以计算一阶邻接矩阵，并根据累计持股比例和上一阶邻接矩阵，计算下一阶邻接矩阵，直至得到n阶邻接矩阵，其中，n为股权累计的最大层级，；根据n阶邻接矩阵计算n阶累计持股比例矩阵，其中，则，其中；其中，n阶累计持股比例矩阵为所述第三特征值矩阵。

可选的，所述确定待探查目标，根据所述待探查目标从所述第三特征值矩阵获取目标节点集合的步骤，还包括：根据所述待探查目标对所述第三特征值矩阵进行切片处理，并从切片处理的结果中提取与所述待探查目标对应的相关向量；基于待探查目标对所述相关向量进行筛选，以确定至少一个目标节点作为所述目标节点集合。

可选的，所述基于拓扑排序节点序列对其中包含的每一个节点进行遍历，生成与每一个节点对应的前序路径的步骤，还包括：基于所述拓扑排序节点序列对其中包含的每一个节点进行便利，依次生成每个节点对应的前序路径，其中，所述前序路径包含前序节点路径以及当前节点；所述获取目标节点集合中的每一个目标节点的股权穿透路径作为与所述待探查目标对应的目标股权关系的步骤，还包括：针对每一个目标节点，查找与该目标节点对应的所有前序路径，根据查找到的前序路径生成所述目标股权关系。

采用本发明实施例，具有如下有益效果：

采用了上述基于大规模关系图谱的股权关系穿透方法、装置以及计算机设备之后，其中，在进行股权关系穿透时，针对需要探查的目标，首先获取待穿透的股权关系数据，按照预设的遍历参数对所述股权关系数据进行遍历，对遍历到的节点以及节点之间的关系按照预设的数据结构进行加载，以获取与所述股权关系数据对应的第一股权关系图，所述预设的遍历参数包括遍历层级数、遍历节点个数中的一个或多个；采用强连通检测算法，对所述第一股权关系图进行子图切割操作，以得到至少一个子图，对得到的每一个子图进行环检测，并对检测到的环进行剔除处理，以得到与所述第一股权关系图对应的第二股权关系图；根据第二股权关系图生成与所述第二股权关系图对应的第一邻接矩阵，对所述第一邻接矩阵进行稀疏化处理得到第二稀疏矩阵，基于累计持股比例和第二稀疏矩阵计算第三特征值矩阵，其中，所述第三特征值矩阵表示节点的累计持股比例；其中，所述第一邻接矩阵的数值为所述第二股权关系图中边的权重值；确定待探查目标，根据所述待探查目标从所述第三特征值矩阵获取目标节点集合；对所述第三特征值矩阵进行拓扑排序以生成拓扑排序节点序列，并基于拓扑排序节点序列对其中包含的每一个节点进行遍历，生成与每一个节点对应的前序路径；根据所述得到的前序路径，获取目标节点集合中的每一个目标节点的股权穿透路径作为与所述待探查目标对应的目标股权关系。

也就是说，在本发明实施例中，通过从海量的节点和关系中抽取计算所需的子图，并通过动态规划算法确保从图库中抽取的数据满足最小适用性原则，在最短的时间内抽取最小的数据集，并在内存中构建子图，提高了后续股权穿透的计算效率。并且，利用强连通图算法和环检测算法，检查可能存在的股权链路环，并按照相应的策略（如单向传播策略）对环进行处理，去除图中的环，简化图结构，提高了股权关系穿透的计算效率。最后，根据图谱结构生成图的邻接矩阵，并转化为稀疏矩阵形式以节省资源开销，然后通过矩阵运算，模拟股权穿透并计算累计股权比例这个过程中间变量，形成最终矩阵结果。然后根据目标做矩阵的切片，按条件返回符合筛选条件的节点，降低了股权关系计算的计算量，提升了计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中一种基于大规模关系图谱的股权关系穿透方法的流程示意图；

图2为一个实施例中一种基于大规模关系图谱的股权关系穿透装置的组成示意图；

图3为一个实施例中运行上述基于大规模关系图谱的股权关系穿透方法的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本实施例中，提供了一种基于大规模关系图谱的股权关系穿透方法，可以提高大规模关系图谱下股权关系穿透计算的计算效率和准确性，提高后续关联风险识别的准确性和识别效率。

本实施例更多的是针对有复杂关系、以及节点繁多的股权关系对应的关系图谱中的股权关系穿透的计算，其中，对于企业节点之间的投资关系等，可以通过知识图谱来表现，其中，节点为企业节点或个人节点（后称节点），节点之间的持股比例以及持股方向等作为节点之间的关系（例如，有向边），从而构成对应的知识图谱。

在本实施例中，对于需要了解股权关系的待探查目标，可以是一个目标企业，或一个目标个人，也可以是一组节点条件，然后需要了解待探查目标对应的股权关系。进一步的，与待探查目标对应的股权关系数据即为待穿透的股权关系数据，可以是存储在图数据库（如Neo4j，Nebula Graph等）中的相关数据，在这里读取相应的数据并进行分析，以得到与待探查目标对应的股权关系。

具体的，请参见图1，给出了上述基于大规模关系图谱的股权关系穿透方法的流程示意图，其中，该方法包括如下的步骤S102-S110：

步骤S102：获取待穿透的股权关系数据，按照预设的遍历参数对所述股权关系数据进行遍历，对遍历到的节点以及节点之间的关系按照预设的数据结构进行加载，以获取与所述股权关系数据对应的第一股权关系图，所述预设的遍历参数包括遍历层级数、遍历节点个数中的一个或多个；

步骤S104：采用强连通检测算法，对所述第一股权关系图进行子图切割操作，以得到至少一个子图，对得到的每一个子图进行环检测，并对检测到的环进行剔除处理，以得到与所述第一股权关系图对应的第二股权关系图；

步骤S106：根据第二股权关系图生成与所述第二股权关系图对应的第一邻接矩阵，对所述第一邻接矩阵进行稀疏化处理得到第二稀疏矩阵，基于累计持股比例和第二稀疏矩阵计算第三特征值矩阵，其中，所述第三特征值矩阵表示节点的累计持股比例；其中，所述第一邻接矩阵的数值为所述第二股权关系图中边的权重值；

步骤S108：确定待探查目标，根据所述待探查目标从所述第三特征值矩阵获取目标节点集合；

步骤S110：对所述第三特征值矩阵进行拓扑排序以生成拓扑排序节点序列，并基于拓扑排序节点序列对其中包含的每一个节点进行遍历，生成与每一个节点对应的前序路径；根据所述得到的前序路径，获取目标节点集合中的每一个目标节点的股权穿透路径作为与所述待探查目标对应的目标股权关系。

下面针对每一个步骤的执行，分别进行阐述。

在步骤S102中，获取待穿透的股权关系数据，按照预设的遍历参数对所述股权关系数据进行遍历，对遍历到的节点以及节点之间的关系按照预设的数据结构进行加载，以获取与所述股权关系数据对应的第一股权关系图，所述预设的遍历参数包括遍历层级数、遍历节点个数中的一个或多个。

在对图（待穿透的股权关系数据）进行运算和操作之前，需要先将相关图信息（待穿透的股权关系数据）读取后，加载到内存中，并按照相关数据结构进行组织，以方便后续运算。

其中，确定至少一个起始节点;对于任一起始节点，基于该起始节点对所述股权关系数据中包含的节点以及节点之间的关系进行遍历，其中，对该起始节点的遍历不超过所述遍历层级数和/或遍历节点个数；获取当前次遍历对应的最后一层节点在所述股权关系数据中的出度；在所述出度大于0的情况下，将当前遍历对应的最后一层节点添加到所述至少一个起始节点中。

具体的，按照预设的遍历参数，通过广度优先遍历或深度优先遍历，对股权关系数据进行遍历。从起始节点出发，通过广度优先遍历或深度优先遍历，对股权关系数据中的节点和关系进行遍历。每次遍历只遍历预设参数的遍历层级数或遍历节点个数，如通过广度优先遍历，可以设置每次穿透一层，每次遍历100个节点；如通过深度优先遍历，可以设置每次遍历3层，每次遍历30个节点。遍历时，在返回每个节点的相关业务信息的同时，计算并返回最后一层节点在股权关系中的出度（Out Degree）。根据最后一层节点的出度，判断是否需要继续遍历。如果节点的出度大于0，则加入下一批需要遍历的起始节点集合，并将新构造的起始节点集合作为输入，重复前面的步骤，反之，如果所有返回的节点出度都为0，则表示所有叶子节点都已经被访问，已经遍历到最后一层节点，则退出迭代，停止遍历，完成了对股权关系数据的遍历。

在遍历的过程中，还需要根据数据本身进行一定的剪枝，以减少分支遍历任务，从而降低不必要的IO开销，降低不必要的IO开销。具体的，针对每一个起始节点，确定该起始节点满足预设的剪枝参数，其中，所述预设的剪枝参数包括最大穿透层数和单层持股比例阈值中的一个或多个；在所述起始节点满足所述预设的剪枝参数的情况下，执行所述对于任一起始节点，基于该起始节点对所述股权关系数据中包含的节点以及节点之间的关系进行遍历的步骤;在所述起始节点不满足所述预设的剪枝参数的情况下，删除该起始节点。

在所有节点均遍历完毕之后，还需要进一步的对遍历返回的节点以及节点之间的关系对应的数据进行反序列化处理，在内存中，通过特定的数据结构（例如，十字链表或邻接多重表）对数据进行加载和存储，然后为下一步的计算做好准备。其中，在股权关系穿透的场景下，一般股权关系可以表现为有向图，从而区分投资关系和股东关系，在这里可以通过链表等方式作为反序列化的数据结构，在内存中构建有向图。

进一步的，在本实施例中，上述步骤S102的几个实现子步骤中，为了进一步提高遍历和加载的速度，可以针对上述子任务进行多任务并行处理。通过启动线程池或进程池，将每个遍历任务封装为消费者线程或进程，侦听遍历任务的消息队列；生产者线程或进程向任务队列放入任务，通过一定的分配策略（如先到先得等），向消费者线程或进程分配任务。每个任务，则由起始节点集合、遍历方式、遍历层级、遍历节点数目等关键参数构成。同时，在每个任务完成图数据库的IO操作后，即可分配新的构图线程或进程进行内存中的构图操作，构建链表等表示图谱的数据结构，从而提高计算效率。

大规模图加载技术，从图数据库中海量数据加载所需数据到内存中，通过传统技术往往无法在预期时间内完成加载；而在本实施例中，采用了剪枝算法和并行计算技术，大大提高了反序列化的效率。

在步骤S104中，采用强连通检测算法，对所述第一股权关系图进行子图切割操作，以得到至少一个子图，对得到的每一个子图进行环检测，并对检测到的环进行剔除处理，以得到与所述第一股权关系图对应的第二股权关系图。

在本步骤中，在对第一股权关系图进行关系探查和计算之前，需要对原始图结构进行一些预处理，包括数据标准化，自循环检查，环检测。这是因为，对于有向图，如果图中存在环，则在股权探查过程中，会陷入循环遍历，出现死循环，累计持股比例等过程变量也会因此而放大计算导致失真。所以在进行探查和计算之前，需要通过一定策略处理环结构，在最大化保留业务信息的同时，优化图结构。

具体的，对所述第一股权关系图进行标准化处理，其中，所述标准化处理包括对所述股权关系图包括的节点、边、边权值进行标准化处理，其中，标准化处理包括剔除处理或赋0处理；对所述股权关系图进行自循环检测，删除所述股权关系图中的自循环的边。这里主要是针对股权比例缺失的边，结合业务的实际含义，采用对应的处理方式进行标准化处理。

进一步的，还需要对图进行自循环的检测以及去除处理，其中，对第一股权关系图进行检测自循环，即节点指向自身的情况。对于自循环结构，直接断掉自循环边，或用特殊关系类型进行表达。

然后，因为股权关系形成的图规模可能较大的情况，例如，一个集团派系可能达到十万以上节点和百万以上关系，在这里，可以进一步的对数据进行处理。具体的，采用强连通检测算法，对所述第一股权关系图进行子图切割操作，以得到至少一个子图，对得到的每一个子图进行环检测，并对检测到的环进行剔除处理，以得到与所述第一股权关系图对应的第二股权关系图。也就是说，这里直接使用环检测算法可能会因为内存不足或算力不足而造成内存溢出或假死，故需要采用分而治之的优化策略来降低时间复杂度和空间复杂度。

具体执行中，对于存在环的有向图，先将全图（第二股权关系图）切割为若干环组成的子图（至少一个子图），可采用强连通检测算法，如Prim算法，Kruskal算法，或Tarjan算法等，将全图（第二股权关系图）中的强联通子图切割出来。对于有向图而言，如果没有环存在，则不存在两个节点及以上的强连通分量。所以如果检查出多于两个节点的强联通分量，则其中必然存在一个或一个以上的环。对于生成的多于一个节点的强联通子图，其中至少包含一个或一个以上的环，因此需要找到每个最小单元的环，并进行处理。因此，可以从每个子图的根节点出发，进行有向图的环检测，可采用拓朴排序算法或深度优先遍历算法检测第二股权关系图中所有存在的有向环。

对于环路，如果不做处理，遍历会陷入循环。虽然也可以通过记录节点的访问次数的方式来避免循环访问，但是该方法依赖于遍历方法的循环调用，在时间复杂度和空间复杂度上表现不佳。同时，基于遍历算法的中间过程变量（如累计持股比例）的计算，时间和空间复杂度极大依赖于遍历层级的深度，往往会由于深度的增加而导致调用栈过深从而引起内存溢出或假死。结合业务实践，在股权穿透场景下，可采用相关去环策略来优化图结构，如单向传播策略：在一个有向环中，当一个更深层级的节点具有一条指向更浅层级节点的边时，这条边的剔除，不影响对于从起始节点到目标节点的路径结果。因此可以在有向环中寻找使得层级访问序列反转的路径，并进行剔除。

在对所所有的子图进行环检测和剔除的处理之后，如果全图中不存在多于一个节点的强连通子图，代表所有环都已经处理完毕，则退出计算，完成第二股权图的步骤S104中的预处理工作。

对于十万以上节点、百万以上关系的图而言，传统的环检测算法往往会导致内存溢出和时间复杂度过高；而在本步骤中，借鉴分而治之的思想，采用强连通图检测算法切割子图，然后在子图中进行环检测的算法，提升效率可达10倍以上。

在步骤S106中，根据第二股权关系图生成与所述第二股权关系图对应的第一邻接矩阵，对所述第一邻接矩阵进行稀疏化处理得到第二稀疏矩阵，基于累计持股比例和第二稀疏矩阵计算第三特征值矩阵，其中，所述第三特征值矩阵表示节点的累计持股比例；其中，所述第一邻接矩阵的数值为所述第二股权关系图中边的权重值。

在股权穿透场景，往往需要计算路径依赖的过程变量来作为探查筛选项，如累计持股比例。而传统的基于路径遍历过程中迭代计算的方式，往往需要迭代执行或通过调用栈来实现，当层级较深时，性能呈指数级下降。而通过矩阵计算，可以大幅提高运算效率，同时时间和空间复杂度随路径层级的呈线性增长，使得计算时间在可预期范围内。在本步骤中，需要将相应的图转换成矩阵进行进一步的计算。

具体的，首先，根据第二股权关系图生成与所述第二股权关系图对应的第一邻接矩阵。根据第二股权关系图的结构，生成邻接矩阵，即第一邻接矩阵。其中矩阵中的数值为每条边的权重，比如在股权穿透场景下，可以采用直接股权投资比例作为权重，也就是说，所述第一邻接矩阵的数值为所述第二股权关系图中边的权重值。

然后，对所述第一邻接矩阵进行稀疏化处理得到第二稀疏矩阵。在股权穿透场景下，可能一个集团派系的主体数量在十万甚至百万级别，因此矩阵的大小可能在亿级别以上，如果直接用该矩阵运算，很大概率会内存溢出。因此需要对矩阵做简化处理。考虑到并非所有节点之间都具备关联关系，所以可以采用稀疏矩阵方式存储矩阵信息，从而大大降低矩阵的空间复杂度。可以采用关键字词典（DOK）、嵌套列表（LIL）、坐标列表（COO）、压缩稀疏行（CSR或CRS）、压缩稀疏列（CSC或CCS）等格式，作为稀疏矩阵的数据结构。在本场景下，可以使用CSR作为存储格式，其对于算术运算、行切片和矩阵向量积具备更优的性能表现。

最后，基于累计持股比例和第二稀疏矩阵计算第三特征值矩阵。具体的，在股权探查场景下，需要对累计持股比例进行计算和筛选。这里的第二特征值矩阵中的特征值表征的是累计持股比例。

具体计算中，根据所述第二稀疏矩阵确定节点之间的累计持股比例，以计算一阶邻接矩阵，并根据累计持股比例和上一阶邻接矩阵，计算下一阶邻接矩阵，直至得到n阶邻接矩阵，其中，n为股权累计的最大层级，。

然后迭代计算n阶累计持股比例矩阵，具体的，然后根据n阶邻接矩阵计算n阶累计持股比例矩阵，其中，则。

最后，将n阶累计持股比例矩阵为所述第三特征值矩阵。这里，n阶累计持股比例矩阵标识的是从起始节点出发，到所有可达节点的累计持股比例，其中，n阶累计持股比例矩阵的值表示节点i到节点j的累计持股比例，且，n为从起始节点到所有可达节点的最深层级。

对于图路径依赖变量（如累计持股比例）的计算，往往需要通过完整的路径遍历进行穷举计算，计算规模和时间复杂度和路径层级深度呈指数增加。在本步骤中，采用矩阵运算方式，将路径依赖变量通过矩阵进行表达，并通过设计矩阵的运算组合方式，完成变量的完整计算过程，大幅提高了运算效率，并将时间复杂度和路径深度的关系转变为线性增长关系。

在步骤S108中，确定待探查目标，根据所述待探查目标从所述第三特征值矩阵获取目标节点集合。

具体执行中，根据所述待探查目标对所述第三特征值矩阵进行切片处理，并从切片处理的结果中提取与所述待探查目标对应的相关向量；基于待探查目标对所述相关向量进行筛选，以确定至少一个目标节点作为所述目标节点集合。

根据待探查目标对应的条件，对第三特征值矩阵进行切片，然后提取相关向量，对向量进行筛选，返回满足条件的节点。如，返回所有从起始节点i出发，累计持股比例大于x 的节点集合，则对待探查目标第三特征值矩阵做切片处理，提取第i行,对的每个元素和x进比对，提取所有大于x的元素，则节点集合{j}为所有满足条件的目标节点，从而得到目标节点集合。

获取到所有满足条件的目标节点后，仍可能需要获取起始节点到所有目标节点的路径。同时，起始节点到目标节点的路径可能不止一条，往往随着层级的增加而增加。在本实施例中，所述基于拓扑排序节点序列对其中包含的每一个节点进行遍历，生成与每一个节点对应的前序路径的步骤，还包括：基于所述拓扑排序节点序列对其中包含的每一个节点进行遍历，依次生成每个节点对应的前序路径，其中，所述前序路径包含前序节点路径以及当前节点；所述获取目标节点集合中的每一个目标节点的股权穿透路径作为与所述待探查目标对应的目标股权关系的步骤，还包括：针对每一个目标节点，查找与该目标节点对应的所有前序路径，根据查找到的前序路径生成所述目标股权关系。

具体执行中，首先需要对全图进行拓扑排序，生成拓扑排序节点序列，该序列保证了节点访问路径的依赖关系，即后访问的节点的前置路径上的节点必然被先访问到。然后按拓扑排序生成的序列，对全图（第三特征值矩阵）进行遍历，并依次生成每个节点的前序路径。其路径为前序节点路径加该节点本身。而前序节点的路径可以通过缓存查表形式以O(1)的时间复杂度返回。最后，将该节点生成的所有路径进行缓存，方便后续节点生成路径时以动态查表的方式获取所有前序路径信息，以大幅提高生成速率，获得每一个目标节点对应的前序路径，从而得到与待探查目标对应的目标股权关系。

需要说明的是，在本步骤中，为了进一步提升效率，降低时间复杂度和空间复杂度，从而提升用户体验，可以采用生成器机制，即每次循环时动态返回每轮迭代的结果，而无需等待所有节点路径生成后一次性返回，经测试可显著提高算法性能3-5倍以上。

在另一个实施例中，如图2所示，提供了一种基于大规模关系图谱的股权关系穿透装置，其特征在于，所述装置包括：

数据遍历模块101，用于获取待穿透的股权关系数据，按照预设的遍历参数对所述股权关系数据进行遍历，对遍历到的节点以及节点之间的关系按照预设的数据结构进行加载，以获取与所述股权关系数据对应的第一股权关系图，所述预设的遍历参数包括遍历层级数、遍历节点个数中的一个或多个；

数据预处理模块102，用于采用强连通检测算法，对所述第一股权关系图进行子图切割操作，以得到至少一个子图，对得到的每一个子图进行环检测，并对检测到的环进行剔除处理，以得到与所述第一股权关系图对应的第二股权关系图；

矩阵转换模块103，用于根据第二股权关系图生成与所述第二股权关系图对应的第一邻接矩阵，对所述第一邻接矩阵进行稀疏化处理得到第二稀疏矩阵，基于累计持股比例和第二稀疏矩阵计算第三特征值矩阵，其中，所述第三特征值矩阵表示节点的累计持股比例；其中，所述第一邻接矩阵的数值为所述第二股权关系图中边的权重值；

目标筛选模块104，用于确定待探查目标，根据所述待探查目标从所述第三特征值矩阵获取目标节点集合；

路径生成模块105，用于对所述第三特征值矩阵进行拓扑排序以生成拓扑排序节点序列，并基于拓扑排序节点序列对其中包含的每一个节点进行遍历，生成与每一个节点对应的前序路径；根据所述得到的前序路径，获取目标节点集合中的每一个目标节点的股权穿透路径作为与所述待探查目标对应的目标股权关系。

在一个可选的实施例中，上述数据遍历模块101还用于：确定至少一个起始节点；对于任一起始节点，基于该起始节点对所述股权关系数据中包含的节点以及节点之间的关系进行遍历，其中，对该起始节点的遍历不超过所述遍历层级数和/或遍历节点个数；获取当前次遍历对应的最后一层节点在所述股权关系数据中的出度；在所述出度大于0的情况下，将当前遍历对应的最后一层节点添加到所述至少一个起始节点中。

在一个可选的实施例中，上述数据遍历模块101还用于：针对每一个起始节点，确定该起始节点满足预设的剪枝参数，其中，所述预设的剪枝参数包括最大穿透层数和单层持股比例阈值中的一个或多个；在所述起始节点满足所述预设的剪枝参数的情况下，执行所述对于任一起始节点，基于该起始节点对所述股权关系数据中包含的节点以及节点之间的关系进行遍历的步骤;在所述起始节点不满足所述预设的剪枝参数的情况下，删除该起始节点。

在一个可选的实施例中，上述数据遍历模块101还用于：对所述遍历到的节点以及节点之间的关系进行反序列化处理,并按照预设的数据结构对所述反序列化处理的节点以及节点之间的关系进行存储，其中，预设的数据结构包括十字链表或邻接多重表。

在一个可选的实施例中，上述数据预处理模块102还用于对所述第一股权关系图进行标准化处理，其中，所述标准化处理包括对所述股权关系图包括的节点、边、边权值进行标准化处理，其中，标准化处理包括剔除处理或赋0处理；对所述股权关系图进行自循环检测，删除所述股权关系图中的自循环的边。

在一个可选的实施例中，上述矩阵转换模块103还用于：根据所述第二稀疏矩阵确定节点之间的累计持股比例，以计算一阶邻接矩阵，并根据累计持股比例和上一阶邻接矩阵，计算下一阶邻接矩阵，直至得到n阶邻接矩阵，其中，n为股权累计的最大层级，；根据n阶邻接矩阵计算n阶累计持股比例矩阵，其中，则，其中；其中，n阶累计持股比例矩阵为所述第三特征值矩阵。

在一个可选的实施例中，上述目标筛选模块104还用于：根据所述待探查目标对所述第三特征值矩阵进行切片处理，并从切片处理的结果中提取与所述待探查目标对应的相关向量；基于待探查目标对所述相关向量进行筛选，以确定至少一个目标节点作为所述目标节点集合。

在一个可选的实施例中，上述路径生成模块105还用于：基于所述拓扑排序节点序列对其中包含的每一个节点进行便利，依次生成每个节点对应的前序路径，其中，所述前序路径包含前序节点路径以及当前节点；针对每一个目标节点，查找与该目标节点对应的所有前序路径，根据查找到的前序路径生成所述目标股权关系。

在另一个实施例中，如图3所示，示出了一个实施例中实现上述基于大规模关系图谱的股权关系穿透方法的计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图3所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现上述方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行上述方法。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于大规模关系图谱的股权关系穿透方法，其特征在于，所述方法包括：

采用强连通检测算法，对所述第一股权关系图进行子图切割操作，以得到至少一个子图，对得到的每一个子图进行存在强连通分量的节点的检测，如有检测到大于两个节点的强连通分量，则确认该子图中存在环，并对检测到的环进行剔除处理，以得到与所述第一股权关系图对应的第二股权关系图；

2.根据权利要求1所述的基于大规模关系图谱的股权关系穿透方法，其特征在于，所述按照预设的遍历参数对所述股权关系数据进行遍历的步骤，还包括：

确定至少一个起始节点;

对于任一起始节点，基于该起始节点对所述股权关系数据中包含的节点以及节点之间的关系进行遍历，其中，对该起始节点的遍历不超过所述遍历层级数和/或遍历节点个数；

获取当前次遍历对应的最后一层节点在所述股权关系数据中的出度；

在所述出度大于0的情况下，将当前遍历对应的最后一层节点添加到所述至少一个起始节点中。

3.根据权利要求2所述的基于大规模关系图谱的股权关系穿透方法，其特征在于，所述确定至少一个起始节点的步骤之后，还包括：

针对每一个起始节点，确定该起始节点满足预设的剪枝参数，其中，所述预设的剪枝参数包括最大穿透层数和单层持股比例阈值中的一个或多个；

在所述起始节点满足所述预设的剪枝参数的情况下，执行所述对于任一起始节点，基于该起始节点对所述股权关系数据中包含的节点以及节点之间的关系进行遍历的步骤;在所述起始节点不满足所述预设的剪枝参数的情况下，删除该起始节点。

4.根据权利要求1所述的基于大规模关系图谱的股权关系穿透方法，其特征在于，所述对遍历到的节点以及节点之间的关系按照预设的数据结构进行加载，以获取与所述股权关系数据对应的股权关系图的步骤，还包括:

对所述遍历到的节点以及节点之间的关系进行反序列化处理,并按照预设的数据结构对所述反序列化处理的节点以及节点之间的关系进行存储，其中，预设的数据结构包括十字链表或邻接多重表。

5.根据权利要求1所述的基于大规模关系图谱的股权关系穿透方法，其特征在于，所述采用强连通检测算法，对所述第一股权关系图进行子图切割操作，以得到至少一个子图的步骤之前，还包括：

对所述第一股权关系图进行标准化处理，其中，所述标准化处理包括对所述股权关系图包括的节点、边、边权值进行标准化处理，其中，标准化处理包括剔除处理或赋0处理；

对所述股权关系图进行自循环检测，删除所述股权关系图中的自循环的边。

6.根据权利要求1所述的基于大规模关系图谱的股权关系穿透方法，其特征在于，所述基于累计持股比例和第二稀疏矩阵计算第三特征值矩阵，其中，所述第三特征值矩阵表示节点的累计持股比例的步骤，还包括：

根据所述第二稀疏矩阵确定节点之间的累计持股比例，以计算一阶邻接矩阵，并根据累计持股比例和上一阶邻接矩阵，计算下一阶邻接矩阵，直至得到n阶邻接矩阵/>，其中，n为股权累计的最大层级，/>；

根据n阶邻接矩阵计算n阶累计持股比例矩阵/>，其中，则/>，其中；其中，n阶累计持股比例矩阵/>为所述第三特征值矩阵。

7.根据权利要求1所述的基于大规模关系图谱的股权关系穿透方法，其特征在于，所述确定待探查目标，根据所述待探查目标从所述第三特征值矩阵获取目标节点集合的步骤，还包括：

根据所述待探查目标对所述第三特征值矩阵进行切片处理，并从切片处理的结果中提取与所述待探查目标对应的相关向量；

基于待探查目标对所述相关向量进行筛选，以确定至少一个目标节点作为所述目标节点集合。

8.根据权利要求1所述的基于大规模关系图谱的股权关系穿透方法，其特征在于，所述基于拓扑排序节点序列对其中包含的每一个节点进行遍历，生成与每一个节点对应的前序路径的步骤，还包括：

基于所述拓扑排序节点序列对其中包含的每一个节点进行遍历，依次生成每个节点对应的前序路径，其中，所述前序路径包含前序节点路径以及当前节点；

所述获取目标节点集合中的每一个目标节点的股权穿透路径作为与所述待探查目标对应的目标股权关系的步骤，还包括：

针对每一个目标节点，查找与该目标节点对应的所有前序路径，根据查找到的前序路径生成所述目标股权关系。

9.一种基于大规模关系图谱的股权关系穿透装置，其特征在于，所述装置包括：

数据遍历模块，用于获取待穿透的股权关系数据，按照预设的遍历参数对所述股权关系数据进行遍历，对遍历到的节点以及节点之间的关系按照预设的数据结构进行加载，以获取与所述股权关系数据对应的第一股权关系图，所述预设的遍历参数包括遍历层级数、遍历节点个数中的一个或多个；

数据预处理模块，用于采用强连通检测算法，对所述第一股权关系图进行子图切割操作，以得到至少一个子图，对得到的每一个子图进行存在强连通分量的节点的检测，如有检测到大于两个节点的强连通分量，则确认该子图中存在环，并对检测到的环进行剔除处理，以得到与所述第一股权关系图对应的第二股权关系图；

矩阵转换模块，用于根据第二股权关系图生成与所述第二股权关系图对应的第一邻接矩阵，对所述第一邻接矩阵进行稀疏化处理得到第二稀疏矩阵，基于累计持股比例和第二稀疏矩阵计算第三特征值矩阵，其中，所述第三特征值矩阵表示节点的累计持股比例；其中，所述第一邻接矩阵的数值为所述第二股权关系图中边的权重值；

目标筛选模块，用于确定待探查目标，根据所述待探查目标从所述第三特征值矩阵获取目标节点集合；

路径生成模块，用于对所述第三特征值矩阵进行拓扑排序以生成拓扑排序节点序列，并基于拓扑排序节点序列对其中包含的每一个节点进行遍历，生成与每一个节点对应的前序路径；根据所述得到的前序路径，获取目标节点集合中的每一个目标节点的股权穿透路径作为与所述待探查目标对应的目标股权关系。

10.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器有可执行代码，当所述可执行代码在所述处理器上运行以实现如权利要求1至8任一所述的基于大规模关系图谱的股权关系穿透方法。