CN114238655A

CN114238655A - 企业关联关系识别方法、装置、设备及介质

Info

Publication number: CN114238655A
Application number: CN202111539357.3A
Authority: CN
Inventors: 何子龙; 黄珊珊; 胡逸天
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25

Abstract

本发明涉及数据处理领域，提出一种企业关联关系识别方法、装置、设备及介质，该方法包括：获取多方监管体系所提供的待识别企业对应的全量工商数据；确定全量工商数据中实体关系的关系三元组，根据图形数据库内关系三元组的实体、关系以及属性的概念构建知识图谱；利用股权穿透算法计算知识图谱中各个企业所形成节点的占股关系,根据各个企业之间占股关系计算节点之间的控制系数；根据控制系数识别知识图谱中各个节点，并按照各个节点之间的关系生成企业及其关联方之间的多条关联方真实路径；根据外部监管规则处理各个企业节点生成关联方规则路径，按照关联方规则路径整合多条关联方真实路径生成的企业关联关系，提高了识别的准确度与效率。

Description

企业关联关系识别方法、装置、设备及介质

技术领域

本发明涉及数据处理领域，提供一种识别企业关联关系识别方法、装置、设备及介质。

背景技术

企业关联关系，是指公司控股股东、实际控制人、董事、监事、高级管理人员与其直接或者间接控制的企业之间的关系，以及可能导致公司利益转移的其他关系。对管理部门而言，各个监管部门需要准确和全面的了解企业之间的关联关系，从而降低监管中的关联风险。

目前，现有技术中一般通过人工在网络上查找相关企业的新闻报道等信息，从中确定企业关联关系信息，即企业与企业之间的关联关系，以及企业与个人之间的关联关系。然而，互联网上的信息错综复杂，标准不统一，人工查找很难快速直接从大量的信息中提取有价值的数据信息来挖掘企业关联关系信息，导致花费大量时间，效率较低，并且人工查找极易受工作者主观影响，从而造成挖掘出来的企业关联关系信息不准确。

发明内容

本发明提供一种企业关联关系识别方法、装置、设备及介质，其主要目的在于采集多方监管体系的全量工商数据拆解成三元组，通过图谱技术将三元组数据转换为知识图谱；按照股权穿透方式对所述知识图谱进行计算，得到知识图谱中控制企业与被控企业的控制系数；其中，通过实体多分类模型对知识图谱中的实体进行识别，并利用白名单过滤实体，提高了关联方识别准确率；再根据监管规则的规则单元生成规则路径，以及根据控制系数在知识图谱中形成的实际路径，再次利用白名单剔除多余路径并参照规则路径整合实际路径生成企业关联关系，进而有利于关联方准确查询关联数据。

为实现上述目的，本发明提供一种企业关联关系识别方法，该方法包括：

获取多方监管体系所提供的待识别企业所对应的全量工商数据；

确定所述全量工商数据中实体关系的关系三元组，根据图形数据库内所述关系三元组的实体、关系以及属性构建所述待识别企业的知识图谱；

利用股权穿透算法计算所述知识图谱中各个企业节点之间的占股关系,根据各个所述企业节点之间的占股关系确定各个企业节点之间的控制系数；

根据所述控制系数识别所述知识图谱中各个企业节点所属类型，按照各个所述企业节点所属类型生成企业及其关联方之间的多条关联方真实路径；

根据外部监管规则处理所述知识图谱中各个企业节点生成关联方规则路径，按照所述关联方规则路径整合多条所述关联方真实路径生成企业及其关联方之间的企业关联关系。

可选的，所述确定所述全量工商数据中实体关系的关系三元组，根据图形数据库内所述关系三元组的实体、关系以及属性构建所述待识别企业的知识图谱的步骤，包括：

根据工商知识体系构建知识图谱数据，利用知识图谱数据从下至上的概念构建初始数据库；

根据初始数据库中的实体和关系转换得到图形数据库中的各实体关系三元组，按照所述实体关系三元组构建所述待识别企业的的知识图谱。

可选的，所述利用股权穿透算法计算所述知识图谱中各个企业节点之间的占股关系,根据各个所述企业节点之间的占股关系确定各个企业节点之间的控制系数的步骤，包括：

基于SparkGraphX图计算架构处理知识图谱中关系三元组数据，生成多节点分布式的股权穿透计算引擎；

利用所述股权穿透计算引擎确定所述知识图谱中各个企业节点的占股关系；

在所述知识图谱中沿着控股关系的方向，根据各个所述企业之间占股关系确定各个企业所对应节点之间的控制系数。

可选的，所述根据所述控制系数识别所述知识图谱中各个企业节点所属类型，按照各个所述企业节点所属类型生成企业及其关联方之间的多条关联方真实路径的步骤，进一步包括：

根据所述知识图谱中各个企业节点之间的控制系数确定各个企业节点所属类型，该类型至少包括子公司、联营公司与合营公司；

按照各个所述企业节点之间所属类型以及控股关系生成企业及其关联方之间的多条关联方真实路径。

可选的，所述根据外部监管规则处理所述知识图谱中各个企业节点生成关联方规则路径，按照所述关联方规则路径整合多条所述关联方真实路径生成企业及其关联方之间的企业关联关系的步骤，包括：

梳理外部监管体系的监管规则，将其拆分多个最小且不重复的规则单元；

根据规则单元处理所述知识图谱中各个企业节点生成相应的关联方规则路径；

根据关联方规则路径整合多条关联方真实路径生成企业的及其关联方之间的企业关联关系。

可选的，还包括：

获取规则匹配样本与外部清单样本，将两种样本数据以相互补充的方式进行融合，得到实体分类样本；

利用多种机器学习模型分别提取图拓扑特征、词频-逆文本频率指数特征、预训练语义特征，根据所述全量工商数据的属性标签进行特征选择得到实体分类特征库；

结合所述实体分类样本与实体分类特征库进行训练，得到实体多分类模型；

通过实体多分类模型识别知识图谱中事业单位、政府机构所对应的企业节点，按照白名单剔除实体所对应的企业节点以及所述关联方中关联路径。

可选的，所述确定所述全量工商数据中实体关系的关系三元组的步骤之前，还包括：

对全量工商数据中进行一次过滤，过滤掉特殊符号或表情符号得到一次过滤数据；

对所述一次过滤数据进行预处理，得到预处理后的全量工商数据信息；

对所述预处理后的全量工商数据信息进行二次过滤，筛选掉异常工商数据信息得到二次过滤数据；

识别所述二次过滤数据中的全量工商数据中的类别，得到标识类别信息的全量工商数据。

此外，为实现上述目的，本发明还提供一种企业关联关系识别装置，所述装置包括：

获取模块，用于获取多方监管体系所提供的待识别企业所对应全量工商数据；

知识图谱构建模块，用于确定所述全量工商数据中实体关系的关系三元组，根据图形数据库内所述关系三元组的实体、关系以及属性构建所述待识别企业的知识图谱；

控制系数计算模块，利用股权穿透算法计算所述知识图谱中各个企业节点之间的占股关系,根据各个所述企业节点之间的占股关系确定各个企业节点之间的控制系数；

真实路径生成模块，用于根据所述控制系数识别所述知识图谱中各个企业节点所属类型，按照各个所述企业节点所属类型生成企业及其关联方之间的多条关联方真实路径；

企业关联关系识别模块，用于根据外部监管规则处理所述知识图谱中各个企业节点生成关联方规则路径，按照所述关联方规则路径整合多条所述关联方真实路径生成企业及其关联方之间的企业关联关系。

此外，为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上任一项实施例所述方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项实施例所述方法的步骤。

本发明提出的企业关联关系识别方法、装置、设备及介质，采集多方监管体系的全量工商数据拆解成三元组，通过图谱技术将三元组数据转换为知识图谱；按照股权穿透方式对所述知识图谱进行计算，得到知识图谱中控制企业与被控企业的控制系数；再根据监管规则的规则单元生成规则路径，以及根据控制系数在知识图谱中形成的实际路径，再次利用白名单剔除多余路径并参照规则路径整合实际路径生成企业关联关系，进而有利于关联方准确查询关联数据。

附图说明

图1为本发明一个实施例中提供的企业关联关系识别方法的一种流程示意图；

图2为本发明一个实施例中提供的企业关联关系识别方法中构建知识图谱流程示意图；

图3为本发明一个实施例中提供的企业关联关系识别方法中控制系数计算流程示意图；

图4为本发明一个实施例中提供的企业关联关系识别方法中真实路径生成流程示意图；

图5为本发明一个实施例中提供的企业关联关系识别方法中企业关联关系识别流程示意图；

图6为本发明一个实施例中提供的企业关联关系识别方法的另一种流程示意图；

图7为本发明一个实施例中提供的企业关联关系识别装置的一种结构示意图；

图8为发明一个实施例中提供的计算机设备的一种结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了便于理解本申请，首先对本申请涉及的概念进行解释。

关联交易是指公司或是附属公司与在本公司直接或间接占有权益、存在利害关系的关联方之间所进行的交易。企业间的关联交易在本质上也有所不同，需根据对应的交易场景判属关联交易的界限。因此，各监管部门对关联方的界定和识别范围会有所差异。对管理部门而言，精准识别符合各监管要求的关联方、判定关联交易行为是一件复杂又耗时的工作。针对关联交易需要准确无误的识别企业的关联方信息，传统的关联方识别涉及众多信息收集与挖掘，如大量企业财报、投资信息、股东信息、高管信息，这些信息的收集大量依赖人工方式处理。此外，还需要在这些数据基础上做复杂的间接关联计算，若依赖手工方式逐个识别工作量非常大，加上信息时时在变化，以手工的方式梳理往往会有漏识别和错误识别的情况。另一方面，如果使用传统数据库的表关联方式，在面对海量的细颗粒度的信息关联映射上存在非常大的效率低、精度差以及脚本复杂的问题。

在一个实施例中，提供一种企业关联关系识别方法，参照图1所示，该方法包括以下步骤：

步骤S101，获取多方监管体系所提供的待识别企业所对应全量工商数据；

其中，通过输入待识别企业，在多方监管体系中获取待识别企业所对应的全量工商数据。多方监管体系主要包括上交所的《上海证券交易所股票上市规则》、深交所的《深圳证券交易所股票上市规则》、企业会计准则《企业会计准则第36号-关联方披露》、联交所《香港联合交易所有限公司证券上市规则》和保监会的《保险公司关联交易管理办法》。由于各个监控体系对关联方的界定和应用场景都有所不同，认定标准不一各有侧重，但核心识别方式都是围绕直接和间接的投资关系、被投资关系、任职关系和亲属关系。

要说明的是，全量工商数据为企业所有工商信息，包括企业名称、企业经营范围、企业股东、主要人员、信息变更记录和分支机构等，可通过天眼查、企查查、国家工商企业网站进行搜索、下载，进而得到全量工商数据。

步骤S102，确定所述全量工商数据中实体关系的关系三元组，根据图形数据库内所述关系三元组的实体、关系以及属性构建所述待识别企业的知识图谱；

其中，主要体现的是通过大数据技术将全量工商数据拆解成关系三元组，关系三元组(股东关系、投资关系与任职关系等)，例如，通过图数据增量更新技术将关系三元组同步到Neo4J数据库，通过关系挖掘、关系拼接、路径特征识别的方式得到知识图谱(网络拓扑图谱)。

步骤S103，利用股权穿透算法计算所述知识图谱中各个企业节点之间的占股关系,根据各个所述企业节点之间的占股关系确定各个企业节点之间的控制系数；

其中，主要体现的是通过SparkGraphX架构(分布式图计算框架)，即，GraphX是Spark中用于图和图计算的组件，GraphX通过扩展Spark RDD引入了一个新的图抽象数据结构，一个将有效信息放入顶点和边的有向多重图，即，有效的进行图计算，更加利于处理大规模的图计算。

其中，股权穿透计算是指能够通过股权结构图的方式，精确呈现出公司多层次股权结构，帮助广大投资者快速高效地理清企业投资股权关系

步骤S104，根据所述控制系数识别所述知识图谱中各个企业节点所属类型，按照各个所述企业节点所属类型生成企业及其关联方之间的多条关联方真实路径；

其中，利用控制系数识别知识图谱中各个节点所对应的公司的类型(子公司、联营公司与合营公司)，按照各个节点之间的关系生成企业及其关联方之间的多条关联方真实路径。

步骤S105，根据外部监管规则处理所述知识图谱中各个企业节点生成关联方规则路径，按照所述关联方规则路径整合多条所述关联方真实路径生成企业及其关联方之间的企业关联关系。

在本实施例中，通过自动化识别关联方，不仅减少业务人员大量的人力和时间成本，同时，也确保在识别和变更监控的万无一失；输出多个监管类型的关联方，规则的模块化拆解也让关联方模型变得更加灵活通用；在界面交互设计中，支持规则路径说明和关系路径展示，也提供高维度的筛选功能。

在一些实施例中，由于各个监控体系对关联方的界定和应用场景都有所不同，认定标准不一各有侧重，但核心识别方式都是围绕直接和间接的投资关系、被投资关系、任职关系和亲属关系。为了克服单一监管体系的单独识别，避免大量的重复工作，需要对多方监管体系的全部监管的规则进行梳理，将其拆分成最小的规则单元(例如，以最细力度不可再拆分的原则将规则以模块化和可配置化的方式进行识别)，从而提高规则单元的应变能力与灵活度。例如，监管体系规则可划分为股东规则、投资及控股公司规则、公司董监高规则及其他四大类，共计127条规则，在此不再赘述。

通过上述方式，从头至尾梳理了各个监管体系的监管规则，打通了各个监管体系的监管规则，避免了重复监管，有利于后续根据各个监管规则生成关联方规则路径，同时，通过整合规则，提高了数据获取的精准率。

步骤S1011，对全量工商数据中进行一次过滤，过滤掉特殊符号或表情符号得到一次过滤数据；

步骤S1012，对所述一次过滤数据进行预处理，得到预处理后的全量工商数据信息；

步骤S1013，对所述预处理后的全量工商数据信息进行二次过滤，筛选掉异常工商数据信息得到二次过滤数据；

步骤S1014，识别所述二次过滤数据中的全量工商数据中的类别，得到标识类别信息的全量工商数据。

对全量工商数据进行归一化、标准化等预处理操作，得到预处理后的全量工商数据。具体来讲，可以先将全量工商数据中的特殊符号或表情符号等无效数据过滤掉，再对过滤后的目标工商数据信息中英文大小写进行统一化、以及对中文繁简体进行统一化等归一化的预处理操作，并在得到预处理后的全量工商数据信息后，再从预处理后的全量工商数据信息中筛选出异常工商数据信息和非异常工商数据信息，进而可以将异常全量工商数据通过筛选后直接推送到后台的风控系统，做相应的处理。

可选的，还包括：识别所述全量工商数据中的类别，通过类别信息更精准得到工商数据，避免了利用人工去筛选有价值的信息，同时，也避免了浪费时间和精力。

获取待识别的全量工商数据，并提取全量工商数据的内容特征；将全量工商数据的内容特征输入预先构建的信息识别模型，确定出全量工商数据的分类类别。利用预先构建的信息识别模型识别出每条企业数据的分类类别，进而可以根据分类结果选取出有价值的企业工商数据，有利于提取并归类企业工商数据，还有利于后续直观查看。

需要说明的是，为了构建信息识别模型，需要预先进行大量的准备工作，首先，需要收集获取大量的工商数据，比如，可以预先收集1000条包含企业名称、统一社会信用代码、注册资本、经营范围、法定代表人、企业财务人员等训练工商数据信息，作为样本信息数据，并预先通过人工标注出这些样本信息数据的分类类别，然后，需要提取训练工商数据信息的内容特征(如在特征提取过程中，可以利用HOG特征提取和SIFT特征提取方法进行提取)，进一步的，可以根据该训练工商数据信息的内容特征以及训练工商数据信息对应的类别标记结果对初始信息识别模型进行训练，进而生成信息识别模型，通过信息识别模型识别全量工商数据，能够得到符合预设要求(精准的)工商数据信息。

在另一些实施例中，所述确定所述全量工商数据中实体关系的关系三元组，根据图形数据库内所述关系三元组的实体、关系以及属性构建所述待识别企业的知识图谱的步骤，详见图2，为本发明一个实施例中提供的企业关联关系识别方法中构建知识图谱流程示意图，包括：

步骤S201，根据工商知识体系构建知识图谱数据，利用知识图谱数据从下至上的概念构建初始数据库；

其中，通过工商知识体系构建实体、实体之间的关系类型，利用知识图谱数据从上之下的概念构建关于知识图谱数据的初始数据库。

步骤S202，根据初始数据库中的实体和关系转换得到图形数据库中的各实体关系三元组，按照所述实体关系三元组构建所述待识别企业的的知识图谱。

其中，根据初始数据库中的实体和关系转换得到图形数据库中的各实体关系三元组，例如，该实体关系三元组包括但不限于股东关系、投资关系、任职关系等，将抽取的各实体关系三元组以知识图谱的方式进行存储。

例如，在Java项目中建立实体包和关系包；将实体包和关系包中的实体和关系划分入初始数据库中工商知识体系的各知识点模块中；利用Java语言反射机制获取各知识点模块中实体类的名称和属性，以及各知识点模块中关系类的首实体、尾实体和关系的属性；根据Java语言反射机制获取结果，利用Neo4j Cypher Java API创建各实体间的关系，得到Neo4j数据库的各实体关系三元组，完成知识图谱构建。

其中，关系三元组定义为首实体A、尾实体B以及首实体A与尾实体B间的关系。

在本实施例中，利用大数据技术获取非结构化全量工商数据；利用自然语言处理技术抽取非结构化全量工商数据的实体和关系；将抽取得到非结构全量工商数据中的实体和关系进行数据预处理和相似度比对，得到相似度对比结果；判断相似度对比结果是否满足与初始知识图谱数据存在不同实体、不同关系和不同属性之一或任意组合的情况，若是，则得到待添加非结构化全量工商数据并将其添加至所述知识图谱，得到知识图谱；如否，则结束处理流程。

通过上述方式，构建全量工商数据中实体关系的知识图谱，实体和关系对应准确，可以准确表示全量工商数据各实体与实体间的语义关系，有利于企业关联方数据的确定、以及关联方路径的生成。

在另一些实施例中，所述利用股权穿透算法计算所述知识图谱中各个企业节点之间的占股关系,根据各个所述企业节点之间的占股关系确定各个企业节点之间的控制系数的步骤，详见图3，为本发明一个实施例中提供的企业关联关系识别方法中控制系数计算流程示意图，包括：

步骤S301，基于SparkGraphX图计算架构处理知识图谱中关系三元组数据，生成多节点分布式的股权穿透计算引擎；

其中，Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求；Spark GraphX由于底层是基于Spark来处理的，所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把图拆分成很多的子图，然后分别对这些子图进行计算，计算的时候可以分别迭代进行分阶段的计算，即对图进行并行计算。

结合关系三元组数据与分布式图形处理跨框架，生成多节点分布式的股权穿透计算引擎，通过多节点分布式的股权穿透计算引擎实现了全量关系拼接计算，有效减少关联方识别运行时间。

步骤S302，利用所述股权穿透计算引擎确定所述知识图谱中各个企业节点的占股关系；

其中，计算各个所述知识图谱中各个企业所形成节点之间的占股关系，例如，A点所对应的某某企业占股B点所对应的某某企业80％的股份，其中，股权穿透计算是从下至上或从下至上在知识图谱中进行股权计算，从而获取到各个节点之间的占股关系。

步骤S303，在所述知识图谱中沿着控股关系的方向，根据各个所述企业之间占股关系确定各个企业所对应节点之间的控制系数。

例如，根据《公司法》的规定：“股东大会作出决议，必须经出席会议的股东所持表决权过半数通过”。因此，当投资者直接拥有被投资公司50％以上的股份时，可认为对公司构成实际控制，控制系数为1；若穿透路径中有两个及以上小于50％的投资关系，则该条路径的控制系数为0。当控制系数大于0.5时，认定构成控制关系；大于0.2，小于0.5构成重大影响关系；小于0.2为一般关系。

在自上而下穿透的过程中，间接投资比例通过累乘得到，因此路径越长，间接投资比例越小，当比例小于20％时，依据规则无法构成控制关系。但在实际业务中，若每层构成控制关系，无论路径长短，顶点都对叶子节点有控制关系。

又例如，相比传统累计乘方法而言，例如，按照控股路径使用A有限责任公司对B有限公司的持股比例为13.90％(52.45％*51.9808％*51％)，小于控制下限20％，前者未对后者构成控制关系，然而采用上述按照控制系数的方法，由于沿着知识图谱的股权控制方向，每次前者的公司对后者的公司的占股比例超过50％这个预设值，根据上述《公司法》规定，那么每次控制系数都为1，形成实际控制，即，三次占股比例都大于50％，几乎前者所对应的公司对后者所对应的公司的控制系数为1，因此，显然利用控制系数计算子公司更符合实际业务逻辑。

通过上述方式，股权穿透计算实现了全量关系拼接计算，有效减少关联方识别运行时间；同时，使用控制系数作为判断指标，还可在股权穿透基础上构建分类模型，即，按照知识图谱中股权关系方向计算各个节点的占股关系，进而实现自动识别企业之间占股关系的分类模型。

在另一些实施例中，所述根据所述控制系数识别所述知识图谱中各个企业节点所属类型，按照各个所述企业节点所属类型生成企业及其关联方之间的多条关联方真实路径的步骤，详见图4，为本发明一个实施例中提供的企业关联关系识别方法中真实路径生成流程示意图，包括：

步骤S401，根据所述知识图谱中各个企业节点之间的控制系数确定各个企业节点所属类型，该类型至少包括子公司、联营公司与合营公司；

其中，按照新的公司法规定，将公司的控制类型包括子公司、联营公司与合营公司，根据所述知识图谱中各个节点之间的控制系数所占的控制系数范围确定公司的控制类型。

步骤S402，按照各个所述企业节点之间所属类型以及控股关系生成企业及其关联方之间的多条关联方真实路径。

其中，按照各个所述节点之间的关系以及各个公司之间的控制类型，生成关联方之间的多条关联方真实路径，例如，根据新的公司法形成的各个所述节点之间的关系及控制类型，生成符合新的公司规定的多条关联方真实路径。

例如，如果A公司在B公司所占股份大于50％，则B公司为A公司的子公司；如果A公司在B公司所占股份刚好等于50％，则B公司为A公司的合营公司；如果A公司在B公司所占股份在20～50％之间，则B公司为A公司的联营公司。

通过上述方式，按照上述《公司法》的规定，根据控制系数识别企业的子公司、联营公司和合营公司，提升关联方识别的准确率。

在另一些实施例中，所述根据外部监管规则处理所述知识图谱中各个企业节点生成关联方规则路径，按照所述关联方规则路径整合多条所述关联方真实路径生成企业及其关联方之间的企业关联关系的步骤，详见图5，为本发明一个实施例中提供的企业关联关系识别方法中企业关联关系识别流程示意图，包括：

步骤S501，梳理外部监管体系的监管规则，将其拆分多个最小且不重复的规则单元；

其中，外部监管体系的监管规则主要包括上交所的《上海证券交易所股票上市规则》、深交所的《深圳证券交易所股票上市规则》、企业会计准则《企业会计准则第36号-关联方披露》、联交所《香港联合交易所有限公司证券上市规则》和保监会的《保险公司关联交易管理办法》，通过分析围绕直接和间接的投资关系、被投资关系、任职关系和亲属关系，将各个监管规则拆分成多个最小且不重复的规则单元，例如，将各个体系规则中涉及投资关系、被投资关系、任职关系和亲属关系之间的各种规则，拆分成最小的规格单元，如，通过统一社会信用代码与正则匹配两种模式进行互相补充的方式识别出白名单企业，其中社会统一信用码基于工商编码规则，对企业进行实体分类；正则规则模式整合3700余条规则，对缺失社会统一信用码、具有中文名的海外企业等非大陆注册企业与机构进行分类规则的补充。

步骤S502，根据规则单元处理所述知识图谱中各个企业节点生成相应的关联方规则路径；

其中，根据知识图谱中各个公司形成节点之间的控制系数，按照节点之间的控制关系所涉及的主题利用上述多条不重复的规则单元进行校验处理，生成符合外部监管体系的监管规则的关联方规则路径，例如，明确规定子公司、联营公司、合营公司的占股比例有所变化，与传统的比例区间不同，则需要按照关联方的规则进行处理：若A公司在B公司所占股份大于第一预设比例系数，则B公司为A公司的子公司；若A公司在B公司所占股份刚好等于第二预设比例系数，则B公司为A公司的合营公司；若A公司在B公司所占股份在第三预设比例系数至第四预设比例系数之间，则B公司为A公司的联营公司。

步骤S503，根据关联方规则路径整合多条关联方真实路径生成企业的及其关联方之间的企业关联关系。

其中，即同一个知识图谱采用两种不同方式分别生成关联方规则路径与多条关联方真实路径，需要参照关联方规则路径整合多条关联方真实路径生成企业的及其关联方之间的企业关联关系，例如，企业及其关联方之间可能存在多条关系路径，涉及多个中间实体。为清楚明确的展示关系路径，需对多条路径进行整合、拼接。传统方法采用递归遍历的方式，在数据量大的情况下存在执行效率低，占用内存多等问题。本方案采用igraph技术创建网络关系图，与传统方式相比，效率提高近70％。

需要说明的是，igraph是一个python工具包，它可以用于创建，操作和研究复杂网络系统，其有很多功能使用C语言开发，运算效率很高，十分适合解决大型复杂网络问题；另外，使用igraph还可实现一些复杂网络算法，如网络流、图同构、匹配算法以及社团结构等，能够提高分析时的效率。

在使用igraph技术创建的网络关系图形成知识图谱，该知识图谱中涉及各个关联的节点所形成的网络关系，例如，中间实体如果存在多家公司控股被控公司，而中间实体中有一些企业属于同一家控股公司，此时需要，将属于同一家控股公司所形成的真实路径进行拼接，在控股公司与被控公司之间整合形成一条完整的路径，同时，也便于直观获取企业关联关系。

可选的，当检测到多条关联方真实路径与关联方规则路径不符时，若多条关联方真实路径归属于关联方规则路径，即，多条关联方真实路径是关联方规则路径的子集，则保持多条关联方真实路径为企业的及其关联方之间的企业关联关系；若多条关联方真实路径不归属于关联方规则路径，即，多条关联方真实路径与关联方规则路径存在相悖时，则关联方规则路径整合多条关联方真实路径生成企业的及其关联方之间的企业关联关系。

通过上述方式，即使处于多种监管要求和规则的复杂程度，通过梳理监管体系的监管规则实现精准和高频率的关联方识别；同时，除了直接关系之外，还可以通过间接方式挖掘关联方之间的关联关系。

在另一些实施例中，详见图6，为本发明一个实施例中提供的企业关联关系识别方法的另一种流程示意图，还包括：

步骤S601，获取规则匹配样本与外部清单样本，将两种样本数据以相互补充的方式进行融合，得到实体分类样本；

其中，将规则匹配样本与外部清单样本以相互补充的方式进行结合，从而得到实体分类样本。

步骤S602，利用多种机器学习模型分别提取图拓扑特征、词频-逆文本频率指数(TF-IDF)特征、预训练语义特征，根据所述全量工商数据的属性标签进行特征选择得到实体分类特征库；

其中，采用拓扑特征模型提取图拓扑特征，采用idf模型提取词频-逆文本频率指数特征，采取语义预训练模型提取预训练语义特征，通过上述方式对各个类别生成相应的属性标签，可以形成每个样本一个标签或多个标签。

例如，采用以下方式训练idf模型；获取原始文本内容信息；转换成纯小写，按空格把文章分成独立的词组成的list；去除噪音符号["\"","＝","\\","/",":","-","(",")",",",".","\n"]等；去除停用词；提取词干，把相近的词转换为标准形式，比如把文章中的go,going,went,goes统一成go；统计每个词出现的次数，去掉出现次数较少的词，比如在一百篇文档中，只出现了1～2次的词，显然是没有意义的；训练idf模型，进而提取词频-逆文本频率指数特征。

又例如，采取语义预训练模型(ERNIE模型)，ERNIE模型通过建模海量数据中的实体概念等先验语义知识，学习真实世界的语义关系。具体来说，ERNIE模型通过对词、实体等语义单元的掩码，使得模型学习完整概念的语义表示。相较于BERT学习原始语言信号，ERNIE直接对先验语义知识单元进行建模，增强了模型语义表示能力。另外，ERNIE模型本身保持基于字特征输入建模，使得模型在应用时不需要依赖其他信息，具备更强的通用性和可扩展性。相对词特征输入模型，字特征可建模字的组合语义，例如建模红色，绿色，蓝色等表示颜色的词语时，通过相同字的语义组合学到词之间的语义关系。还有，ERNIE模型的训练语料引入了多源数据知识。除了百科类文章建模，还对新闻资讯类、论坛对话类数据进行学习，例如，对于对话数据的学习是语义表示的重要途径，往往相同回复对应的Query语义相似。基于该假设，ERINE采用DLM(Dialogue Language Model)建模Query-Response对话结构，将对话Pair对作为输入，引入Dialogue Embedding标识对话的角色，利用DialogueResponse Loss学习对话的隐式关系，通过该方法建模进一步提升模型语义表示能力。

又例如，拓扑特征提取模型将图数据(知识图谱图)投射到向量空间，并通过特征提取方式转化成预设大小的特征张量与特征量，利用神经网络对所述特征张量与特征量进行训练和分类，提取图数据各个节点的拓扑特征信息，并与节点自身自带的属性进行结合，作为节点总的特征信息，每个感受野中的节点，都拥有特征信息向量，特征信息向量将注入到矩阵中，形成一个固定大小的特征张量；节点级别的拓扑特征信息将与图中节点自带的节点属性相融合，形成一个个表示节点特征的特征向量，注入到感受野特征矩阵中的对应位置，形成一个聚合图中各个节点局部特征的特征张量；图级别的拓扑特征信息组合成一个表示图宏观特征的特征向量，以此来表示图的全局特征；表示图局部特征的特征张量以及表示图全局特征的特征向量，将一起构成图的特征表示，作为神经网络训练的依据。

可选的，全局特征提取通过统计并提取整张图的全局拓扑特征信息，将全局拓扑特征信息中包含的特征量排列成一个能够代表图数据宏观拓扑信息的全局特征向量；该特征向量与上述特征张量，分别从整体和局部的角度共同构成了图的特征表示，并作为后述神经网络的输入。

步骤S603，结合所述实体分类样本与实体分类特征库进行训练，得到实体多分类模型；

其中，实体分类样本与实体分类特征库相互关联，即，每个实体分类样本所对应的体分类特征是相互关联的，将实体分类样本输入实体多分类模型型进行训练，得到所述实体分类样本属于每个类别的预测概率分布，所述预测概率分布为所述实体多分类模型型预测的所述训练样本属于每个类别的预测概率；根据所述预测概率分布与所述实体分类样本所对应的(实体分类特征)实际标签分布，计算目标损失，所述实际标签分布为所述训练样本属于每个类别的实际概率，所述目标损失用于指示所述分类模型的预测概率分布与实体分类特征之间的误差；根据所述预测概率分布中负类的预测概率分布，计算惩罚项，所述惩罚项用于指示所述预测概率分布中负类的离散程度；将所述目标损失与所述惩罚项之和记为总损失，根据所述总损失更新所述实体多分类模型参数，得到训练好的实体多分类模型。

步骤S604，通过实体多分类模型识别知识图谱中事业单位、政府机构节点所对应的企业节点，按照白名单剔除实体所对应的节点以及所述关联方中关联路径。

具体地，政府机构、事业单位识别：通过统一社会信用代码与正则匹配(正则表达式)两种模式进行互相补充的方式识别出白名单企业，其中社会统一信用码基于工商编码规则，对企业进行实体分类；正则规则模式整合3700余条规则，对缺失社会统一信用码、具有中文名的海外企业等非大陆注册企业与机构进行分类规则的补充，利用白名单识别结果将相关股权路径和关联方过滤，提升关联方识别的准确率。

可选的，通过实体多分类模型识别知识图谱中各事业单位、各政府机构的企业节点，按照白名单剔除实体所对应的企业节点，其中，白名单为相关部门规定的不允许查询的企业所形成的清单，当检测到知识图谱中存在清单内的企业节点时，则剔除该企业节点，无需进行后续处理，从而避免后续生成多余的相关股权路径，也能提高关联方识别的准确率。

可选的，通过实体多分类模型识别知识图谱中事业单位、政府机构节点所对应的关联方，剔除所述关联方中关联路径；利用白名单识别结果将相关股权路径和关联方过滤，提升关联方识别的准确率。

可选的，还包括：关联方查询：

接收企业关联关系查询请求，所述企业关联关系查询请求包括客户编码；其中，所述客户编码与企业一一对应；根据所述企业关联关系知识图谱中查询获得对应的目标节点，并根据获得所述目标节点在所述知识图谱的关联节点；以所述目标节点为基准依次连接所述目标节点在所述知识图谱内的关联节点，建立所述客户编码对应的企业的关联关系图谱；将所述客户编码对应的企业的关联关系图谱返回给所述客户终端进行显示。

通过上述方式，解决了信息获取依赖手工方式进行维护的缺点，同时，克服了在实际业务中主要通过客户提供证明材料或者通过工商网站等方式开展数据收集，对客户配合程度和外部数据质量探查要求非常高，信息准确性和实效性较低的缺陷；避免了监管规则多样和复杂，出现难以实现精准和高频率的关联方识别和监控的现象。

综上所述，面对多种监管要求和规则的复杂程度，业务人员除了直接关系之外，还需通过间接方式挖掘关联方，人工识别的效率较低，准确度也会下降。各业务人员识别的关联方存在不一致，信息留存不稳定，未形成系统化输出，关联方识别首先要有对监管要求的统一理解。人工识别可能会出现漏识别、错误识别、无识别依据的情况，加上庞大的识别工作量，及时性和一致性问题对监管报送会有影响。

本实施例提供了一种企业关联关系识别方法，该方法采集多方监管体系的全量工商数据拆解成三元组，通过图谱技术将三元组数据转换为知识图谱；按照股权穿透方式对所述知识图谱进行计算，得到知识图谱中控制企业与被控企业的控制系数；其中，通过实体多分类模型对知识图谱中的实体进行识别，并利用白名单过滤实体，提高了关联方识别准确率；再根据监管规则的规则单元生成规则路径，以及根据控制系数在知识图谱中形成的实际路径，再次利用白名单剔除多余路径并参照规则路径整合实际路径生成企业关联关系，进而有利于关联方准确查询关联数据。

在一个实施例中，本发明还提供了一种企业关联关系识别装置700，参见图7，该装置包括：

获取模块701，用于获取多方监管体系所提供的待识别企业所对应全量工商数据；

可选的，所述获取模块进一步包括：

知识图谱构建模块702，用于确定所述全量工商数据中实体关系的关系三元组，根据图形数据库内所述关系三元组的实体、关系以及属性构建所述待识别企业的知识图谱；

具体地，所述知识图谱构建模块进一步包括：

控制系数计算模块703，利用股权穿透算法计算所述知识图谱中各个企业节点之间的占股关系,根据各个所述企业节点之间的占股关系确定各个企业节点之间的控制系数；

具体地，所述控制系数计算模块进一步包括：

真实路径生成模块704，用于根据所述控制系数识别所述知识图谱中各个企业节点所属类型，按照各个所述企业节点所属类型生成企业及其关联方之间的多条关联方真实路径；

具体地，所述真实路径生成模块进一步包括：

企业关联关系识别模块705，用于根据外部监管规则处理所述知识图谱中各个企业节点生成关联方规则路径，按照所述关联方规则路径整合多条所述关联方真实路径生成企业及其关联方之间的企业关联关系系。

具体地，所述企业关联关系识别模块进一步包括：

在上述实施例的基础上，还包括：

本实施例提供了一种企业关联关系识别装置，该装置采集多方监管体系的全量工商数据拆解成三元组，通过图谱技术将三元组数据转换为知识图谱；按照股权穿透方式对所述知识图谱进行计算，得到知识图谱中控制企业与被控企业的控制系数；其中，通过实体多分类模型对知识图谱中的实体进行识别，并利用白名单过滤实体，提高了关联方识别准确率；再根据监管规则的规则单元生成规则路径，以及根据控制系数在知识图谱中形成的实际路径，再次利用白名单剔除多余路径并参照规则路径整合实际路径生成企业关联关系，进而有利于关联方准确查询关联数据。

应当知晓的是，上述企业关联关系识别装置实质上是设置了多个模块用以执行上述任一实施例中的企业关联关系识别方法，具体功能和技术效果参照上述实施例即可，此处不再赘述。

在一个实施例中，参见图8，本实施例还提供了一种计算机设备800，包括存储器801、处理器802及存储在存储器上并可在处理器上运行的计算机程序，所述处理器802执行所述计算机程序时实现如上任一项实施例所述方法的步骤。

在一个实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项实施例所述方法的步骤。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种企业关联关系识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的企业关联关系识别方法，其特征在于，所述确定所述全量工商数据中实体关系的关系三元组，根据图形数据库内所述关系三元组的实体、关系以及属性构建所述待识别企业的知识图谱的步骤，包括：

3.如权利要求1所述的企业关联关系识别方法，其特征在于，所述利用股权穿透算法计算所述知识图谱中各个企业节点之间的占股关系,根据各个所述企业节点之间的占股关系确定各个企业节点之间的控制系数的步骤，包括：

4.如权利要求1-3任一项的企业关联关系识别方法，其特征在于，所述根据所述控制系数识别所述知识图谱中各个企业节点所属类型，按照各个所述企业节点所属类型生成企业及其关联方之间的多条关联方真实路径的步骤，包括：

5.如权利要求1-3任一项所述的企业关联关系识别方法，其特征在于，所述根据外部监管规则处理所述知识图谱中各个企业节点生成关联方规则路径，按照所述关联方规则路径整合多条所述关联方真实路径生成企业及其关联方之间的企业关联关系的步骤，包括：

6.如权利要求1-3所述的企业关联关系识别方法，其特征在于，还包括：

7.如权利要求1所述的企业关联关系识别方法，其特征在于，所述确定所述全量工商数据中实体关系的关系三元组的步骤之前，还包括：

识别所述二次过滤数据中的全量工商数据中的类别，得到标识有类别信息的全量工商数据。

8.一种企业关联关系识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。