CN114140007A

CN114140007A - 一种风险企业的识别方法、装置及存储介质

Info

Publication number: CN114140007A
Application number: CN202111489337.XA
Authority: CN
Inventors: 马兰; 林文辉; 王志刚; 刘振宇; 王泽皓; 闫凯; 张皓
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-04

Abstract

本发明实施例公开一种风险企业的识别方法、装置及存储介质，涉及信息安全领域。所述方法包括：获取每个企业的目标数据集，所述目标数据集包括所述企业的多种税务信息；根据所述多种税务信息，构建企业关系图谱；利用图卷积神经网络GCN以及基于互信息最大化模型DGI，对所述企业关系图谱进行预训练处理，得到企业节点的预嵌入表示；利用图自编码器GAE对所述预嵌入表示进行训练处理，得到所述企业节点的最终嵌入表示；根据所述企业节点的最终嵌入表示，通过余弦相似度算法，计算所述企业的企业相似度，所述企业相似度用于对企业是否为风险企业进行识别。本发明实现了潜在风险企业重点监控、及时预警和开展风险应对。

Description

一种风险企业的识别方法、装置及存储介质

技术领域

本申请涉及信息安全领域，尤其涉及一种风险企业的识别方法、装置及存储介质。

背景技术

目前，风险企业挖掘是智慧税务建设的重要内容。其通过多维度整合税务数据，深入挖掘税收大数据，利用机器学习技术让数据发声，预防税收风险已经成为税务领域重点关注和亟待解决的内容。

随着现代经济社会的快速发展，企业之间因交易、担保、持股以及人员任职等形成了复杂关联关系。如若个别企业被认定为稽查部门确定的重大税收违法案件的“黑名单”企业，则与之关联的其他企业也可能存在一定的风险，需要对其他企业也进行重点监控，及时风险应对。

对企业相似度进行建模，可以对多个企业的税务数据进行链条式加工处理，将原本看似没有价值的数据，通过关联、解析变成了有价值的数据资产，再经由模型分析，可形成逐渐清晰的企业画像及群体特征。

但是，在现有研究中，数据来源单一、企业相似度计算方法普遍比较简单，往往过于注重局部，而忽略整体。企业相似度计算方法仅分析与对象企业直接相关的税务数据，而忽略与其关联的其他企业的税务数据、纳税人的税务数据，没有考虑深层次的企业之间的多源关系。

发明内容

有鉴于此，本发明实施例提供一种风险企业的识别方法、装置及存储介质，以解决现有企业相似度计算方法数据来源单一、孤立分析企业税务数据，而忽略了企业深层次关系的问题。

第一方面，本发明实施例提供一种风险企业的识别方法，所述方法包括：

获取每个企业的目标数据集，所述目标数据集包括所述企业的多种税务信息；

根据所述多种税务信息，构建企业关系图谱；

利用图卷积神经网络GCN以及基于互信息最大化模型DGI，对所述企业关系图谱进行预训练处理，得到企业节点的预嵌入表示；

利用图自编码器GAE对所述预嵌入表示进行训练处理，得到所述企业节点的最终嵌入表示；

根据所述企业节点的最终嵌入表示，通过余弦相似度算法，计算所述企业的企业相似度，所述企业相似度用于对企业是否为风险企业进行识别。

可选地，所述方法还包括：

接收用户输入的查找指令，所述查找指令包括风险企业的第一企业名称；

根据所述第一企业名称，获取与所述第一企业名称匹配的企业相似度以及与所述企业相似度关联的疑似风险企业的第二企业名称；

向所述用户输出所述第二企业名称。

可选地，所述根据所述多种税务信息，构建企业关系图谱，具体包括：

对所述多种税务信息进行数据清洗处理，得到有效税务信息；

将所述企业作为图谱节点，从所述有效税务信息中获取所述图谱节点的特征信息；

对所述有效税务信息进行关联分析，获取所述图谱节点间的关联关系类型，并将所述关联关系类型作为多个图谱节点之间的关联边；

计算所述关联边的权重；

根据所述图谱节点、所述图谱节点的特征信息、所述关联边以及所述关联边的权重，构建所述企业关系图谱。

可选地，所述计算所述关联边的权重，具体包括：

基于层次分析算法，根据历史经验，对所述关联边按照重要性程度进行两两比较，形成判断矩阵；

对所述判断矩阵进行一致性检验，得到所述关联边的初始权重；

将所述初始权重与关联程度系数的乘积值作为所述关联边的最终权重；

其中，关联程度系数通过下式得到：k＝m/N；m为第一企业与指定企业间的交易次数；N为所述第一企业与除所述第一企业之外的其他企业间的交易次数总和。

可选地，所述利用图卷积神经网络GCN以及基于互信息最大化模型DGI，对所述企业关系图谱进行预训练处理，得到企业节点的预嵌入表示，具体包括：

通过所述图谱节点的特征信息组成的第一特征矩阵以及通过所述图谱节点之间的关系组成的第一邻接矩阵，得到正样本实例；

利用所述第一邻接矩阵，得到第二邻接矩阵，所述第一邻接矩阵与所述第二邻接矩阵相同；

构建腐蚀函数，通过所述腐蚀函数，对所述第一特征矩阵进行打乱重排，随机获取第二特征矩阵；

通过所述第二特征矩阵以及所述第二邻接矩阵，得到负样本实例；

将所述正样本实例包括的所述第一特征矩阵以及所述第一邻接矩阵输入至作为编码器的所述GCN内，得到所述正样本实例的第一局部特征；

将所述负样本实例包括的所述第二特征矩阵以及所述第二邻接矩阵输入至作为编码器的所述GCN内，得到所述负样本实例的第二局部特征；

将所述第一局部特征输入至读出函数，得到图级别的全局特征，并将所述第一局部特征与所述全局特征作为正样本局部-全局对，将所述第二局部特征与所述全局特征作为负样本局部-全局对；

构建判别器，对所述正样本局部-全局对进行打分，得到所述正样本局部-全局对的第一评分，对所述负样本局部-全局对进行打分，得到所述负样本局部-全局对的第二评分；

将所述第一评分与全为1的向量进行比对，并将所述第一评分与所述全为1的向量之间的差值作为第一损失；将所述第二评分与全为0的向量进行比对，并将所述第二评分与所述全为0的向量之间的差值作为第二损失，所述第一损失和所述第二损失的和为噪声对比性目标函数的值；

基于梯度下降方式，最小化噪声对比性目标函数，并更新所述编码器以及所述读出函数包括的参数，其中，所述噪声对比性目标函数包括所述判别器，所述噪声对比性目标函数用于使所述判别器对所述正样本局部-全局对以及所述负样本局部-全局对进行打分时，使所述第一评分靠近所述全为1的向量，使所述第二评分靠近所述全为0的向量，扩大所述第一评分与所述第二评分之间的差距；

重复执行步骤通过所述图谱节点的特征信息组成的第一特征矩阵以及通过所述图谱节点之间的关系组成的第一邻接矩阵，得到正样本实例与步骤基于梯度下降方式，最小化所述噪声对比性目标函数，并更新所述编码器以及所述读出函数包括的参数之间的全部步骤，直至满足预设条件时停止；

将训练过程中所述噪声对比性目标函数的值为最小值时所对应的模型作为最优模型；

通过所述最优模型，将所述正样本实例输入至所述GCN后得到的第一局部特征作为所述预嵌入表示；

其中，所述预设条件包括预设的训练次数以及准确率的保持次数。

可选地，所述利用图自编码器GAE对所述预嵌入表示进行训练处理，得到所述企业节点的最终嵌入表示，具体包括：

将所述预嵌入表示输入至所述GAE，通过图卷积编码器，得到所述图谱节点的潜在表征；

基于所述潜在表征，通过解码器对所述企业关系图谱进行重构，得到重构图；

采用交叉熵作为损失函数，将企业关系图谱以及重构图作为输入，得到企业关系图谱的第一邻接矩阵与重构图的第三邻接矩阵的差值；

基于梯度下降方式，最小化所述损失函数，并更新所述编码器包括的参数；

重复执行步骤将所述预嵌入表示输入至所述GAE，通过图卷积编码器，得到所述图谱节点的潜在表征与步骤基于梯度下降方式，最小化所述损失函数，并更新所述编码器包括的参数之间的全部步骤，直至满足所述预设条件时停止；

将训练过程中所述损失函数的值为最小值时所对应的模型作为最优模型；

通过所述最优模型，将所述预嵌入表示输入至所述GAE后得到的潜在特征作为所述最终嵌入表示。

第二方面，本发明实施例提供一种风险企业的识别装置，所述装置包括：

第一获取单元，用于获取每个企业的目标数据集，所述目标数据集包括所述企业的多种税务信息；

构建单元，用于根据所述多种税务信息，构建企业关系图谱；

预训练单元，用于利用图卷积神经网络GCN以及基于互信息最大化模型DGI，对所述企业关系图谱进行预训练处理，得到企业节点的预嵌入表示；

训练单元，用于利用图自编码器GAE对所述预嵌入表示进行训练处理，得到所述企业节点的最终嵌入表示；

计算单元，用于根据所述企业节点的最终嵌入表示，通过余弦相似度算法，计算所述企业的企业相似度，所述企业相似度用于对企业是否为风险企业进行识别。

可选地，所述装置还包括：

接收单元，用于接收用户输入的查找指令，所述查找指令包括风险企业的第一企业名称；

第二获取单元，用于根据所述第一企业名称，获取与所述第一企业名称匹配的企业相似度以及与所述企业相似度关联的疑似风险企业的第二企业名称；

输出单元，用于向所述用户输出所述第二企业名称。

可选地，所述构建单元具体用于，对所述多种税务信息进行数据清洗处理，得到有效税务信息；

计算所述关联边的权重；

可选地，所述构建单元还具体用于，基于层次分析算法，根据历史经验，对所述关联边按照重要性程度进行两两比较，形成判断矩阵；

可选地，所述预训练单元具体用于，通过所述图谱节点的特征信息组成的第一特征矩阵以及通过所述图谱节点之间的关系组成的第一邻接矩阵，得到正样本实例；

可选地，所述训练单元具体用于，将所述预嵌入表示输入至所述GAE，通过图卷积编码器，得到所述图谱节点的潜在表征；

第三方面，本发明实施例提供一种电子设备，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述第一方面所述的一种风险企业的识别方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述第一方面所述的一种风险企业的识别方法。

本发明实施例提供的一种风险企业的识别方法、装置及存储介质，在获取每个企业的目标数据集后，构建企业关系图谱。利用GCN以及DGI对企业关系图谱进行预训练处理，得到企业节点的预嵌入表示。再利用GAE对预嵌入表示进行训练处理，得到企业节点的最终嵌入表示。利用余弦相似度算法，根据最终嵌入表示，计算企业的企业相似度，最终利用企业相似度对企业是否为风险企业进行识别。

前述方案能够解决现有企业相似度计算方法数据来源单一、孤立分析企业税务数据，而忽略了企业深层次关系的问题。实现了潜在风险企业重点监控、及时预警和开展风险应对。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种风险企业的识别方法流程图；

图2为本发明实施例提供的企业节点的嵌入表示学习模型示意图；

图3为本发明实施例提供的一种风险企业的识别装置结构示意图；

图4为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面结合附图1，详细说明本发明实施例提供的方案进行说明，图1为本发明实施例提供的一种风险企业的识别方法流程图，在本发明实施例中实施主体为电子设备。该电子设备可为终端设备，例如，个人电脑、台式电脑等。该电子设备也可为服务器。如图1所示，本发明实施例提供的一种风险企业的识别方法具体包括以下步骤：

步骤110、获取每个企业的目标数据集，所述目标数据集包括所述企业的多种税务信息。

本发明实施例中，电子设备从政府部门(例如，税务部门)处获取多个企业的目标数据集，每个目标数据集包括企业的多种税务信息。

例如，税务信息包括纳税人信息数据、增值税发票数据以及企业工商数据。其中，纳税人信息数据主要包括纳税人名称、纳税人识别号、法定代表人名称、法人证件号码、财务负责人名称、财务负责人证件号码、办税人名称、办税人证件号码、生产经营地址、开业登记日期、企业规模、行业等信息。

增值税发票数据主要包括购方纳税人识别号、销方纳税人识别号、销方名称、购方名称等信息。

企业工商数据主要包括行业、统一社会信用代码、纳税人识别号、注册资本、法人等信息。

步骤120、根据所述多种税务信息，构建企业关系图谱。

本发明实施例中，电子设备获取到多种税务信息后，对多种税务信息进行清洗、挖掘，构建企业关系图谱。

进一步地，该构建企业关系图谱可通过下述过程得到。首先，对多种税务信息进行清洗，得到有效税务信息。然后，构建图谱节点、图谱节点特征、图谱节点间的关联边以及计算关联边权重。最后，通过图谱节点、图谱节点特征以及关联边，构建企业关系图谱。在后续实施例中将详细介绍构建企业关系图谱过程，在此仅简单介绍。

可以理解的是，该企业关系图谱为一个图网络。

步骤130、利用图卷积神经网络GCN以及基于互信息最大化模型DGI，对所述企业关系图谱进行预训练处理，得到企业节点的预嵌入表示。

本发明实施例中，电子设备构建企业关系图谱后，利用图卷积神经网络(英文：Graph Convolutional Network,，简称：GCN)以及基于互信息最大化模型(英文：DeepGraph Infomax，简称：DGI)对企业关系图谱进行预训练处理，得到企业节点的预嵌入表示。

进一步地，该企业节点的预嵌入表示可通过下述过程得到。首先，通过企业关系图谱，得到正样本实例、负样本实例。然后，将正样本实例以及负样本实例分别输入至GCN内，得到第一局部特征以及第二局部特征。将第一局部特征与全局特征作为正样本局部-全局对，将第二局部特征与全局特征作为负样本局部-全局对。利用判别器分别对正样本局部-全局、负样本局部-全局对进行打分。将第一评分与全为1的向量之间的差值作为第一损失，将第二评分与全为0的向量之间的差值作为第二损失，第一损失和第二损失的和为噪声对比性目标函数的值。最后，多次重复执行前述步骤，直至满足预设条件时停止。将训练过程中噪声对比性目标函数的值为最小值时所对应的模型作为最优模型。通过最优模型，将正样本实例输入至GCN后得到的第一局部特征作为所述预嵌入表示。在后续实施例中将详细介绍得到企业节点的预嵌入表示过程，在此仅简单介绍。

步骤140、利用图自编码器GAE对所述预嵌入表示进行训练处理，得到所述企业节点的最终嵌入表示。

本发明实施例中，电子设备得到企业节点的预嵌入表示后，利用图自编码器(英文：Graph Auto-Encoders，简称：GAE)对预嵌入表示进行训练处理，得到企业节点的最终嵌入表示。

进一步地，该企业节点的最终嵌入表示可通过下述过程得到。首先，将预嵌入表示输入至GAE，通过图卷积编码器，得到图谱节点的潜在表征。然后，基于所在表征，通过解码器对企业关系图谱进行重构，得到重构图。采用交叉熵作为损失函数，将企业关系图谱以及重构图作为输入，得到企业关系图谱的第一邻接矩阵与重构图的第三邻接矩阵的差值。最后，多次重复执行前述步骤，直至满足预设条件时停止。将训练过程中损失函数的值为最小值时所对应的模型作为最优模型。通过最优模型，将预嵌入表示输入至GAE后得到的潜在特征作为最终嵌入表示。在后续实施例中将详细介绍得到企业节点的最终嵌入表示过程，在此仅简单介绍。

步骤150、根据所述企业节点的最终嵌入表示，通过余弦相似度算法，计算所述企业的企业相似度，所述企业相似度用于对企业是否为风险企业进行识别。

本发明实施例中，电子设备得到企业节点的最终嵌入表示后，通过余弦相似度算法，计算企业的企业相似度。该企业相似度用于对企业是否为风险企业进行识别。

可以理解的是，余弦相似度算法为现有公知算法，在此不在详细说明具体的计算过程。

在本发明实施例中，电子设备在获取每个企业的目标数据集后，构建企业关系图谱。利用GCN以及DGI对企业关系图谱进行预训练处理，得到企业节点的预嵌入表示。再利用GAE对预嵌入表示进行训练处理，得到企业节点的最终嵌入表示。利用余弦相似度算法，根据最终嵌入表示，计算企业的企业相似度，最终利用企业相似度对企业是否为风险企业进行识别。

可选地，本发明实施例中，还包括电子设备接收用户输入的查找指令，根据查找指令输出疑似风险企业的过程。

具体地，用户预获取与“黑名单(风险)企业”相关联或者相类似的风险企业名称。用户向电子设备输入查找指令，该查找指令包括风险企业的第一企业名称。

电子设备接收到查找指令后，解析查找指令并从中获取第一企业名称。根据第一企业名称，电子设备获取与第一企业名称匹配的企业相似度，并根据企业相似度，获取与企业相似度高关联(例如，具有相同企业相似度的企业、与该企业具有关联边、具有关联关系类型的企业)的疑似风险企业的第二企业名称。

可以理解的是，第二企业名称的个数为至少一个。

电子设备向用户输出第二企业名称(可通过显示器输出显示)，以使得客户获取第二企业名称。

下面详细说明本发明实施例中电子设备根据多种税务信息，构建企业关系图谱的过程。

具体地，电子设备获取到多种税务信息后，对多种税务信息进行清洗，也即是，对多种税务信息进行检查，将缺失数据、异常数据、错误数据等“脏”数据进行剔除，得到有效税务信息。

电子设备构建图谱节点、图谱节点特征以及图谱节点间的关联边。通常，可将企业和人员作为图谱的节点，将企业-企业间的关系、企业-人员间的关系、人员-人员间的关系作为图谱节点间的边。但，考虑到边的稀疏性以及数据冗余性。本发明实施例中，电子设备将企业作为图谱节点，从有效税务信息中获取图谱节点的特征信息。同时，电子设备还对有效税务信息进行关联分析，获取图谱节点间的关联关系类型，并将关联关系类型作为多个图谱节点之间的关联边。

例如，电子设备将企业-人员、人员-人员之间的关系转换为类似于“同法人”、“同财务负责人”、“同办税人”、“法人财务同一人”等企业间的关联关系类型。电子设备将企业间的关联关系类型作为图谱节点间的关联边。电子设备将注册资本、开业登记日期、纳税人状态代码、区域代码、行业代码等作为图谱节点的特征信息，并将特征信息以独热码进行编码。

电子设备计算关联边的权重。基于层次分析算法，根据历史经验(例如，专家经验)，对关联边按照重要性程度进行两两比较，形成判断矩阵。电子设备对判断矩阵进行一致性检验，得到关联边的初始权重w_i。

此外，考虑到不同企业间会存在关联关系类型相同，但关联程度不同的问题。例如，A企业与B企业、C企业均存在交易关系，但是，A企业与B企业交易相对频繁，则A与B企业间的关联程度应高于A企业与C企业间的关联程度。基于此，电子设备将初始权重与关联程度系数k的乘积值k×w_i作为关联边的最终权重。

例如，A企业与其他企业(除企业A之外的)的交易次数总和为N次，A企业与B企业(指定企业)交易m次，则图谱节点A与图谱节点B间的关联程度系数k＝m/N。

需要说明的是，若两个图谱节点之间存在多种关联关系类型，则将关联边多个权重数值最大的一个作为最终权重。

电子设备得到图谱节点、图谱节点的特征信息、关联边以及关联边的权重后，电子设备即可完成企业关系图谱有权图的构建。

下面详细说明本发明实施例中电子设备利用GCN以及DGI，对企业关系图谱进行预训练处理，得到企业节点的预嵌入表示以及利用GAE对预嵌入表示进行训练处理，得到企业节点的最终嵌入表示过程。请参考图2，图2为本发明实施例提供的企业节点的嵌入表示学习模型示意图。

在图2中，电子设备将图谱节点的特征信息

组成第一特征矩阵。电子设备将图谱节点之间的关系组成的第一邻接矩阵

其中，N为企业关系图谱中的图谱节点个数，

代表节点i的特征表示。

表示全体实数域，F表示F长度的特征信息，即节点嵌入(embedding)特征的长度。

通过第一特征矩阵以及第一邻接矩阵，电子设备得到正样本实例(X,A)。由于企业关系图谱为有权图，则第一邻接矩阵内存储的值不再只为0或1。

电子设备保持第一邻接矩阵不变，得到第二邻接矩阵，也即是第二邻接矩阵与第一邻接矩阵相同

电子设备构建腐蚀函数

通过腐蚀函数，基于按行随机(row-wise shuffle)方式，电子设备打乱第一特征矩阵顺序，按整行进行重排，随机得到第二特征矩阵

其中，N和M数值是相同的，腐蚀函数

表明：输入

后，通过腐蚀函数，将特征矩阵改变，得到

通过第二特征矩阵以及第二邻接矩阵，电子设备得到负样本实例

使用GCN作为编码器

电子设备将第一特征矩阵X以及第一邻接矩阵A输入至GCN。编码器通过不断聚合图谱节点周边的邻居来完成特征学习，从而得到正样本实例的第一局部特征

其中，F′表明依然是F长度的节点embedding特征信息，只是图谱节点的特征信息已改变。

同理，电子设备将第二特征矩阵

以及第二邻接矩阵

输入至GCN。编码器通过不断聚合图谱节点周边的邻居来完成特征学习，从而得到负样本实例的第二局部特征

电子设备将第一局部特征输入至读出函数

从而得到图级别的全局特征

同时，电子设备将第一局部特征

与全局特征

作为正样本局部-全局对

将第二局部特征

与全局特征

作为负样本局部-全局对

电子设备构建判别器

分别对

进行打分，得到正样本局部-全局对的第一评分以及负样本局部-全局对的第二评分。其中，判别器输入的是两个图谱节点的F长度的特征表示，输出一个概率评分。

电子设备将第一评分与全为1的向量进行比对，并将第一评分与全为1的向量之间的差值作为第一损失；电子设备将第二评分与全为0的向量进行比对，并将第二评分与全为0的向量之间的差值作为第二损失，第一损失和第二损失的和为噪声对比性目标函数的值。

基于梯度下降方式，电子设备最小化噪声对比性目标函数，并更新编码器、以及读出函数包括的参数。其中，噪声对比性目标函数包括判别器，噪声对比性目标函数用于使判别器对正样本局部-全局对以及负样本局部-全局对进行打分时，使第一评分靠近全为1的向量，使第二评分靠近全为0的向量，扩大第一评分与第二评分之间的差距。

具有标准二值交叉熵损失的噪声对比型目标函数为：

其中，

代表期望。

电子设备重复执行前述步骤(通过图谱节点的特征信息组成的第一特征矩阵以及通过图谱节点之间的关系组成的第一邻接矩阵，得到正样本实例到基于梯度下降方式，最小化噪声对比性目标函数，并更新所述编码器以及读出函数包括的参数之间的全部步骤)，直至满足预设条件时停止。

电子设备将训练过程中噪声对比性目标函数的值为最小值时所对应的模型作为最优模型。通过最优模型，电子设备将正样本实例输入至GCN后得到的第一局部特征作为企业节点的预嵌入表示(H,A)。

其中，预设条件包括预设的训练次数以及准确率的保持次数。

在一个例子中，训练次数具体是指模型的训练次数，例如，模型训练100次，当到达100次后，模型停止训练。

在另一个例子中，准确率的保持次数具体是指每次训练完成后，用测试数据训练模型一次，得到一个准确率。若连续10次的准确率一直保持，则模型停止训练。

电子设备将预嵌入表示(H,A)作为GAE的输入，通过图卷积编码器，得到图谱节点的潜在表征Z。基于潜在表征Z，电子设备通过解码器对企业关系图谱进行重构，得到重构图。

电子设备采用交叉熵作为损失函数，将企业关系图谱以及重构图为输入，得到企业关系图谱的第一邻接矩阵与重构图的第三邻接矩阵的差值。基于梯度下降方式，最小化损失函数，并更新编码器包括的参数。

电子设备重复执行前述步骤(将预嵌入表示输入至GAE，通过图卷积编码器，得到图谱节点的潜在表征到基于梯度下降方式，最小化损失函数，并更新编码器包括的参数之间的全部步骤)，直至满足预设条件时停止。

电子设备将训练过程中损失函数的值为最小值时所对应的模型作为最优模型。通过最优模型，电子设备将预嵌入表示输入至GAE后得到的潜在特征作为最终嵌入表示。

可以理解的是，预设条件与前述说明的预设条件相同，在此不再复述。

在本发明实施例中，考虑深层次的企业之间的多源关系，通过多维度整合税务数据，深度挖掘企业之间的上下游、进销、共同法人和共同关联纳税人等多样的关系，构建企业关系图谱，可以更加准确挖掘潜在的税务风险企业。

此外，本发明实施例提供的风险企业的识别方法主要应用于税务风险企业挖掘场景，还可用于社交、电商等其他业务场景。

图3为本发明实施例提供的一种风险企业的识别装置结构示意图，如图3所示，本实施例的风险企业的识别装置可以包括：第一获取单元310、构建单元320、预训练单元330、训练单元340以及计算单元350。

第一获取单元310，用于获取每个企业的目标数据集，所述目标数据集包括所述企业的多种税务信息；

构建单元320，用于根据所述多种税务信息，构建企业关系图谱；

预训练单元330，用于利用图卷积神经网络GCN以及基于互信息最大化模型DGI，对所述企业关系图谱进行预训练处理，得到企业节点的预嵌入表示；

训练单元340，用于利用图自编码器GAE对所述预嵌入表示进行训练处理，得到所述企业节点的最终嵌入表示；

计算单元350，用于根据所述企业节点的最终嵌入表示，通过余弦相似度算法，计算所述企业的企业相似度，所述企业相似度用于对企业是否为风险企业进行识别。

可选地，所述装置还包括：接收单元(图中未示出)，用于接收用户输入的查找指令，所述查找指令包括风险企业的第一企业名称；

第二获取单元(图中未示出)，用于根据所述第一企业名称，获取与所述第一企业名称匹配的企业相似度以及与所述企业相似度关联的疑似风险企业的第二企业名称；

输出单元(图中未示出)，用于向所述用户输出所述第二企业名称。

可选地，所述构建单元320具体用于，对所述多种税务信息进行数据清洗处理，得到有效税务信息；

计算所述关联边的权重；

可选地，所述构建单元320还具体用于，基于层次分析算法，根据历史经验，对所述关联边按照重要性程度进行两两比较，形成判断矩阵；

可选地，所述预训练单元330具体用于，通过所述图谱节点的特征信息组成的第一特征矩阵以及通过所述图谱节点之间的关系组成的第一邻接矩阵，得到正样本实例；

可选地，所述训练单元340具体用于，将所述预嵌入表示输入至所述GAE，通过图卷积编码器，得到所述图谱节点的潜在表征；

本实施例的装置，可以用于执行图1、图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

相应地，本发明实施例提供的一种风险企业的识别装置还可用另一种结构实现。图4为本发明提供的一个电子设备实施例的结构示意图，可以实现本发明图1-2所示实施例的流程，如图4所示，上述电子设备可以包括：壳体41、处理器42、存储器43、电路板44和电源电路45。其中，电路板44安置在壳体41围成的空间内部，处理器42和存储器43设置在电路板44上；电源电路45，用于为上述电子设备的各个电路或器件供电；存储器43用于存储可执行程序代码；处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述实施例所述的方法。

处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤，可以参见本发明图1-2所示实施例的描述，在此不再赘述。

该电子设备：提供计算服务的设备，电子设备的构成包括处理器、硬盘、内存、系统总线等，电子设备和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

相应地，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序。其中，一个或者多个程序可被一个或者多个处理器执行，以实现前述实施例所述的风险企业的识别方法。

需要说明的是，在本文中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

为了描述的方便，描述以上装置是以功能分为各种单元/模块分别描述。当然，在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种风险企业的识别方法，其特征在于，所述方法包括：

根据所述多种税务信息，构建企业关系图谱；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

向所述用户输出所述第二企业名称。

3.根据权利要求1所述的方法，其特征在于，所述根据所述多种税务信息，构建企业关系图谱，具体包括：

计算所述关联边的权重；

4.根据权利要求3所述的方法，其特征在于，所述计算所述关联边的权重，具体包括：

5.根据权利要求3所述的方法，其特征在于，所述利用图卷积神经网络GCN以及基于互信息最大化模型DGI，对所述企业关系图谱进行预训练处理，得到企业节点的预嵌入表示，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述利用图自编码器GAE对所述预嵌入表示进行训练处理，得到所述企业节点的最终嵌入表示，具体包括：

7.一种风险企业的识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

输出单元，用于向所述用户输出所述第二企业名称。

9.一种电子设备、其特征在于，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述任一权利要求1-6所述的一种风险企业的识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述任一权利要求1-6所述的一种风险企业的识别方法。