CN115577274A

CN115577274A - 一种基于多维度特征的企业批量聚类方法和系统

Info

Publication number: CN115577274A
Application number: CN202211142876.0A
Authority: CN
Inventors: 闫凯; 王泽浩; 马谊骏; 林文辉; 王志刚; 刘振宇; 王晶
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-01-06

Abstract

本发明提供一种基于多维度特征的企业批量聚类方法和系统通过采集税务领域多个待聚类目标企业的税务数据，新闻数据和舆情数据，对采集的数据进行解析后生成特征数据，并根据特征数据构建图结构，以及将所述图结构作为最优图神经网络聚类模型的输入，获取待聚类目标企业的聚类结果。所述方法和系统针对企业单一属性特征聚类关联性差的问题，采集目标企业的多种数据，丰富企业目标的特征维度，构建以企业目标为中心，企业和企业之间具有强关联的图结构，保证了聚类簇中目标企业的紧密性；进一步地，利用图卷积神经网络充分捕捉图结构特征，实现对批量输入的目标企业中具有相同图结构企业节点的聚类，提升了企业聚类效果和效率。

Description

一种基于多维度特征的企业批量聚类方法和系统

技术领域

本发明涉及税务技术领域,并且更具体地，涉及一种基于多维度特征的企业批量聚类方法和系统。

背景技术

聚类是数据挖掘中的概念，就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。聚类时并不关心某一类是什么，需要实现的目标只是把相似的东西聚到一起，因此聚类算法通常不需要训练样本学习，属于无监督学习。

企业目标的聚类是指综合分析企业目标彼此之间的关联关系，使用企业属性信息特征化描述该企业，相似类型的企业目标聚集成一个簇，不同簇中的两个企业目标差异性尽可能大，即实现相似企业目标的聚集，差异企业目标的分离。由于聚类成一个簇的企业目标具有一定的相似性，当一个簇中出现风险企业同时也预示着该簇中的其他企业存在风险的可能，等一个簇中出现优质企业同时也预示着该簇中的其他企业是优质企业的可能性更大。企业目标的聚类可为税收安全、企业投资贸易等一系列行为提供参考依据，便于挖掘优质企业以及风险企业。

现有的相关专利中，仅利用企业目标的税务登记注册地址信息实现企业聚类，聚类后的簇中，企业与企业仅仅因注册地址信息类似而聚集在一起，单个企业的标签无法有效反映整个聚集簇中其他企业的经营状况。因此，需要一种技术，能够通过构建企业与企业之间的强关联关系，提高企业聚类的效果。

发明内容

为了解决现有技术中仅通过单一企业注册数据聚类导致的企业之间弱关联，使企业聚类效果较差的问题，本发明提供一种基基于多维度特征的企业批量聚类方法和系统。

根据本发明的一方面，本发明提供一种基于多维度特征的企业批量聚类方法，所述方法包括：

采集多个待聚类目标企业的税务数据，新闻数据和舆情数据；

对所述税务数据，新闻数据和舆情数据分别进行解析，获取每个待聚类目标企业的税务特征数据，新闻特征数据和舆情特征数据；

根据每个待聚类目标企业的税务特征数据，新闻特征数据和舆情特征数据，以及待聚类目标企业之间的关联关系构建图结构，其中，所述图结构表示为特征矩阵和邻接矩阵；

将所述特征矩阵和邻接矩阵作为最优图神经网络聚类模型的输入，根据最优图神经网络聚类模型的输出确定待聚类目标企业的聚类结果，其中，每个待聚类目标企业的聚类结果为预先设置的多个聚类标签中的一个。

可选地，采集多个待聚类目标企业的税务数据，新闻数据和舆情数据之前还包括建立图神经网络聚类模型，其中：

步骤1、采集多个历史企业的历史税务数据，历史新闻数据，历史舆情数据和历史企业聚类标签；

步骤2、对所述历史税务数据，历史新闻数据和历史舆情数据分别进行解析，获取每个历史企业的历史税务特征数据，历史新闻特征数据和历史舆情特征数据；

步骤3、根据每个历史企业的历史税务特征数据，历史新闻特征数据和历史舆情特征数据为历史企业设置对应的聚类标签；

步骤4、根据每个历史企业的历史税务特征数据，历史新闻特征数据和历史舆情特征数据，以及历史企业之间的关联关系构建历史图结构，其中，所述历史图结构包括历史特征矩阵和历史邻接矩阵；

步骤5、采用图卷积神经网络GCN建立初始图神经网络模型；

步骤6、将所述历史特征矩阵和历史邻接矩阵作为初始图神经网络模型的输入，获取每个历史企业的初始聚类结果；

步骤7、比较每个历史企业的初始聚类结果和其对应的聚类标签；

步骤8、当比较结果不满足设置的模型成立条件时，调整GCN的模型参数，生成待验证模型，并将待验证模型作为初始图神经网络模型，转至步骤6；

步骤9、当比较结果满足设置的模型成立条件时，生成最优图神经网络模型。

可选地，根据每个历史企业的历史税务特征数据，历史新闻特征数据和历史舆情特征数据，以及历史企业之间的关联关系构建历史图结构包括：

当历史企业数量为N个，每个历史企业的特征数据的特征维度为D维时，根据历史企业数量N和特征维度D生成历史特征矩阵X_N*D；

根据N个历史企业之间的关联关系生成历史邻接矩阵A_N*N。

可选地，将所述历史特征矩阵和历史邻接矩阵作为初始图神经网络模型的输入，获取每个历史企业的初始聚类结果，其中：

初始神经网络模型的层与层之间的传播方式的表达式为：

式中，

I是单位矩阵，

是

的度矩阵，公式为

1≤i，j≤N，H^(l)为第l层的特征，当l＝1时为输入层，输入层的值为历史特征矩阵X_N*D和历史邻接矩阵A_N*N，σ为激活函数，W^(l))为GCN的模型参数。

可选地，对于初始神经网络模型的H^(l+1)层，令其激活函数为ReLU和Softmax，则整体的正向传播公式可表达为：

式中，l≥1，X为历史特征矩阵，A为历史邻接矩阵。

根据本发明的另一方面，本发明提供一种基于多维度特征的企业批量聚类系统，所述系统包括：

数据采集单元，用于采集多个待聚类目标企业的税务数据，新闻数据和舆情数据；

数据解析单元，用于对所述税务数据，新闻数据和舆情数据分别进行解析，获取每个待聚类目标企业的税务特征数据，新闻特征数据和舆情特征数据；

图结构单元，用于根据每个待聚类目标企业的税务特征数据，新闻特征数据和舆情特征数据，以及待聚类目标企业之间的关联关系构建图结构，其中，所述图结构表示为特征矩阵和邻接矩阵；

批量聚类单元，用于将所述特征矩阵和邻接矩阵作为最优图神经网络聚类模型的输入，根据最优图神经网络聚类模型的输出确定待聚类目标企业的聚类结果，其中，每个待聚类目标企业的聚类结果为预先设置的多个聚类标签中的一个。

可选地，所述系统还包括聚类模型单元，用于建立图神经网络聚类模型，其中：

步骤5、采用图卷积神经网络GCN建立初始图神经网络模型；

根据N个历史企业之间的关联关系生成历史邻接矩阵A_N*N。

初始神经网络模型的层与层之间的传播方式的表达式为：

式中，

I是单位矩阵，

是

的度矩阵，公式为

式中，l≥1，X为历史特征矩阵，A为历史邻接矩阵。

本发明技术方案提供的基于多维度特征的企业批量聚类方法和系统通过采集税务领域多个待聚类目标企业的税务数据，新闻数据和舆情数据，对采集的数据进行解析后生成特征数据，并根据特征数据构建图结构，以及将所述图结构作为最优图神经网络聚类模型的输入，获取待聚类目标企业的聚类结果。所述方法和系统针对企业单一属性特征聚类关联性差的问题，采集目标企业的多种数据，丰富企业目标的特征维度，构建以企业目标为中心，企业和企业之间具有强关联的图结构，保证了聚类簇中目标企业的紧密性；进一步地，利用图卷积神经网络充分捕捉图结构特征，实现对批量输入的目标企业中具有相同图结构企业节点的聚类，提升了企业聚类效果和效率。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明优选实施方式的基于多维度特征的企业批量聚类方法的流程图；

图2为根据本发明优选实施方式的基于多维度特征的企业批量聚类系统的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

示例性方法

图1为根据本发明优选实施方式的基于多维度特征的企业批量聚类方法的流程图。如图1所示，本优选实施方式所述的基于多维度特征的企业批量聚类方法从步骤101开始。

在步骤101，采集多个待聚类目标企业的税务数据，新闻数据和舆情数据。

在一个实施例中，所述方法应用于税务领域。采集的目标企业的税务数据包括企业注册信息，企业相关联的法人，办税人，财务负责人，企业交易上下游企业，企业交易商品等。采集目标企业关联的网络新闻，包括与目标企业，以及关联企业自然人相关的新闻内容，采集舆情数据，包括目标企业的所有舆情内容，关联企业自然人的相关舆情内容。所述新闻数据和舆情数据通过网络爬虫爬取，新闻数据定义为一般新闻页面中的数据，舆情数据定义为权威机构的网站中发布的数据。

在步骤102，对所述税务数据，新闻数据和舆情数据分别进行解析，获取每个待聚类目标企业的税务特征数据，新闻特征数据和舆情特征数据。

在一个实施例中，通过对采集的税务数据，新闻数据和舆情数据分别进行解析，抽取数据中的特征属性。对于目标企业的税务数据，抽取其中的注册信息、企业交易商品、企业关联自然人、企业上下游企业；对于新闻数据，抽取标题或正文中含有企业名称、企业纳税人识别号、企业关联人物名称、企业关联人物证件号码相关的新闻；对于舆情数据，抽取舆情涉及的企业名称、企业纳税人识别号、企业关联人物名称、企业关联人物证件号码的相关舆情。

在步骤103，根据每个待聚类目标企业的税务特征数据，新闻特征数据和舆情特征数据，以及待聚类目标企业之间的关联关系构建图结构，其中，所述图结构表示为特征矩阵和邻接矩阵。

在一个实施例中，基于抽取的特征数据，构建企业、自然人、商品、票流、关联新闻、关联舆情的图结构。鉴于图结构的不规则、大小不同、节点无序、临近节点差异性大，本实施例利用图卷积神经网络(GCN)捕获图结构中待聚类目标企业彼此之间的依赖关系，假设其中有N个企业节点，每个企业目标节点有最多D维的特征属性，那么N个企业节点的特征组成N*D维的特征矩阵X，N个企业节点之间的关系则形成N*N维的邻接矩阵A，X和A即为最优图神经网络聚类模型的输入。

在步骤104，将所述特征矩阵和邻接矩阵作为最优图神经网络聚类模型的输入，根据最优图神经网络聚类模型的输出确定待聚类目标企业的聚类结果，其中，每个待聚类目标企业的聚类结果为预先设置的多个聚类标签中的一个。

在一个实施例中，由于最优图神经网络聚类模型是根据历史企业的历史数据进行特征提取，构建图结构后，作为训练样本，对图神经网络聚类模型进行参数调整后得到的最优模型。因此，将根据批量待聚类目标企业的税务数据，新闻数据和舆情数据而构建的图结构作为最优图神经网络聚类模型的输入，其输出即可作为待聚类目标企业的聚类结果。所述聚类标签可以根据聚类需求设定，比如可只设置优质企业和风险企业的聚类标签，用于区分经营良好与经营较差的企业。也可以设置多级优质企业和多级风险企业的聚类标签，从而对企业的经营情况进行更细致的区分，从而为税收安全、企业投资贸易等一系列行为提供更全面的参考依据，便于挖掘优质企业以及风险企业。

优选地，采集多个待聚类目标企业的税务数据，新闻数据和舆情数据之前还包括建立图神经网络聚类模型，其中：

步骤5、采用图卷积神经网络GCN建立初始图神经网络模型；

优选地，根据每个历史企业的历史税务特征数据，历史新闻特征数据和历史舆情特征数据，以及历史企业之间的关联关系构建历史图结构包括：

根据N个历史企业之间的关联关系生成历史邻接矩阵A_N*N。

优选地，将所述历史特征矩阵和历史邻接矩阵作为初始图神经网络模型的输入，获取每个历史企业的初始聚类结果，其中：

初始神经网络模型的层与层之间的传播方式的表达式为：

式中，

I是单位矩阵，

是

的度矩阵，公式为

优选地，对于初始神经网络模型的H^(l+1)层，令其激活函数为ReLU和Softmax，则整体的正向传播公式可表达为：

式中，l≥1，X为历史特征矩阵，A为历史邻接矩阵。

综上所述，本发明优选实施方式的基于多维度特征的企业批量聚类方法通过采集待聚类目标企业的税务数据，新闻数据和舆情数据，对其进行解析并获取特征数据后构建图结构，将所述图结构作为最优图神经网络聚类模型的输入，获取待聚类目标企业聚类结果，丰富了目标企业的特征维度，强化了企业与企业之间的连接，使聚类簇中单个企业更好地反映整体簇的情况，同一簇企业之间具有更多的相似性。进一步地，本优选实施方式采用图卷积神经网络聚类模型取代K-means聚类，以图结构为输入，充分捕捉图结构中目标企业与目标企业之间的关联，提升了聚类效果。同时，能对批量输入的企业对象完成聚类，提升了聚类效率。

示例性系统

图2为根据本发明优选实施方式的基于多维度特征的企业批量聚类系统的结构示意图。如图2所示，本优选实施方式所述的基于多维度特征的企业批量聚类系统200包括：

数据采集单元201，用于采集多个待聚类目标企业的税务数据，新闻数据和舆情数据；

数据解析单元202，用于对所述税务数据，新闻数据和舆情数据分别进行解析，获取每个待聚类目标企业的税务特征数据，新闻特征数据和舆情特征数据；

图结构单元203，用于根据每个待聚类目标企业的税务特征数据，新闻特征数据和舆情特征数据，以及待聚类目标企业之间的关联关系构建图结构，其中，所述图结构表示为特征矩阵和邻接矩阵；

批量聚类单元204，用于将所述特征矩阵和邻接矩阵作为最优图神经网络聚类模型的输入，根据最优图神经网络聚类模型的输出确定待聚类目标企业的聚类结果，其中，每个待聚类目标企业的聚类结果为预先设置的多个聚类标签中的一个。

优选地，所述系统还包括聚类模型单元205，用于建立图神经网络聚类模型，其中：

步骤5、采用图卷积神经网络GCN建立初始图神经网络模型；

根据N个历史企业之间的关联关系生成历史邻接矩阵A_N*N。

初始神经网络模型的层与层之间的传播方式的表达式为：

式中，

I是单位矩阵，

是

的度矩阵，公式为

式中，l≥1，X为历史特征矩阵，A为历史邻接矩阵。

本优选实施方式所述的基于多维度特征的企业批量聚类系统采集待聚类目标企业的税务数据，新闻数据和舆情数据，对其进行解析并获取特征数据后构建图结构，将所述图结构作为最优图神经网络聚类模型的输入，获取待聚类目标企业聚类结果的步骤与基于多维度特征的企业批量聚类方法采用的步骤相同，达到的技术效果也相同，此处不再赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。