CN112819308A

CN112819308A - 一种基于双向图卷积神经网络的头部企业识别方法

Info

Publication number: CN112819308A
Application number: CN202110092192.3A
Authority: CN
Inventors: 罗家德; 杨虎
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-01-23
Filing date: 2021-01-23
Publication date: 2021-05-18
Anticipated expiration: 2041-01-23
Also published as: CN112819308B

Abstract

本发明公开了一种基于双向图卷积神经网络的头部企业识别方法，该方法包括数据爬取与预处理模块、特征构建模块、模型训练与调优模块、预测模块四个部分，具体实施步骤有：从互联网上收集数据，建立风险投资公司投资事件数据库；提取描述风投规模与投资经验的九个指标(特征)；构建风投联合投资网络；构建风投特征关系网络；构建图卷积神经网络模型；模型训练与结果输出。该方法融合了企业自身属性、企业之间的合作网络以及属性之间的关系网络三类信息；并设计出了一个双向图卷积神经网络模型，将三类数据作为模型输入，训练半监督分类模型，解决了头部企业识别信息不充分问题，能够更有效、更灵活地识别出网络中的重要节点，确定行业中的头部企业。

Description

一种基于双向图卷积神经网络的头部企业识别方法

技术领域

本发明属于信息技术领域，具体涉及一种基于双向图卷积神经网络的头部企业识别方法。

背景技术

头部企业是其所在产业的重要引领者，掌握着该产业的技术、利润、占有率等最有价值的市场资源，主导产业的发展方向。识别头部企业是研究任一产业的关键环节，对产业研究具有重要意义。行业中声望高的企业能够有效控制投成本与风险，并有较高的绩效，是行业中的领导者。企业选择合作伙伴时倾向于与声望高的头部企业合作。因此，识别头部企业是企业选择合作伙伴的重要参考依据。

目前现有技术对于识别头部企业的方法存在以下问题：

1.针对头部企业识别的方法缺少

识别头部企业本质上是分类问题，它旨在把产业中的头部企业与其他企业区分开来。目前，对于样本分类的研究有很多，比如传统的多元判别分析、Logistic模型、决策树等基础分类方法，近年来也有不少学者使用神经网络、支持向量机等方法进行研究。但是这些研究主要针对的是结构化数据建模，如果要利用企业的合作网络等关系特征，则需要借助图神经网络的深度学习方法来实现。图卷积神经网络与其他神经网络相比，在处理图数据方面更加高效且易于实现。常见的图神经网络主要有：基于谱的图神经网络(Spectral-based graph neural networks,Spectral GNNs)和基于空间的图神经网络(Spatialgraph neural networks,Spatial GNNs)两大类。基于谱的的图神经网络的核心是如何定义图卷积运算。例如：切比雪夫网络(ChebNet)，它用Chebyshev多项式逼近卷积滤波器；图卷积神经网络(Graph Convolutional Neural Networks,GCNs)，则通过简化图卷积核的多项式逼近来降低计算复杂度；凯莱网络(CayleyNet)则通过凯莱(Cayley)多项式逼近来捕获滤波器的窄带。此外，基于空间的方法继承了递归图神经网络的思想，可以通过信息聚合来定义图的卷积。

虽然现有的方法在一定程度上可以用来识别头部企业，但在识别过程中，除了企业的特征、企业之间的合作，还存在特征之间的关系数据等结构信息。例如：在企业的自身特征方面，所属地区属于之间有相邻关系或者是均从属于某一个范围，所属行业之间是上下游关系等等；样本之间的结构关系指的是合作网络中，某两家企业在同一时间具有合作，那么这两家公司就存在连接。为了充分利用这些结构化数据与关系数据，本专利改进图卷积神经网络，在模型中引入图结构并进行特征学习，从而提升算法预测的准确度。

2.训练样本标签不足

解决训练样本标签不足的问题本质上是半监督学习问题，常见的方法有：无监督特征学习类算法和正则化约束类学习算法。

无监督特征学习类算法通常利用所有样本(包含标记样本和无标记样本)学习出样本的隐特征或隐含变量表示(Latent Featureor Hidden Variable)，在此基础上利用有监督分类器对无标记样本所对应的隐特征进行分类，从而间接地对无标记样本进行分类。文献^[14]中采用叠加的生成模型来学习标记样本和无标记样本的隐变量并使用支持向量机(Support Vector Machine,SVM)对学习的隐变量进行分类。文献^[15]则采用局部区域卷积(Local Region Convolution)在无标记的文本中学习出双视嵌入(Two-View Embedding)，然后采用卷积神经网络进行分类。

正则化约束类算法通常是在有监督神经网络的输出层或者隐含层的目标函数中加入体现样本分布特性的正则化项，用以在训练中引入无标记样本。文献^[16]中把图的拉普拉斯正则化项分别加入到网络输出层的目标函数和中间隐含层的目标函数中，用来做半监督的分类和特征学习

相对于其他的半监督学习算法，单分类SVM算法具有更强的泛化能力、高维数据的处理能力，且可以避免神经网络结构选择和局部极小点问题，因此本专利选择单分类SVM算法来构建分类器。本发明将最大化利用未标记样本信息与标记的样本信息来构建头部企业识别算法，即实现基于图卷积神经网络的半监督头部企业识别算法，其中结合单分类的SVM方法，实现头部企业的识别。

3.新企业的评估问题

对于新的企业来说，本专利将在头部企业识别算法的基础上，借助企业特征、新企业间的合作关系等数据，对新企业进行评估，从而预测它们成为头部企业的可能性。

发明内容

我们提出一种新的头部企业识别方法，该方法基于图卷积神经网络把节点的网络结构与节点的特征融合，用来识别合作网络中的影响节点，从而用来识别头部企业。为达成这一目标，本发明拟解决的主要问题包括以下三个：

1.结构化数据和关系数据融合建模问题

要实现图卷积神经网络的头部企业识别系统，需要解决关系结构数据与节点属性数据数据融合的问题。企业之间的合作关系是关系数据，而度量企业之间的属性的数据则是结构化数据，如何把这两种数据融合，是本专利的主要创新点。此外，刻画企业的特征之间也存在关系结构，比如行业之间的上下游关系、地区之间的空间依赖关系等等。因此，如何综合考虑企业的特征信息、企业之间的合作关系，特征之间的关系等信息是本专利拟解决的关键问题。

2.部分标记或分类标签不全的问题

目前产业研究中，企业的资质良莠不齐，其成立时间、市场威望、经营状况等存在明显差异，市场对这些企业的认知也有所不同。虽然通过邀请部分业内专家对于一些企业进行评估，可以获取头部企业信息，但是要完全对行业中的所有企业进行评估较为困难；而且，随着时间的推移，一些行业市场结构也会发生改变，一些头部企业会丧失领导地位，而一些企业会崛起而成为新的头部企业，因而识别算法会面临训练样本标签不全的问题。在此本专利将借助半监督学习算法来解决标签不全的建模问题。

3.新企业的评估问题

随着时间的推移，每年都会涌现出大量的新企业，如何合理地评估新企业的发展潜力，是投资人及监管部门掌握产业动态的重要决策方法。并且随着信息技术和互联网的高速发展，企业数据及信息的获取更加便捷，数据的更新与数据量的增长不断加快，传统信用评级方法已无法满足高速的市场变化。及时评估新企业是否会成为潜在的头部企业变得尤为重要。

从复杂网络分析的角度来看，识别头部企业等同于识别网络中的高影响力节点。常见的度量网络节点影响力的方法有网络中心度指标。由于网络中心度测度通常只是从节点在网络中的某种位置来评价节点的重要性，因此针对不同的网络结构存在不同的中心度度量方法。同时由于网络中心度只度量了节点在网络中的位置，忽略了节点本身的特征，因此这类测量指标会有一定的偏误。考虑到这些原因，将网络拓扑信息与节点特征相结合的图神经网络(GCNs)能够更好的解决网络中心度的不足，已被应用于节点分类，在网络节点分类中达到了较高的精度。

因此，我们提出一种新的头部企业识别方法，本发明将基于图卷积神经网络对新的企业进行预测，以达到评估新企业的目的，进而实现头部企业识别。

为了解决头部企业的识别问题，本发明设计基于图卷积神经网络的头部企业识别系统，该系统主要包括：数据爬取与预处理模块、特征构建模块、模型训练与调优模块、预测模块等四个部分，如图1所示。下面对系统中各模块的作用进行详细描述：

1.数据爬取与预处理模块

①数据爬取

首先，选取待评价的行业，确定信息来源，从信息来源网页中爬取企业信息，包括两类。一是企业基本信息，例如：企业的名称、成立的时间、所属行业等；二是企业的合作事件，例如：投融资事件、项目合作事件、买卖关系等。每一条合作事件都代表在某个时间节点，某个企业与其他企业的合作情况。此外，为了获取企业市场中的新企业，本文在数据爬取部分设置监听器，定期获取新企业数据，并更新企业之间的合作记录。

②数据处理与存储

为了保证数据的一致性和有效性，本文对爬取到的原始数据进行了汇总。首先进行数据清洗，包括重复值处理(主要指记录重复，处理方法为删除)、缺失值处理(在建模前，对缺失过多的属性进行删除，对缺失较少的属性进行常值填补或模型填补)、异常值处理；其次进行数据集成，包括实体识别和冗余属性识别，并且进行了数据变换，包括数据规范化、连续属性离散化和属性构造；最后进行了数据规约，包括属性规约和数值规约。将处理好的数据导入MySQL数据库。

2.特征构建模块

①企业的特征提取

从数据集中提取与企业的规模、经验有关的多个指标。例如，企业开展合作的次数(NoC)，它表明了企业是否有足够的资产和资源进行合作。如果企业的NoC较高，说明其资产更多，整合资源能力强，可以进行较大规模的交易。因此，该指标是识别头部企业的好变量。同样，合作总额(TNC)，企业合作涉及的行业数量(NoI)，国家数量(NoCoun)、省份数量(NoPR)等指标也能充分描述企业的规模和经验。

②企业样本之间的关系结构提取

企业样本之间的网络即合作网络。考虑到企业的排名与头部企业可能会随时间变化，因此本文按照年来构建合作网络。合作网络以企业为节点，以企业之间是否存在合作来定义节点间的连边。

定义合作网络G，G是无向图并包含有序的三元组

其中V(G)是非空的节点集合V(G)＝{v_i|i∈(1,2,…,n)}，v_i代表网络中的企业；E(G)是与节点集合V(G)不相交的边的集合E(G)＝{e_uv|u,v∈V}，e_uv刻画企业之间的合作关系；

是关联函数，它将网络中每条边与节点之间的关系对应起来。

假设市场中的企业数量为K。定义合作行为两家企业在同一时间开展合作。用

表示在(t,t+Δt)的时间内企业的合作行为集合，其中

是企业i在(t,t+Δt)时间内与其他企业的合作行为，

若企业在(t,t+Δt)时刻与公司q合作，那么

否则

定义关联函数

使得

即：

其中，

是度量合作行为相似性的符号函数。若企业u和企业v在同一年开展了合作项目j，那么

否则

根据上述定义，可以构建(t,t+Δt)时间内企业之间的合作网络，用G(t,t+Δt)表示，简记为G_t。若观察的合作时间长度被划分为T个观测单元，那么可以构造T个合作网络，记为：G₁,G₂,…,G₃，每个合作网络都记录了某一段时间内的合作情况。

③企业特征之间的关系结构提取

定义属性关系网络G_y，G_y是无向图并包含有序的三元组

其中V(G_y)是非空的节点集合V(G_y)＝{v_iy|i∈(1,2,…,n)}，v_iy代表网络中的属性；E(G_y)是与节点集合V(G_y)不相交的边的集合E(G_y)＝{e_uvy|u,v∈V}，e_uvy刻画属性之间的关系。

假设市场中企业数量为K。定义属性关系为在一段时间内，两家企业是否“合作过同一类行业的企业”或者“合作过同一个国家的企业”或者“合作过同一个省份的企业”。定义关联函数

使得

其中，I(a_uy,a_vy)是度量属性关系相似性的符号函数。若企业uy和企业vy“合作过同一类行业的企业”或者“合作过同一个国家的企业”或者“合作过同一个省份的企业”，那么I(a_uy,a_vy)＝1，否则I(a_uy,a_vy)＝0。

3.模型训练与调优模块

①vcGCNN模型训练与调优

本文通过预实验发现，两层的图卷积神经网络比一层的图卷积神经网络的效果要更好，但当加入更多层时，图卷积神经网络的效率会降低。因此本文选择构建一个两层的双向图卷积神经网络模型，并将特征提取部分构建的企业自身属性、属性之间的网络、样本之间的网络三类特征作为输入，以解决结构化数据和非结构化数据(关系数据)的融合建模问题，最后通过池化的方法将所有的信息拼接起来，输入到一个前馈的神经网络模型中进行企业全特征的学习。

对于单个图卷积神经网络模型，输入属性矩阵X和样本关系网络G(此处以样本关系网络为例，属性关系网络同理)，图卷积神经网络模型Z的第i层输出定义为：

其中，σ(·)是激活函数，W⁽ⁱ⁾是图卷积神经网络模型Z的第i层的权重参数。

对于一个双向图卷积神经网络模型，输入属性矩阵X、样本关系网络G、属性关系网络G_y，双向图卷积网络从属性矩阵X的两头连接样本关系网络G和属性关系网络G_y，即GXG_y，此时，本文构建的双向图卷积神经网络模型vcGCNN(venture capital GraphConvolutional Neural Network)的第i层输出定义为：

其中，σ(·)是激活函数，W⁽ⁱ⁾是双向图卷积网络模型vcGCNN的第i层的权重参数。

②单分类SVM分类器训练与调优

本发明构建了一个单分类的SVM分类器(半监督)以解决头部企业的分类预测问题。半监督的分类算法有助于解决分类标签不全、新企业的分类问题。单分类SVM分类器的目标是确定头部企业(正类)的边界，边界之外的其他数据即不是头部企业的那些企业，这实际上是一种异常检测问题。

对于一个单分类的SVM分类器，需要在尽量保证训练数据正类分类正确的前提下，最大化距离其他非正类数据的最小距离，其目标函数如下：

s.t.(x_i-a)^T(x_i-a)≤R²+ξ_i

其中，C>0为惩罚参数。C越大表示对错误分类的惩罚力度越大，越小则表示惩罚力度越小。a表示正类形状的中心，R表示正类形状的半径，ξ_i>0为松弛变量。

使用单分类SVM分类器替代双向图卷积神经网络模型vcGCNN中常用的SOFTMAX分类器，即将双向图卷积神经网络模型vcGCNN融合结构数据和关系数据后建立的全连接网络作为单分类SVM分类器的输入，将训练集、验证集、测试集的比例设置为4:3:3，通过多次训练对单分类SVM分类器的参数进行调优，最后得到一个能够高效识别头部企业的单分类SVM分类器。

4.预测模块

通过再次爬取企业的数据，或者定时对企业的合作事件进行监听，可以获取新的样本，基于新样本的属性特征和网络结构特征，我们使用训练好的模型对其进行分类，可以解决企业标记不全、新企业进入后的分类问题。

有益效果

现有大多数技术只考虑了单方面的网络，比如样本之间的网络，或者只是使用中心度指标进行度量，提取的信息都不够充分。本发明在以往研究的基础上，融合了企业自身属性、属性之间的网络以及样本之间的合作网络，解决了信息不充分问题。在这些数据的基础上，我们构建了基于企业合作关系的无向图，利用图卷积神经网络训练半监督模型进行节点分类，更有效、更灵活地识别了网络中的重要节点，从而确定头部企业。在中国风险投资数据集上的实验结果表明，本发明方法在识别头部企业方面优于多种中心度测量方法和一些典型的基于谱的图神经网络方法。

附图说明

1.图1为本发明技术方案示意图；

2.图2为双向图卷积神经网络示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实例，对本发明技术方案进行进一步详细说明。应当理解，此处所描述的具体实例仅仅用以解释本发明，并不用于限定本发明。

以中国风险投资市场上，风险投资公司之间的联合投资事件为例，识别中国风险投资行业中的头部企业。设计基于图卷积神经网络的头部企业识别系统，该系统主要包括：数据爬取与预处理模块、特征构建模块、模型训练与调优模块、预测模块等四个部分，如附图1所示。具体实施步骤描述如下：

步骤一：从互联网上收集数据，建立风险投资公司投资事件数据库。收集的数据包括风投公司基本信息以及风投的投资事件，其中每一条投资事件都代表某个风投公司在某个时间节点投资了某家企业。对数据进行重复值、缺失值预处理，导入MySQL数据库。

步骤二：提取描述风投规模与投资经验的九个指标(特征)。分别为风险投资公司投资公司数(NoC)，投资总次数(TNI)，投资领域数(NoI)，投资时期数(NoP)，投资国家数(NoCoun)，投资省份数(NoPR)，初始期投资数(NoSI)，扩张期投资数(NoSE)和种子期投资数(NoSS)。

步骤三：构建风投联合投资网络。

定义风投联合投资网络G，G是无向图并包含有序的三元组

其中V(G)是非空的节点集合V(G)＝{v_i|i∈(1,2,…,n)}，v_i代表联合投资网络中的风投企业；E(G)是与节点集合V(G)不相交的边的集合E(G)＝{e_uv|u,v∈V}，e_uv刻画风投之间的联合投资关系；

是关联函数，它将网络中每条边与节点之间的关系对应起来，在这里关联函数是边上的权重，描述在一定时间范围内风投之间的联合投资次数。

步骤四：构建风投特征关系网络。

定义风投特征关系网络G_y，G_y是无向图并包含有序的三元组

其中V(G_y)是非空的节点集合V(G_y)＝{v_iy|i∈(1,2,…,n)}，v_iy代表特征关系网络中的特征；E(G_y)是与节点集合V(G_y)不相交的边的集合E(G_y)＝{e_uvy|u,v∈V}，e_uvy刻画特征之间的关系，

是关联函数，它将网络中每条边与节点之间的关系对应起来，在这里关联函数是边上的权重，描述特征之间的相关性，即相关系数。

步骤五：构建图卷积神经网络模型。

搭建出一个两层的双向图卷积神经网络模型，见附图2，并将步骤二、三、四中获得的风投特征、风投之间的联合投资网络、风投特征之间的特征关系网络作为模型输入。对于输入特征矩阵X、风投联合投资网络G、特征关系网络G_y，双向图卷积网络从特征矩阵X的两端连接联合投资关系网络G与特征关系网络G_y，形成GXG_y，此时，构建的双向图卷积神经网络模型的第i层输出定义为：

使用一个单分类的SVM分类器，需要在尽量保证训练数据正类分类正确的前提下，最大化距离其他非正类数据的最小距离，其目标函数如下：

s.t.(x_i-a)^T(x_i-a)≤R²+ξ_i

步骤六：模型训练与结果输出。

对数据集进行分割，划分出训练集、验证集、测试集，划分比例为4:3:3。此外，在实验中，我们使用Adam优化算法对模型进行每次200个迭代的训练，学习率设定为0.01，辍学率为0.5，L2正则化为5×10-4，隐层单元数为16。最后输出结果测试集准确率达到0.92，能够准确地识别出风险投资行业的头部风投。

Claims

1.一种基于双向图卷积神经网络的头部企业识别方法，其特征在于，包括：数据爬取与预处理模块、特征构建模块、模型训练与调优模块、预测模块四个部分，具体如下：

1)数据爬取与预处理模块

1-1)数据爬取：

首先，选取待评价的行业，确定信息来源，从信息来源网页中爬取企业信息，包括两类，一是企业基本信息：企业的名称、成立的时间、所属行业；二是企业的合作事件：投融资事件、项目合作事件、买卖关系；每一条合作事件都代表在某个时间节点，某个企业与其他企业的合作情况；此外，为了获取企业市场中的新企业数据，设置定时数据采集功能，能够定期获取新企业数据，并更新企业之间的合作记录；

1-2)数据处理与存储：

为了保证数据的一致性和有效性，对爬取到的原始数据进行汇总；首先进行数据清洗，包括重复值处理、缺失值处理、异常值处理；其次进行数据集成，包括实体识别和冗余属性识别，并且进行了数据变换，包括数据规范化、连续属性离散化和属性构造；最后进行了数据规约，包括属性规约和数值规约；将处理好的数据导入MySQL数据库；

2)特征构建模块

2-1)企业的特征提取

从数据集中提取与企业的规模、经验有关的多个指，包括：风险投资公司投资公司数NoC，投资总次数TNI，投资领域数NoI，投资时期数NoP，投资国家数NoCoun，投资省份数NoPR，初始期投资数NoSI，扩张期投资数NoSE和种子期投资数NoSS；

2-2)企业样本之间的关系结构提取：

企业样本之间的网络即合作网络，考虑到企业的排名与头部企业会随时间变化，按照年来构建合作网络；合作网络以企业为节点，以企业之间是否存在合作来定义节点间的连边；

2-3)企业特征之间的关系结构提取；

3)模型训练与调优模块

3-1)vcGCNN模型训练与调优：

构建一个两层的双向图卷积神经网络模型，并将特征提取部分构建的企业自身属性、属性之间的网络、样本之间的网络三类特征作为输入，以解决结构化数据和非结构化数据即关系数据的融合建模问题，最后通过池化的方法将所有的信息拼接起来，输入到一个前馈的神经网络模型中进行企业全特征的学习；

4)预测模块

通过输入待评估的企业的数据，并输入相关企业的合作事件，基于这些新样本的属性特征和网络结构特征，使用训练好的模型对其进行分类，解决企业标记不全、新企业进入后的预测和评估问题。

2.如权利要求1所述的头部企业识别方法，其特征在于，所述2-2)企业样本之间的关系结构提取中，具体如下：