CN112785156B

CN112785156B - 一种基于聚类与综合评价的产业领袖识别方法

Info

Publication number: CN112785156B
Application number: CN202110092184.9A
Authority: CN
Inventors: 罗家德; 杨虎
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-01-23
Filing date: 2021-01-23
Publication date: 2024-04-30
Anticipated expiration: 2041-01-23
Also published as: CN112785156A

Abstract

本发明公开了一种基于聚类与综合评价的产业领袖识别方法，包括有数据收集模块、指标体系构建模块、聚类与排序模块、结果输出模块。该方法构造出刻画企业经验、规模和业务关系的指标，形成评估企业的指标体系；并混合使用加权k‑means聚类算法和TOPSIS综合评价方法，在聚类的过程中能够自动估计各指标的权重，进而使用该权重计算企业的综合得分；最后对企业综合得分降序排序，输出产业领袖识别结果。本发明在识别产业领袖时兼顾企业基本信息、行为信息与企业之间的合作关系，能够更准确有效地识别出产业领袖。

Description

一种基于聚类与综合评价的产业领袖识别方法

技术领域

本发明属于信息技术领域，具体涉及一种基于聚类与综合评价的产业领袖识别方法。

背景技术

在任一产业中，声望高的企业，即产业领袖通常在市场中占据主导地位，它们在所在领域拥有相对较多的资源和丰富的经验，能够有效控制成本与风险、并有较高的绩效，识别产业领袖有助于企业寻求优质合作伙伴，同时还能帮助政府部门掌握产业市场结甚至人们可以从产业领袖的变化中探寻产业网络的演化规律。

从复杂网络分析的角度来看，识别产业领袖等同于找出产业网络中影响力较高的节点。常见的度量网络节点影响力的方法有网络中心度指标，但网络中心度通常只是从节点在网络中的某种位置关系来评价节点的重要性，因此针对不同的网络结构存在不同的中心度度量方法。由于网络中心度指标节点影响力的解释能力是有限的，因此基于单一网络中心度指标实现企业的排序会存在一定的偏误，造成排序不稳定。

发明内容

针对上述问题，本发明提出基于加权k-means算法和综合评价的排序方法，实现企业的聚类和排序，并识别产业领袖。在实现该方法的过程中，本发明拟解决的主要问题有：

1.构建识别产业领袖的指标体系

要实现基于加权k-means算法和综合评价的排序方法，并用于企业排序和产业领袖识别，需要充分利用企业之间的关系特征及其规模和经验相关的特征。如何从关系数据和描述企业业务体量和经验的结构化数据中提取相关的指标，并建立稳健的排序与聚类算法识别产业领袖，是本发明拟解决的关键问题。

2.无监督学习问题

目前产业研究中，企业的资质良莠不齐，其成立时间、市场威望、经营状况等存在明显差异，市场对企业的认知也有所不同。虽然通过调查问卷和专家打分能够构建一些训练样本，但是针对整个产业所有企业的调查费时费力。此外，随着时间的推移，产业市场结构也会改变。因此在无标记的情况下实现企业的排序，有助于帮助专家及产业掌握市场结构，为进一步的评估提供参考依据。因此本发明将借助基于加权k-means算法的综合评价排序方法解决无监督的学习问题。

3.新企业的排序与聚类

随着时间的推移，每年都会涌现出大量的新企业，如何合理地评估新企业的发展潜力，实现它们的发展潜力排序，是投资人及监管部门掌握产业动态的重要决策方法。因此本发明将收集新企业的信息及其行为数据，借助基于加权的k-means聚类算法和综合评价方法对其进行排序，从而评估这些企业的综合潜力。

本发明技术方案如下

根据企业之间的合作事件(例如：企业之间交易、投融资、项目合作等合作事件)及企业的合作行为，对某一行业中的企业进行聚类和排序，从而识别产业领袖。本发明的主要功能模块包括：数据收集模块、指标体系构建模块、聚类与排序模块，结果输出模块。具体如下：

1.数据收集模块

①数据爬取

首先，选取待评价的行业，确定信息来源，从信息来源网页中爬取企业信息，包括两类。一是企业基本信息，例如：企业的名称、成立的时间、所属行业等；二是企业的合作事件，例如：投融资事件、项目合作事件、买卖关系等。每一条合作事件都代表在某个时间节点，某个企业与其他企业的合作情况。

②数据库构建

为了保证数据的一致性和有效性，本发明将对爬取到的原始数据进行了汇总、重复值处理(主要指行重复和属性重复，处理方法为删除)、缺失值处理(在建模前，对缺失过多的属性进行删除，对缺失较少的属性进行常值填补或模型填补)、数据类型统一化等操作，并将处理好的数据导入数据库，最终建立企业基本信息和合作事件数据库。

③数据监听

数据监听模块将实时对数据进行监听，旨在实时更新企业信息，例如：一旦企业信息发生改变，将更新企业信息，并实时更新行业中新成立的企业列表。同时，实时更新企业合作信息，一旦企业之间有新的合作关系，将触发数据爬取模块工作，实时爬取相关数据并更新数据库。

2.评价指标构建模块

评级指标构建模块将根据企业基本信息和合作事件数据库，构建企业基本信息、企业合作行为和企业合作网络等三类指标。其中，合作的企业数量(NoC)，它表明了企业是否有足够的资产和资源进行合作。如果企业的NoC较高，说明其资产更多，整合资源能力强，可以进行较大规模的交易。因此，该指标是识别产业领袖的好变量。同样，合作总额(TNC)，企业合作涉及的行业数量(NoI)，国家数量(NoCoun)、省份数量(NoPR)等指标充分描述了企业的规模和经验。

同时，本发明还通过企业之间的合作关系，提取刻画企业社会关系的指标，用来刻画企业在产业网络中的地位，这些指标包括：度中心度(DC)、接近中心度(CC)、核心度(KC)、特征向量中心度(EC)HITs值(HITs)和PageRank指标(PR)。为了说明这些指标的来源，下面介绍产业网络的两个定义。

定义1.无向合作网络G^u＝(v^u,E^u)，v^u＝{v₁,v₂,…,v_n}是节点的集合，表示一组企业，是企业之间的连边的集合，表示企业之间的合作关系。对于每条连边e_ij∈E^u，满足条件：/>E^U是对称矩阵，即e_ij＝e_ji，其中/>

设tⁱ和t^j分别为第i家企业和第j家企业开展合作的时间戳，如果第i家企业开始合作早于第j家企业，则I_ij(tⁱ≤t^j)＝1；如果合作发生在同一时间，则：I_ij(tⁱ＝t^j)＝I_ji(tⁱ＝t^j)＝1。

定义2.有向合作网络：G^D＝(v^D,E^D)，E^D是非对称矩阵，即对于i,j＝1，2，...，n，e_ij可能不等于e_ji，当且仅当第i家企业和第j家在同一地点和同一时间开展合作，则e_ij＝e_ji。

根据无向图和有向图的定义，可以计算企业的中心度指标，其中度中心度(DC)、接近中心度(CC)、核心度(KC)、特征向量中心度(EC)和HITs值是依据无向图计算得到的，而PageRank指标(PR)则是基于有向图计算得到的。

3.聚类和排名模块

第一步，聚类、估计指标权重。

本发明采用加权k-means聚类算法来计算指标的权重。该方法根据企业的规模、经验指标和合作网络指标实现企业的分类，在分类的过程中估计每个指标的重要性，从而确定哪些指标对聚类划分更重要。该算法既保留了k-means算法的聚类特性，又能够克服k-means算法在每个指标上赋权相同的缺点，为不同的指标赋不同权重。假设w_j为特征j的权重，定义观测值i与观测值i′在特征j的距离为：d_i,i′,j＝(x_ij-x_i′j)²，其中i,i′＝1,2,…,n且i≠i′。若K是聚类个数，U是样本被分配到第k类的标识，那么定义加权的聚类算法，如下：

s.t.||w||₁<s₁,||w||₂≤1

其中为LASSO惩罚，用来控制参数的个数，/> 为二范数约束，用来控制权重的大小。/>是特征j在所有样本的平方和的均值，用来衡量了所有观测值的变异性，/>是聚类组内样本在特征j的平方和，用来衡量每个聚类内观测值之间的紧致程度。令/> 其中j＝1,2,…,p，那么我们的目标是使上述目标函数最大化，从而估计指标的权重。权重的计算方法是

其中，S(x,c)为软间隔函数，S(x,c)＝sign(x)(|x|-c)₊。根据公式(2)，如果指标j有助于算法将聚类与其他聚类区分开来，那么w_j就应该有较大的值。

在聚类的过程中，需要确定的参数包括聚类个数及超参数。本发明根据社会学原理来确定聚类个数为4到8个，利用肘点法来确定参数的个数。同时通过最大化gap统计量来确定最佳的超参数，即算法中的s₁，约束值的上界。

第二步，计算综合得分。

本发明借助综合评价方法TOPSIS(Technique for Order of Preference bySimilarity to Ideal Solution)来计算企业的综合得分。TOPSIS是一种综合评价方法，它的本质是定义正、负理想解，然后利用欧氏距离来计算其他样本与理想解之间的贴近程度，并获得排名指数，对算法中的样本进行排名。在我们的研究中，企业的指标值越大，说明其合作机会更多、经营规模更大和经验更丰富，该企业更有可能是领投。这类似于TOPSIS算法中理想解的定义。因此，我们将TOPSIS简化为加权综合得分，定义为：

其中，w_j是由加权k-means算法估计的指标权重。

第三步：对企业进行聚类并依据综合得分排序，结果输出。

对企业按综合得分降序排序后，可以通过肘方法或选出M个综合得分高的企业(top-M)来确定产业领袖。这种方法被称为聚类并识别产业领袖。此外，基于企业的相似性，产业领袖可能会被划分到相同的聚类。根据企业聚类的平均综合得分，我们可以对这些聚类或群体进行排序，绘制它们的平均得分图，并在这个图中找到肘点。肘点左侧的产业领袖聚类的平均综合得分明显大于肘点右侧的其他聚类。这是另一种识别产业领袖的方法，称为聚类识别产业领袖集群。最后我们通过肘方法^[7]识别综合得分高的企业聚类，识别排名前M(Top-M)的企业作为产业领袖，并输出结果。

有益效果

与传统评价方法不同，本发明基于大数据，构造刻画企业经验、规模和业务关系的指标，形成评估企业的指标体系。该指标体系能够较好的测量反映企业声望市场地位，并识别产业领袖。

本发明基于半监督学习方法，混合了聚类和综合评价方法的优势，不仅能够对企业聚类，还能够实现企业的排序。本方法能够在聚类的过程中自动估计各指标的权重，从而用该权重构造企业的综合得分，最终用于产业领袖识别。

附图说明

1.图1为产业领袖聚类与排序系统；

2.图2为数据收集模块流程图；

3.图3为指标体系构建示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实例仅仅用以解释本发明，并不用于限定本发明。

以中国风险投资市场上，风险投资公司之间的联合投资事件为例，对中国风险投资行业中的风险投资公司进行聚类和排序，从而识别风投领袖。本发明的主要功能模块包括：数据收集模块、指标体系构建模块、聚类与排序模块，结果输出模块，见附图1。具体实施步骤描述如下：

步骤一：从互联网上收集数据，建立风险投资公司投资事件数据库，并保持数据更新。收集的数据包括风投公司基本信息以及风投的投资事件，其中每一条投资事件都代表某个风投公司在某个时间节点投资了某家企业。设置数据监听，以一定的周期抓取新数据，更新数据库。数据收集流程见附图2。

步骤二：构建企业基本信息、合作行为和合作网络三类指标，见附图3。

首先从描述风险投资公司基本信息的数据中提取出描述风投基本信息和投资行为的九个特征指标，分别为风险投资公司投资公司数(NoC)，投资总次数(TNI)，投资领域数(NoI)，投资时期数(NoP)，投资国家数(NoCoun)，投资省份数(NoPR)，初始期投资数(NoSI)，扩张期投资数(NoSE)和种子期投资数(NoSS)。

其次根据风投之间的联合投资关系，构建风投联合投资网，提取描述风投在联合投资网络中重要性程度的六个中心度指标，分别为度中心度(DC)、接近中心度(CC)、核心度(KC)、特征向量中心度(EC)HITs值(HITs)和PageRank指标(PR)。其中度中心度(DC)、接近中心度(CC)、核心度(KC)、特征向量中心度(EC)和HITs值是依据无向图计算得到的，而PageRank指标(PR)则是基于有向图计算得到的。

步骤三：使用加权k-means聚类算法来计算各个指标的权重。为以上十五个不同的指标(特征)赋不同权重。假设w_j为特征j的权重，定义观测值i与观测值i′在特征j的距离为：d_i,i′,j＝(x_ij-x_i′j)²，其中i,i′＝1,2,…,n且i≠i′。若K是聚类个数，U是样本被分配到第k类的标识，那么定义加权的聚类算法，如下：

s.t.||w||₁<s₁,||w||₂≤1

在聚类的过程中，需要确定的参数包括聚类个数及超参数。本实施例根据社会学原理来确定聚类个数为4到8个，利用肘点法来确定聚类的个数，最终设定聚类个数为五个。同时通过最大化gap统计量来确定最佳的超参数，即算法中的s₁，约束值的上界。

步骤四：使用TOPSIS计算风投的综合得分。我们将TOPSIS简化为加权综合得分，定义为：

其中，w_j是由加权k-means算法估计的指标权重。

步骤五：依据综合得分排序，从高分到低分输出风投排序结果。按风投综合得分降序排序后，可以通过肘方法或选出M个综合得分高的企业来确定风投领袖，例如选出top-50，即排名前50名的风投作为风投领袖。这种方法被称为聚类并识别风投领袖。此外，基于企业的相似性，风投领袖可能会被划分到相同的聚类。根据企业聚类的平均综合得分，我们可以对这些聚类或群体进行排序，绘制它们的平均得分图，找出图中找到肘点。肘点左侧的风投领袖聚类的平均综合得分明显大于肘点右侧的其他聚类。这是另一种识别产业领袖的方法，称为聚类识别风投领袖集群。最后我们通过肘方法识别综合得分高的聚类，识别排名前M的风投作为风投领袖，并输出结果。

Claims

1.一种基于聚类与综合评价的产业领袖识别方法，其特征在于，包括数据收集模块、指标体系构建模块、排序与聚类模块、结果输出模块，具体流程如下：

1)数据收集模块

1-1)数据爬取

首先，选取待评价的行业，确定信息来源，从信息来源网页中爬取企业信息，包括两类：一是企业基本信息，二是企业的合作事件，每一条合作事件都代表在某个时间节点，某个企业与其他企业的合作情况；

1-2)数据库构建

对爬取到的原始数据进行汇总、重复值处理、缺失值处理、数据类型统一化操作，并将处理好的数据导入数据库，最终建立企业基本信息和合作事件数据库；所述企业包括风险投资公司，所述合作事件包括风险投资事件；

1-3)数据更新

数据更新模块将实时采集数据，旨在企业信息发生改变时，更新企业信息，同时实时更新行业中新成立的企业列表；同时，系统将同步更新企业合作信息，一旦企业之间有新的合作关系，将触发数据爬取模块工作，实时获取相关数据并更新数据库；

2)指标体系构建模块

指标体系构建模块将根据企业基本信息和合作事件数据库，构建企业基本信息、企业合作行为和企业合作网络三类指标；其中，合作的企业数量NoC，它表明了企业是否有资产和资源进行合作；同样，包括企业的规模和经验的指标还有：合作总额TNC，企业合作涉及的行业数量NoI，国家数量NoCoun、省份数量NoPR；

同时，通过企业之间的合作关系，提取刻画企业社会关系的指标，用来刻画企业在产业网络中的地位，这些指标包括：中心度DC、接近中心度CC、核心度KC、特征向量中心度EC，HITs值，以及PageRank指标PR；

3)排序与聚类模块

第一步，聚类、估计指标权重

采用加权k-means聚类算法来计算指标的权重，根据企业的规模、经验指标和合作网络指标实现企业的分类；

第二步，计算综合得分；

第三步：对企业进行聚类并依据综合得分排序，结果输出；

所述2)指标体系构建模块中的三类指标基于产业网络的以下定义：

定义1.无向合作网络G^u＝(v^u,E^u)，v^u＝(v₁,v₂,…,v_n)是节点的集合，即待评价企业，是企业之间的连边的集合，即企业之间的合作关系；对于每条连边e_ij∈E^u，满足条件：/>即e_ij＝e_ji，E^U是对称矩阵，其中/>I_ij(t)表示t时刻第i个节点和第j个节点是否有合作，如果有合作就是1，否则就是0；T是总时间；n是节点数即待评价企业的数量；

设t_i和t_j分别为第i家企业和第j家企业投资同一项目的时间戳，如果第i家企业早于第j家企业投资该项目，则I_ij(t_i≤t_j)＝1；如果它们同时投资该项目，则：I_ij(t_i＝t_j)＝I_ji(t_j＝t_i)＝1；因此，定义有向合作网络；

定义2.有向合作网络G^D＝(v^D,E^D)，v^D＝(v₁,v₂,…,v_n)是节点的集合，即待评价企业，是企业之间的连边的集合，即企业之间的合作关系；对于每条连边e_ij∈E^D，满足条件：/>E^D是非对称矩阵；

根据无向网络和有向网络的定义来计算企业的中心度指标，其中，根据无向合作网络G^u计算中心度DC、接近中心度CC、核心度KC、特征向量中心度EC和HITs值，这些指标表示待评估企业在无向网络中的重要性，根据有向合作网络G^D则计算PageRank指标PR，该指标表示待评估企业在有向网络中的重要性；

所述3)排序与聚类模块第一步中，采用加权k-means聚类算法来计算指标的权重，具体如下：

假设w_j为特征j的权重，定义样本i与样本i′在特征j的距离为：d_i,i′,j＝(x_ij-x_i′j)²，其中x_ij和x_i′j分别是样本i与样本i′的第j特征，i,i′＝1,2,…,n，且i≠i′，n是节点数即待评价企业的数量；j＝1,2,…,m；m是特征的数量，若K是聚类个数，C＝(C₁,C₂,…,C_K)是K个聚类中心,聚类中心C_k是样本的集合，那么定义加权的聚类算法，目标函数定义如下：

约束条件为：且∑/>其中s为超参数，是一个常数，取值范围为(1,+∞)，/>为LASSO惩罚，用来控制参数的个数,/>为二范数约束，用来控制权重的大小；

令通过解带约束条件的目标函数(1)，解得聚类中心C，以及权重w_j，由下面的公式来计算：

其中S(a_j,λ₁)是软间隔函数，定义为

2.如权利要求1所述的产业领袖识别方法，其特征在于，所述3)排序与聚类模块第二步计算综合得分，具体如下：

借助TOPSIS方法计算企业i的综合得分CS_i，该得分为加权综合得分，定义为：

其中y_ij是x_ij标准化的结果且

3.如权利要求1所述的产业领袖识别方法，其特征在于，所述3)排序与聚类模块第三步，对企业按综合得分降序排序后，通过肘点方法选出M个综合得分高的企业top-M来确定产业领袖；基于企业的相似性，产业领袖会被划分到相同的聚类；根据企业聚类的平均综合得分，对这些聚类或群体进行排序，绘制它们的平均得分图，并在这个图中找到肘点；肘点左侧的产业领袖聚类的平均综合得分明显大于肘点右侧的其他聚类；通过肘方法识别综合得分高的企业聚类，识别排名前M即Top-M的企业作为产业领袖，并输出结果。