CN107103403A

CN107103403A - 一种用cio/cto社交网络预测科技公司业绩的方法

Info

Publication number: CN107103403A
Application number: CN201710128333.6A
Authority: CN
Inventors: 饶东宁; 温远丽
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-03-06
Filing date: 2017-03-06
Publication date: 2017-08-29

Abstract

本发明提供一种用CIO/CTO社交网络预测科技公司业绩的方法，主要包括如下模块：(1)数据的收集，收集标准普尔股份公司数据，BoardEx数据等。(2)原始数据预处理，对于收集到的公司数据进行处理。(3)加权中心性算法，考虑多种中心度的共同影响，提出加权中心度算法，用加权中心度替代单一中心度的方法。(4)评估CIO/CTO价值的方法，用中心度评估CIO/CTO价值，分析CIO/CTO的网络中心性。(5)算法并行化，利用Spark集群并行计算的能力，提高处理数据的效率。(6)数据分析，用加权中心度价值评估分析公司效益的方法，采用Probit回归分析以及OLS模型。本发明利用加权中心度预测公司绩效，从而解决只考虑单一的度量标准对复杂社交网络的不足等研究。

Description

一种用CIO/CTO社交网络预测科技公司业绩的方法

技术领域

本发明涉及数据挖掘、机器学习、人工智能等领域，特别涉及到了CIO/CTO网络中心度影响企业绩效。

背景技术

社会网络是人们通过各种关系建立起来的联系，并通过成员之间的交互作用形成的一种网络化结构。社交网络为人们建立和维持各种社会关系提供了便利。人际关系为信息交流提供一个有效的渠道,让知识、想法、或私人信息更好的传播。社会网络研究最先使用这一方法，用中心性指标对节点重要性进行量化。在这里，节点的重要性可以理解为该节点对其它节点或整个网络的影响。中心度是指采用定量方法对每个节点处于网络中心地位的程度进行刻画，从而描述整个网络是否存在核心，存在什么样的核心。此类应用属于数据挖掘范畴。

公司或企业的中心人物对公司的影响颇大。国内外已有众多对社交网络和中心度算法的研究。但是以往的中心度算法，只考虑单一的度量标准，没有考虑多种中心度的共同影响。这种考虑在某些时候是不全面的。由于权值可以显示出网络中节点的重要性，因此加权网络结构是非常实用的。其次，数据量大需要在大规模的网络中进行模拟。所以难以满足对求解效率的要求。基于这些问题，本发明从以下两方面着手，首先考虑各种中心度的共同影响，提出加权中心度算法，用以刻画社交网络的中心性，力求更全面地、更完善地对比分析不同文化环境下的网络中心性影响科技公司绩效。同时利用Spark集群并行计算的能力，在多台机器上同时处理数据，这样处理数据的效率将大大提高。

发明内容

本发明主要研究社会网络与公司业绩的关系，提出社交网络中心度的思想，通过高网络中心度的CIO/CTO预测公司业绩。这将对金融智能、中心性分析、数据分类、兴趣推荐等方面的研究都有重要的现实意义。

本发明的目的通过下述技术方案实现：

(1)数据的收集，收集标准普尔股份公司数据，BoardEx数据等。

(2)原始数据预处理，对于收集到的公司股票数据进行处理，筛选标准普尔500指数公司。剔除数据库中不完整的样本。

(3)加权中心性算法，考虑各种中心度的共同影响，提出加权中心度算法，用加权中心度替代单一中心度的方法。本发明主要对度中心度(Degree Centrality)、三角计数(Trangle Counting)、PageRank、接近中心度(Closeness Centrality)和介数中心度(Betweenness Centrality)进行加权。

(4)评估CIO/CTO价值的方法，用中心度评估CIO/CTO价值，分析CIO/CTO的网络中心性。

(5)算法并行化，利用Spark集群并行计算的能力，在多台机器上同时处理数据，这样处理数据的效率将大大提高，而且伴随集群节点数量的增加，计算速度也会相应的加快。

(6)数据分析，用加权中心度价值评估分析公司效益的方法，采用Probit回归分析以及OLS模型。

本发明相对于现有技术具有如下的优点及效果：

以往的中心度算法，只考虑单一的度量标准，没有考虑多种中心度的共同影响。这种考虑在某些时候是不全面的，没有考虑网络规模。由于权值可以显示出网络中节点的重要性，因此加权网络结构是非常实用的。本发明考虑各种中心度的共同影响，提出加权中心度算法，用以刻画社交网络的中心性。通过中心度评估CIO/CTO价值的方法，并且利用上述价值评估作用进而分析科技公司业绩的方法。

附图说明

图1一种用CIO/CTO社交网络预测科技公司业绩的方法的框架图。

图2为计算PageRank的流程图。

图3为计算Trangle Counting的流程图。

图4为计算Degree Centrality的流程图。

图5为计算Closeness Centrality的流程图。

图6为计算Betweenness Centrality的流程图。

具体实施方式

下面结合附图1对本发明做进一步的说明。本发明针对数据收集、数据处理、加权中心性、评估CIO/CTO价值的方法、算法并行化、数据分析六个方面进行研究。图1为我们的系统设计，下面分别叙述每个步骤的具体内容：

1.数据收集

该步骤主要收集在某个时间段内,标准普尔公司数据，BoardEx数据和金融数据。

2.原始数据处理

使用金融软件筛选出标准普尔500指数覆盖的所有公司,对于BoardEx数据将导入Mysql数据库筛选需要的属性。

3.加权中心性

PageRank是Google专有的算法，如图2所示，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。PageRank的定义为：其中N表示网络中网页总数，q表示阻尼因子，通常设为0.85，q即按照超链接进行浏览的概率，1-q表示随机跳转一个新网页的概率，PageRank(p_j)表示网页的PageRank值，L(p_j)表示(p_j)的链出网页数。三角计数(triangle counting)在社交网络分析中是非常有用的。假如在公司里面，你认识两个人，而这两个人相互认识，那么这就可以组成一个三角形，如图3所示。如图4所示，度中心度(Degree Centrality)测量网络中一个节点与所有其它节点相联系的程度，是最基本的中心性度量。对于一个拥有g个节点的无向图，节点i的中心度是i与其它g-1个节点的直接联系总数，用公式表示：其中，C_D(N_i)表示节点i的中心度，用于计算节点i与其它g-1个节点j(i≠j，即排除i与自身的联系)之间的直接联系的数量。简单地说，C_D(N_i)的计算将节点i在网络矩阵中对应的行或列所在的单元格值累加。如图5所示，接近中心度(Closeness Centrality)描述网络节点间在最短路径上的距离，它利用计算节点v_i与其他节点v_j的最短距离之和的倒数来描述度量指标。公式为其中，g(v_i,v_j)是v_i与v_j的最短路径距离。如图6所示，介数中心度(Betweenness Centrality)表示社会网络中经过某节点的最短路径的比例。公式为：其中，δ_st(v)表示从s到t的最短路径中经过结点v的路径数量，δ_st表示从s到t的最短路径数。根据以上中心度，可以构建以下线性加权中心度式子：

其中CW表示线性加权中心度函数的基本形式，α₁、α₂、α₃、α₄、α₅分别表示PageRank、三角计数(Triangle Counting)、度中心度(Degree Centrality)、接近中心度(ClosenessCentrality)、介数中心度(Betweenness Centrality)的中心度的权值。Pagerank值表示人脉的重要程度；三角计数(Triangle Counting)表示小圈子的个数；度中心性(DegreeCentrality)表示认识人的总数，接近中心度(Closeness Centrality)表示很容易与其他人联系，介数中心度(Betweenness Centrality)表示人作为“桥梁”的重要程度。

4.评估CIO/CTO价值的方法，用中心度评估CIO/CTO价值，分析加权中心性的CIO/CTO的网络中心性。

5.算法并行化

Spark是整个BDAS(伯克利数据分析栈)的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集(RDD)，实现了应用任务调度、RPC、序列化和压缩。

6.数据分析

分析高中心度CIO/CTO社会网络属性对经济效益的影响。我们在分析这块，为了检验高中心性CIO/CTO对收购可能性的影响，我们可以分析一个多元Probit模型。确定的财务特征的公司水平差异。公式如下：

Prob(Deal＝1|X_i,t)＝β_t+λ₁Centrality_t-1

+λ₂Tobin'sQ_t-1+λ₃Liquidty_t-1

+λ₄Profitablity_t-1+λ₅Firm Size_t-1

+λ₆Leverage_t-1

其中Deal＝1是交易成功，Centrality是中心度，Tobin’s Q是是企业的市场价值与资本重置成本之比，Liquidity是经营性现金流对总资产的比率，Profitability是总资产的收益利，Firm Size是公司规模大小，Leverage是短期和长期债务的账面价值与总资产的比率。为了调查投标人中心性是否影响投标人获取资本充足率，我们可以估计以下OLS模型在收购者董事会中心性，同时控制企业和交易特性。公式如下:

其中Deal Value是交易价值，Same Industry是同一个行业，Stock Deal是股票交易。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种用CIO/CTO社交网络预测公司业绩的方法，包括如下模块：原始文本预处理模块、加权中心度；该方法包括如下步骤：

(1)原始数据预处理，对收集到的社交网络信息以及公司金融信息进行处理；

(2)加权中心度；

(3)评估CIO/CTO价值的方法。

2.根据权利要求1所述的一种用CIO/CTO社交网络预测公司业绩的方法，其特征在于：所述步骤(1)，还包括如下步骤：

(2-1)对于社交网络数据和金融数据使用Mysql筛选出标准普尔500指数覆盖的所有公司。

3.根据权利要求1所述的一种用CIO/CTO社交网络预测公司业绩的方法，其特征在于：所述步骤(2)具体为：构建以下线性加权中心度式子：其中CW表示线性加权中心度函数的基本形式，α₁、α₂、α₃、α₄、α₅分别表示PageRank、三角计数(Triangle Counting)、度中心度(Degree Centrality)、接近中心度(ClosenessCentrality)、介数中心度(Betweenness Centrality)的中心度的权值；其中，PageRank值表示人脉的重要程度；三角计数(triangle counting)表示小圈子的个数；度中心性(Degree Centrality)表示认识人的总数，接近中心度(Closeness Centrality)表示很容易与其他人联系，介数中心度(Betweenness Centrality)表示人作为“桥梁”的重要程度。

4.根据权利要求3所述的一种用CIO/CTO社交网络预测公司业绩的方法，其特征在于：PageRank算法用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度；PageRank的定义为：其中N表示网络中网页总数，q表示阻尼因子，通常设为0.85，q即按照超链接进行浏览的概率，1-q表示随机跳转一个新网页的概率，PageRank(p_j)表示网页的PageRank值，L(p_j)表示(p_j)的链出网页数。

5.根据权利要求3所述的一种用CIO/CTO社交网络预测公司业绩的方法，其特征在于：度中心度(Degree Centrality)测量网络中一个节点与所有其它节点相联系的程度，是最基本的中心性度量，对于一个拥有g个节点的无向图，节点i的中心度是i与其它g-1个节点的直接联系总数，用公式表示：其中，C_D(N_i)表示节点i的中心度，用于计算节点i与其它g-1个节点j(i≠j，即排除i与自身的联系)之间的直接联系的数量。简单地说，C_D(N_i)的计算将节点i在网络矩阵中对应的行或列所在的单元格值累加。

6.根据权利要求3所述的一种用CIO/CTO社交网络预测公司业绩的方法，其特征在于：接近中心度(Closeness Centrality)描述网络节点间在最短路径上的距离，它利用计算节点v_i与其他节点v_j的最短距离之和的倒数来描述度量指标，公式为其中，g(v_i,v_j)是v_i与v_j的最短路径距离。

7.根据权利要求3所述的一种用CIO/CTO社交网络预测公司业绩的方法，其特征在于：介数中心度(Betweenness Centrality)表示社会网络中经过某节点的最短路径的比例；公式为：其中，δ_st(v)表示从s到t的最短路径中经过结点v的路径数量，δ_st表示从s到t的最短路径数。

8.根据权利要求1所述的一种用CIO/CTO社交网络预测公司业绩的方法，其特征在于所述步骤(3)中，还包括如下步骤：

(4-1)评估CIO/CTO价值的方法，用中心度评估CIO/CTO价值，分析加权中心度的CIO/CTO的网络中心性。