CN107103403A - 一种用cio/cto社交网络预测科技公司业绩的方法 - Google Patents
一种用cio/cto社交网络预测科技公司业绩的方法 Download PDFInfo
- Publication number
- CN107103403A CN107103403A CN201710128333.6A CN201710128333A CN107103403A CN 107103403 A CN107103403 A CN 107103403A CN 201710128333 A CN201710128333 A CN 201710128333A CN 107103403 A CN107103403 A CN 107103403A
- Authority
- CN
- China
- Prior art keywords
- cto
- cio
- centrad
- centrality
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000005259 measurement Methods 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 2
- 230000007717 exclusion Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 7
- 238000007405 data analysis Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000009916 joint effect Effects 0.000 abstract description 4
- 230000007812 deficiency Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 235000007926 Craterellus fallax Nutrition 0.000 description 1
- 240000007175 Datura inoxia Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种用CIO/CTO社交网络预测科技公司业绩的方法,主要包括如下模块:(1)数据的收集,收集标准普尔股份公司数据,BoardEx数据等。(2)原始数据预处理,对于收集到的公司数据进行处理。(3)加权中心性算法,考虑多种中心度的共同影响,提出加权中心度算法,用加权中心度替代单一中心度的方法。(4)评估CIO/CTO价值的方法,用中心度评估CIO/CTO价值,分析CIO/CTO的网络中心性。(5)算法并行化,利用Spark集群并行计算的能力,提高处理数据的效率。(6)数据分析,用加权中心度价值评估分析公司效益的方法,采用Probit回归分析以及OLS模型。本发明利用加权中心度预测公司绩效,从而解决只考虑单一的度量标准对复杂社交网络的不足等研究。
Description
技术领域
本发明涉及数据挖掘、机器学习、人工智能等领域,特别涉及到了CIO/CTO网络中心度影响企业绩效。
背景技术
社会网络是人们通过各种关系建立起来的联系,并通过成员之间的交互作用形成的一种网络化结构。社交网络为人们建立和维持各种社会关系提供了便利。人际关系为信息交流提供一个有效的渠道,让知识、想法、或私人信息更好的传播。社会网络研究最先使用这一方法,用中心性指标对节点重要性进行量化。在这里,节点的重要性可以理解为该节点对其它节点或整个网络的影响。中心度是指采用定量方法对每个节点处于网络中心地位的程度进行刻画,从而描述整个网络是否存在核心,存在什么样的核心。此类应用属于数据挖掘范畴。
公司或企业的中心人物对公司的影响颇大。国内外已有众多对社交网络和中心度算法的研究。但是以往的中心度算法,只考虑单一的度量标准,没有考虑多种中心度的共同影响。这种考虑在某些时候是不全面的。由于权值可以显示出网络中节点的重要性,因此加权网络结构是非常实用的。其次,数据量大需要在大规模的网络中进行模拟。所以难以满足对求解效率的要求。基于这些问题,本发明从以下两方面着手,首先考虑各种中心度的共同影响,提出加权中心度算法,用以刻画社交网络的中心性,力求更全面地、更完善地对比分析不同文化环境下的网络中心性影响科技公司绩效。同时利用Spark集群并行计算的能力,在多台机器上同时处理数据,这样处理数据的效率将大大提高。
发明内容
本发明主要研究社会网络与公司业绩的关系,提出社交网络中心度的思想,通过高网络中心度的CIO/CTO预测公司业绩。这将对金融智能、中心性分析、数据分类、兴趣推荐等方面的研究都有重要的现实意义。
本发明的目的通过下述技术方案实现:
(1)数据的收集,收集标准普尔股份公司数据,BoardEx数据等。
(2)原始数据预处理,对于收集到的公司股票数据进行处理,筛选标准普尔500指数公司。剔除数据库中不完整的样本。
(3)加权中心性算法,考虑各种中心度的共同影响,提出加权中心度算法,用加权中心度替代单一中心度的方法。本发明主要对度中心度(Degree Centrality)、三角计数(Trangle Counting)、PageRank、接近中心度(Closeness Centrality)和介数中心度(Betweenness Centrality)进行加权。
(4)评估CIO/CTO价值的方法,用中心度评估CIO/CTO价值,分析CIO/CTO的网络中心性。
(5)算法并行化,利用Spark集群并行计算的能力,在多台机器上同时处理数据,这样处理数据的效率将大大提高,而且伴随集群节点数量的增加,计算速度也会相应的加快。
(6)数据分析,用加权中心度价值评估分析公司效益的方法,采用Probit回归分析以及OLS模型。
本发明相对于现有技术具有如下的优点及效果:
以往的中心度算法,只考虑单一的度量标准,没有考虑多种中心度的共同影响。这种考虑在某些时候是不全面的,没有考虑网络规模。由于权值可以显示出网络中节点的重要性,因此加权网络结构是非常实用的。本发明考虑各种中心度的共同影响,提出加权中心度算法,用以刻画社交网络的中心性。通过中心度评估CIO/CTO价值的方法,并且利用上述价值评估作用进而分析科技公司业绩的方法。
附图说明
图1一种用CIO/CTO社交网络预测科技公司业绩的方法的框架图。
图2为计算PageRank的流程图。
图3为计算Trangle Counting的流程图。
图4为计算Degree Centrality的流程图。
图5为计算Closeness Centrality的流程图。
图6为计算Betweenness Centrality的流程图。
具体实施方式
下面结合附图1对本发明做进一步的说明。本发明针对数据收集、数据处理、加权中心性、评估CIO/CTO价值的方法、算法并行化、数据分析六个方面进行研究。图1为我们的系统设计,下面分别叙述每个步骤的具体内容:
1.数据收集
该步骤主要收集在某个时间段内,标准普尔公司数据,BoardEx数据和金融数据。
2.原始数据处理
使用金融软件筛选出标准普尔500指数覆盖的所有公司,对于BoardEx数据将导入Mysql数据库筛选需要的属性。
3.加权中心性
PageRank是Google专有的算法,如图2所示,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。PageRank的定义为:其中N表示网络中网页总数,q表示阻尼因子,通常设为0.85,q即按照超链接进行浏览的概率,1-q表示随机跳转一个新网页的概率,PageRank(pj)表示网页的PageRank值,L(pj)表示(pj)的链出网页数。三角计数(triangle counting)在社交网络分析中是非常有用的。假如在公司里面,你认识两个人,而这两个人相互认识,那么这就可以组成一个三角形,如图3所示。如图4所示,度中心度(Degree Centrality)测量网络中一个节点与所有其它节点相联系的程度,是最基本的中心性度量。对于一个拥有g个节点的无向图,节点i的中心度是i与其它g-1个节点的直接联系总数,用公式表示:其中,CD(Ni)表示节点i的中心度,用于计算节点i与其它g-1个节点j(i≠j,即排除i与自身的联系)之间的直接联系的数量。简单地说,CD(Ni)的计算将节点i在网络矩阵中对应的行或列所在的单元格值累加。如图5所示,接近中心度(Closeness Centrality)描述网络节点间在最短路径上的距离,它利用计算节点vi与其他节点vj的最短距离之和的倒数来描述度量指标。公式为其中,g(vi,vj)是vi与vj的最短路径距离。如图6所示,介数中心度(Betweenness Centrality)表示社会网络中经过某节点的最短路径的比例。公式为:其中,δst(v)表示从s到t的最短路径中经过结点v的路径数量,δst表示从s到t的最短路径数。根据以上中心度,可以构建以下线性加权中心度式子:
其中CW表示线性加权中心度函数的基本形式,α1、α2、α3、α4、α5分别表示PageRank、三角计数(Triangle Counting)、度中心度(Degree Centrality)、接近中心度(ClosenessCentrality)、介数中心度(Betweenness Centrality)的中心度的权值。Pagerank值表示人脉的重要程度;三角计数(Triangle Counting)表示小圈子的个数;度中心性(DegreeCentrality)表示认识人的总数,接近中心度(Closeness Centrality)表示很容易与其他人联系,介数中心度(Betweenness Centrality)表示人作为“桥梁”的重要程度。
4.评估CIO/CTO价值的方法,用中心度评估CIO/CTO价值,分析加权中心性的CIO/CTO的网络中心性。
5.算法并行化
Spark是整个BDAS(伯克利数据分析栈)的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩。
6.数据分析
分析高中心度CIO/CTO社会网络属性对经济效益的影响。我们在分析这块,为了检验高中心性CIO/CTO对收购可能性的影响,我们可以分析一个多元Probit模型。确定的财务特征的公司水平差异。公式如下:
Prob(Deal=1|Xi,t)=βt+λ1Centralityt-1
+λ2Tobin'sQt-1+λ3Liquidtyt-1
+λ4Profitablityt-1+λ5Firm Sizet-1
+λ6Leveraget-1
其中Deal=1是交易成功,Centrality是中心度,Tobin’s Q是是企业的市场价值与资本重置成本之比,Liquidity是经营性现金流对总资产的比率,Profitability是总资产的收益利,Firm Size是公司规模大小,Leverage是短期和长期债务的账面价值与总资产的比率。为了调查投标人中心性是否影响投标人获取资本充足率,我们可以估计以下OLS模型在收购者董事会中心性,同时控制企业和交易特性。公式如下:
其中Deal Value是交易价值,Same Industry是同一个行业,Stock Deal是股票交易。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种用CIO/CTO社交网络预测公司业绩的方法,包括如下模块:原始文本预处理模块、加权中心度;该方法包括如下步骤:
(1)原始数据预处理,对收集到的社交网络信息以及公司金融信息进行处理;
(2)加权中心度;
(3)评估CIO/CTO价值的方法。
2.根据权利要求1所述的一种用CIO/CTO社交网络预测公司业绩的方法,其特征在于:所述步骤(1),还包括如下步骤:
(2-1)对于社交网络数据和金融数据使用Mysql筛选出标准普尔500指数覆盖的所有公司。
3.根据权利要求1所述的一种用CIO/CTO社交网络预测公司业绩的方法,其特征在于:所述步骤(2)具体为:构建以下线性加权中心度式子:其中CW表示线性加权中心度函数的基本形式,α1、α2、α3、α4、α5分别表示PageRank、三角计数(Triangle Counting)、度中心度(Degree Centrality)、接近中心度(ClosenessCentrality)、介数中心度(Betweenness Centrality)的中心度的权值;其中,PageRank值表示人脉的重要程度;三角计数(triangle counting)表示小圈子的个数;度中心性(Degree Centrality)表示认识人的总数,接近中心度(Closeness Centrality)表示很容易与其他人联系,介数中心度(Betweenness Centrality)表示人作为“桥梁”的重要程度。
4.根据权利要求3所述的一种用CIO/CTO社交网络预测公司业绩的方法,其特征在于:PageRank算法用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度;PageRank的定义为:其中N表示网络中网页总数,q表示阻尼因子,通常设为0.85,q即按照超链接进行浏览的概率,1-q表示随机跳转一个新网页的概率,PageRank(pj)表示网页的PageRank值,L(pj)表示(pj)的链出网页数。
5.根据权利要求3所述的一种用CIO/CTO社交网络预测公司业绩的方法,其特征在于:度中心度(Degree Centrality)测量网络中一个节点与所有其它节点相联系的程度,是最基本的中心性度量,对于一个拥有g个节点的无向图,节点i的中心度是i与其它g-1个节点的直接联系总数,用公式表示:其中,CD(Ni)表示节点i的中心度,用于计算节点i与其它g-1个节点j(i≠j,即排除i与自身的联系)之间的直接联系的数量。简单地说,CD(Ni)的计算将节点i在网络矩阵中对应的行或列所在的单元格值累加。
6.根据权利要求3所述的一种用CIO/CTO社交网络预测公司业绩的方法,其特征在于:接近中心度(Closeness Centrality)描述网络节点间在最短路径上的距离,它利用计算节点vi与其他节点vj的最短距离之和的倒数来描述度量指标,公式为其中,g(vi,vj)是vi与vj的最短路径距离。
7.根据权利要求3所述的一种用CIO/CTO社交网络预测公司业绩的方法,其特征在于:介数中心度(Betweenness Centrality)表示社会网络中经过某节点的最短路径的比例;公式为:其中,δst(v)表示从s到t的最短路径中经过结点v的路径数量,δst表示从s到t的最短路径数。
8.根据权利要求1所述的一种用CIO/CTO社交网络预测公司业绩的方法,其特征在于所述步骤(3)中,还包括如下步骤:
(4-1)评估CIO/CTO价值的方法,用中心度评估CIO/CTO价值,分析加权中心度的CIO/CTO的网络中心性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710128333.6A CN107103403A (zh) | 2017-03-06 | 2017-03-06 | 一种用cio/cto社交网络预测科技公司业绩的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710128333.6A CN107103403A (zh) | 2017-03-06 | 2017-03-06 | 一种用cio/cto社交网络预测科技公司业绩的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107103403A true CN107103403A (zh) | 2017-08-29 |
Family
ID=59675125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710128333.6A Pending CN107103403A (zh) | 2017-03-06 | 2017-03-06 | 一种用cio/cto社交网络预测科技公司业绩的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107103403A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299090A (zh) * | 2018-09-03 | 2019-02-01 | 平安科技(深圳)有限公司 | 基金知识推理方法、系统、计算机设备和存储介质 |
CN110855641A (zh) * | 2019-10-30 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 社区属性信息确定方法、装置及存储介质 |
CN113807723A (zh) * | 2021-09-24 | 2021-12-17 | 重庆富民银行股份有限公司 | 用于知识图谱的风险识别方法 |
-
2017
- 2017-03-06 CN CN201710128333.6A patent/CN107103403A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299090A (zh) * | 2018-09-03 | 2019-02-01 | 平安科技(深圳)有限公司 | 基金知识推理方法、系统、计算机设备和存储介质 |
CN109299090B (zh) * | 2018-09-03 | 2023-05-30 | 平安科技(深圳)有限公司 | 基金中心度计算方法、系统、计算机设备和存储介质 |
CN110855641A (zh) * | 2019-10-30 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 社区属性信息确定方法、装置及存储介质 |
CN110855641B (zh) * | 2019-10-30 | 2022-07-01 | 支付宝(杭州)信息技术有限公司 | 社区属性信息确定方法、装置及存储介质 |
CN113807723A (zh) * | 2021-09-24 | 2021-12-17 | 重庆富民银行股份有限公司 | 用于知识图谱的风险识别方法 |
CN113807723B (zh) * | 2021-09-24 | 2023-11-03 | 重庆富民银行股份有限公司 | 用于知识图谱的风险识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Financial credit risk prediction in internet finance driven by machine learning | |
Almeida | Benefits, challenges and tools of big data management. | |
CN106067094A (zh) | 一种动态评估方法及系统 | |
CN105868334A (zh) | 一种基于特征递增型的电影个性化推荐方法及系统 | |
Al-Molhem et al. | Social network analysis in Telecom data | |
Ma et al. | Discovering company revenue relations from news: A network approach | |
Umayaparvathi et al. | Attribute selection and customer churn prediction in telecom industry | |
Zhou et al. | Corporate communication network and stock price movements: insights from data mining | |
Piao et al. | Predicting customer value with social relationships via motif-based graph attention networks | |
Crespo et al. | Predicting teamwork results from social network analysis | |
Romero et al. | Social networks under stress: Specialized team roles and their communication structure | |
CN107103403A (zh) | 一种用cio/cto社交网络预测科技公司业绩的方法 | |
Garcés-Galdeano et al. | The hidden value of intangibles: do CEO characteristics matter? | |
CN108305163A (zh) | 基于特征库的信用预警方法及系统 | |
Mungo et al. | Reconstructing production networks using machine learning | |
CN113569162A (zh) | 数据处理方法、装置、设备及存储介质 | |
Liu et al. | Mobile E-commerce information system based on industry cluster under edge computing | |
Putra et al. | A credit scoring model for smes based on social media data | |
Kanti Kumar et al. | Application of graph mining algorithms for the analysis of web data | |
Jiang et al. | Analyzing online transaction networks with network motifs | |
Nurlybayeva et al. | Algorithmic scoring models | |
Śniegula et al. | Study of machine learning methods for customer churn prediction in telecommunication company | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
Dogan | A process-centric performance management in a call center | |
CN110990777A (zh) | 数据关联性分析方法及系统、可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170829 |
|
WD01 | Invention patent application deemed withdrawn after publication |