CN109359199A

CN109359199A - 基金经理社团划分方法、系统、计算机设备和存储介质

Info

Publication number: CN109359199A
Application number: CN201810977585.0A
Authority: CN
Inventors: 陈泽晖; 胡逸凡; 谢云; 黄鸿顺
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2019-02-19
Also published as: WO2020042501A1

Abstract

本发明涉及金融技术领域，尤其涉及一种基金经理社团划分方法、系统、计算机设备和存储介质。该方法包括：从基金知识图谱中提取多个实体，基金知识图谱包括实体和关系；获取两个实体之间的关系，合并成权重W；将每个实体均设置为一个节点，将每个节点设置为一个初始社团，两个节点之间的权重W设置为度，调用快速聚类Fast Newman算法，对节点进行社团划分，得到社团划分结果；将社团划分结果保存入社团划分表中。本发明通过Fast Newman方法进行社团聚类，找出最优的社区划分状态，作为最终社区划分结果，实现了对人的网络关系的确定和呈现。

Description

基金经理社团划分方法、系统、计算机设备和存储介质

技术领域

本发明涉及金融技术领域，尤其涉及一种基金经理社团划分方法、系统、计算机设备和存储介质。

背景技术

知识图谱是一种知识域可视化或知识领域映射地图，它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。根据覆盖范围而言，知识图谱可分为通用知识图谱和行业知识图谱。通用知识图谱主要应用于智能搜索等领域。行业知识图谱通常需要依靠特定行业的数据来构建。

基金知识图谱正是一种金融领域的行业知识图谱，其为投资者们提供了可视化参考工具，但是基金知识图谱仅仅是一种关系的堆叠，并没有对人的网络关系进一步挖掘。

发明内容

有鉴于此，有必要针对基金知识图谱缺少对人的网络关系的问题，提供一种基金经理社团划分方法、系统、计算机设备和存储介质。

一种基金经理社团划分方法，包括：

从基金知识图谱中提取多个实体，所述基金知识图谱采用图谱形式存储在图数据库中，所述基金知识图谱包括实体和关系；

获取每两个所述实体之间的关系，合并成权重W；

将每个实体均设置为一个节点，将每个所述节点设置为一个初始社团，两个所述节点之间的权重W设置为度，调用快速聚类Fast Newman算法，对所述节点进行社团划分，得到社团划分结果；

将所述社团划分结果保存入社团划分表中，所述社团划分表位于所述图数据库中。

在其中一个实施例中，所述基金知识图谱的生成过程，包括：

从外部信息源中抽取多条基金知识数据，设置为知识元库，所述基金知识数据据包括基金经理、所属公司、毕业院校、导师、管理过的基金公司代码或简称、管理过的基金名称、正在管理的基金类型、正在管理的基金规模、投资风格、投资周期、单位净值和累计净值；

将所述知识元库中的基金经理设置为统一标记，如果两条所述基金知识数据具有同一项所述统一标记，则对两条所述基金知识数据进行合并；

将所述基金经理设置为实体、所述所属公司、毕业院校、导师、管理过的基金公司代码或简称和管理过的基金名称设置为关系，所述正在管理的基金类型、正在管理的基金规模、投资风格、投资周期、单位净值和累计净值设置为属性，对所述知识元库采用图谱形式存储在图数据库中，生成基金知识图谱。

在其中一个实施例中，所述从外部信息源中抽取多条基金知识数据，包括：

当所述外部信息源是数据库时，所述数据库中的数据为结构化数据，通过设定规则脚本对所述数据库中的数据进行抽取，得到多条所述基金知识数据；

当所述外部信息源是网站时，所述网站中的图表数据为半结构化数据，通过爬虫或正规表达式匹配来进行数据抽取，得到多条所述基金知识数据；

当所述外部信息源是基金研报、基金经理简历或社区评论时，所述外部信息源是非结构化的文本数据，通过自然语言处理来进行数据抽取，得到多条所述基金知识数据。

在其中一个实施例中，所述每两个所述实体之间的关系，合并成权重W，包括：

所述实体与另一实体之间的关系是同一所述所属公司，则所述实体与另一实体之间的所述所属公司的关系对应的权重W＝1；

所述实体与另一实体之间的关系是毕业于同一所所述毕业院校，则所述实体与另一实体之间的所述毕业院校的关系对应的权重W＝1；

所述实体与另一实体之间的关系是具有共同的所述导师，则所述实体与另一实体之间的所述导师的关系对应的权重W＝2；

所述实体与另一实体之间的关系是所述管理过的基金公司代码或简称相同，则所述实体与另一实体之间的所述管理过的基金公司代码或简称的关系对应的权重W＝2；

所述实体与另一实体之间的关系是所述管理过的基金名称相同，则所述实体与另一实体之间的所述管理过的基金名称的关系对应的权重W＝2；

对所述实体与另一实体之间的所有关系求和，形成权重W。

在其中一个实施例中，所述调用快速聚类Fast Newman算法，对所述节点进行社团划分，得到社团划分结果，包括：

计算两个所述初始社团结合时的模块度Q值，将Q值增加最大的或者减少最少的两个社团进行合并形成另一社团，重复进行计算和合并，直到所有社团合并成一个大社团时停止，找出合并过程中Q值最大时的社团划分结果。

在其中一个实施例中，所述模块度Q值的计算公式，包括：

其中，

v和w是任一两个节点，两个节点之间共有m个连接关系，当两个节点直接相连时A_vw＝1，否则A_vw＝0，k_v、k_w分别表示节点v、w的度，2m是整个网络的度，δ(cv，cw)判断节点v和w是否在同一个社区内，在同一个社区内δ(cv，cw)＝1，否则δ(cv，cw)＝0；

eij表示一个节点在社区i内，另一个节点在社区j内的边，那么eii就表示在社区i内所有边个数与整个网络所有边的个数一个比值，即一个社区内部的度比上整个网络的度，而ai则表示i社区内的节点的度占整个网络的度的比值。

在其中一个实施例中，所述将所述社团划分结果保存入社团划分表中，所述社团划分表位于所述图数据库中后，还包括：

通过预设的用户查询界面获得用户输入的某一基金经理社团信息请求；

访问所述图数据库，根据所述基金经理查询所述社团划分表；

将所述基金经理所在社团的节点和关系进行提取，并以json数据格式发送给数据可视化D3.js软件，所述D3.js软件将所述节点和关系转换为可视化图表后，返回给所述用户查询界面。

一种基金经理社团划分系统，包括：

提取实体单元，用于从基金知识图谱中提取多个实体，所述基金知识图谱采用图谱形式存储在图数据库中，所述基金知识图谱包括实体和关系；

获取权重单元，用于获取每两个所述实体之间的关系，合并成权重W；

社团划分单元，用于将每个实体均设置为一个节点，将每个所述节点设置为一个初始社团，两个所述节点之间的权重W设置为度，调用快速聚类Fast Newman算法，对所述节点进行社团划分，得到社团划分结果；

保存单元，用于将所述社团划分结果保存入社团划分表中，所述社团划分表位于所述图数据库中。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述基金经理社团划分方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述基金经理社团划分方法的步骤。

上述基金经理社团划分方法、装置、计算机设备和存储介质，包括从基金知识图谱中提取多个实体，基金知识图谱采用图谱形式存储在图数据库中，基金知识图谱包括实体和关系；获取每两个实体之间的关系，合并成权重W；将每个实体均设置为一个节点，将每个节点设置为一个初始社团，两个节点之间的权重W设置为度，调用快速聚类Fast Newman算法，对节点进行社团划分，得到社团划分结果；将社团划分结果保存入社团划分表中，社团划分表位于图数据库中。本发明通过Fast Newman方法进行社团聚类，将Fast Newman算法结合基金经理的实际应用出发，根据基金经理之间的关系不同，权重不同，来找出最优的社区划分状态，作为最终社区划分结果，实现了对人的网络关系的确定和呈现。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明一个实施例中的基金经理社团划分方法的流程图；

图2为一个实施例中步骤S1的流程图；

图3为一个实施例中步骤S4的流程图；

图4为本发明一个实施例中基金经理社团划分系统的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

图1为本发明一个实施例中的基金经理社团划分方法的流程图，如图1所示，一种基金经理社团划分方法，包括以下步骤：

步骤S1，提取多个实体：从基金知识图谱中提取多个实体，基金知识图谱采用图谱形式存储在图数据库中，基金知识图谱包括实体和关系。

知识图谱(Knowledge Graph/Vault)又称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。简单来说知识图谱是以实体、属性以及关系来描述的一种知识体系。

本步骤中的基金知识图谱是关于基金经理的知识图谱，其中，基金经理作为实体，基金经理所属公司、毕业院校、导师、管理过的基金公司代码或简称、管理过的基金名称作为关系，基金经理正在管理的基金类型、正在管理的基金规模、投资风格、投资周期、单位净值和累计净值作为属性。本步骤从预存在图数据库中的基金知识图谱中提取若干实体，实体即为各个基金经理。

步骤S2，获取权重：获取每两个实体之间的关系，合并成权重W。

某一实体与其他实体之间的关系包括基金经理所属公司、毕业院校、导师、管理过的基金公司代码或简称、管理过的基金名称等，两个实体之间不同的关系对应的权重不一样，且两个实体之间存在没有关系、只有一项关系或两项以上关系等情况。本步骤获取两个实体之间所有关系对应的权重总和为W。

步骤S3，社团划分：将每个实体均设置为一个节点，将每个节点设置为一个初始社团，两个节点之间的权重W设置为度，调用快速聚类Fast Newman算法，对节点进行社团划分，得到社团划分结果。

快速聚类Fast Newman算法是2004发表的一种聚类算法，简称F-B算法。FastNewman算法将每个节点看作是一个社团，每次迭代选择产生最大Q值的两个社团合并，直至整个网络融合成一个社团。整个过程可表示成一个树状图，从中选择Q值最大的层次划分得到最终的社团结构，具体包括：

计算两个初始社团结合时的模块度Q值，将Q值增加最大的或者减少最少的两个社团进行合并形成另一社团，重复进行计算和合并，直到所有社团合并成一个大社团时停止，找出合并过程中Q值最大时的社团划分结果。

其中，模块度(Modularity)是用来衡量一个社团的划分是不是相对比较好的结果。一个相对好的结果在社团内部的节点相似度较高，而在社团外部节点的相似度较低。模块度的大小定义为社团内部的总边数和网络中总边数的比例减去一个期望值，该期望值是将网络设定为随机网络时同样的社团分配所形成的社团内部的总边数和网络中总边数的比例的大小，于是模块度通过Q值来确定，Q值取值最大的时候则是此网路较理想的划分。Q值的范围在0-1之间，Q值越大说明网络划分的社团结构准确度越高，在实际的网络分析中，Q值的最高点一般出现在0.3-0.7之间。

步骤S4，保存社团划分结果：将社团划分结果保存入社团划分表中，社团划分表位于图数据库中。

将步骤S3得到的社团划分结果进行保存，以便于后续查询使用。

本实施例通过快速聚类Fast Newman算法将基金知识图谱中若干实体进行社团划分，划分出最优的社团划分结果，并进行保存，实现了对人的网络关系的挖掘和划分。

在一个实施例中，如图2所示，步骤S1中基金知识图谱的生成过程，包括：

步骤S101，知识抽取：从外部信息源中抽取多条基金知识数据，设置为知识元库，基金知识数据据包括基金经理、所属公司、毕业院校、导师、管理过的基金公司代码或简称、管理过的基金名称、正在管理的基金类型、正在管理的基金规模、投资风格、投资周期、单位净值和累计净值。

本步骤中，当外部信息源是数据库时，数据库中的数据为结构化数据，通过设定规则脚本对数据库中的数据进行抽取，得到多条基金知识数据；当外部信息源是网站时，网站中的图表数据为半结构化数据，通过爬虫或正规表达式匹配来进行数据抽取，得到多条基金知识数据；当外部信息源是基金研报、基金经理简历或社区评论时，外部信息源是非结构化的文本数据，通过自然语言处理来进行数据抽取，得到多条基金知识数据。

步骤S102，知识合并：将知识元库中的基金经理设置为统一标记，如果两条基金知识数据具有同一项统一标记，则对两条基金知识数据进行合并。

步骤S103，知识存储：将基金经理设置为实体、所属公司、毕业院校、导师、管理过的基金公司代码或简称和管理过的基金名称设置为关系，正在管理的基金类型、正在管理的基金规模、投资风格、投资周期、单位净值和累计净值设置为属性，对知识元库采用图谱形式存储在图数据库中，生成基金知识图谱。

本实施通过知识抽取、知识合并和知识存储生成基金知识图谱，为后续社团划分提供实体和关系。

在一个实施例中，步骤S2，实体与其他实体之间的关系，合并成权重W，包括：

实体与另一实体之间的关系是同一所属公司，则实体与另一实体之间的所属公司的关系对应的权重W＝1；实体与另一实体之间的关系是毕业于同一所毕业院校，则实体与另一实体之间的毕业院校的关系对应的权重W＝1；实体与另一实体之间的关系是具有共同的导师，则实体与另一实体之间的导师的关系对应的权重W＝2；实体与另一实体之间的关系是管理过的基金公司代码或简称相同，则实体与另一实体之间的管理过的基金公司代码或简称的关系对应的权重W＝2；实体与另一实体之间的关系是管理过的基金名称相同，则实体与另一实体之间的管理过的基金名称的关系对应的权重W＝2；对实体与另一实体之间的所有关系求和，形成权重W。在得到实体与另一实体之间的权重W时，可以理解为对权重W进行带权边拆解，带权边拆解即为权重W的边拆为W条权重为1的边。

实体与另一实体之间可能具有多个关系，比如毕业于同一所毕业院校且具有共同的导师时，则实体与另一实体之间的毕业院校的关系对应的权重W＝1，导师的关系对应的权重W＝2，则两个实体之间的关系对应的权重W＝3。

由于基金经理之间往往具有抱团倾向，所以本发明采用有权重的关系，即基金经理之间的关系是有权重的。本实施例，通过对关系进行合并得到权重，在后续的社团划分时，能确定两个节点之间的重要程度。

在一个实施例中，步骤S3中的模块度Q值的计算公式，包括：

其中，

v和w是任一两个节点，两个节点之间共有m个连接关系，当两个节点直接相连时A_vw＝1，否则A_vw＝0，k_v、k_w分别表示节点v、w的度，2m是整个网络的度，δ(cv，cw)判断节点v和w是否在同一个社区内，在同一个社区内δ(cv，cw)＝1，否则δ(cv，cw)＝0；eij表示一个节点在社区i内，另一个节点在社区j内的边，那么eii就表示在社区i内所有边个数与整个网络所有边的个数一个比值，即一个社区内部的度比上整个网络的度，而ai则表示i社区内的节点的度占整个网络的度的比值。

通过本实施例可以得到两个社团结合时的模块度Q值，且模块度Q值的取值范围在0-1之间。

在一个实施例中，如图3所示，步骤S4，包括：

步骤S401，获得请求：通过预设的用户查询界面获得用户输入的某一基金经理社团信息请求。

用户查询界面上可以设置有查询窗口或查询字段，用户输入某一基金经理的名字，即可获得对此基金经理的社团信息请求。

步骤S402，查询社团划分表：访问图数据库，根据基金经理查询社团划分表。

社团划分表中含有此基金经理及对应的社团划分结果，社团划分结果即为此基金经理的关系和属性，还涉及到此基金经理与其他基金经理划分好的关系。

步骤S403，数据转换和返回：将基金经理所在社团的节点和关系进行提取，并以json数据格式发送给数据可视化D3.js软件，D3.js软件将节点和关系转换为可视化图表后，返回给用户查询界面。

Json(JavaScript Object Notation)数据格式是一种比xml更轻巧、更简单的数据交换格式，Json数据格式是JavaScript原生格式，在JavaScript中处理JSON数据不需要任何特殊的API或工具包。JSON的规则为：对象是一个无序的“‘名称/值’对”集合。一个对象以“{”(左括号)开始，“}”(右括号)结束。每个“名称”后跟一个“:”(冒号)；“‘名称/值’对”之间使用“,”(逗号)分隔作为一种数据传输格式。Json不需要从服务器端发送含有特定内容类型的首部信息，致使Json数据格式的参数传递更为简单实用，更适用于本步骤中数据库和D3.js软件之间的数据传递。在对基金经理所在社团的节点和关系进行提取后，可以通过数据转换脚本将数据转换为json数据格式。数据转换脚本是可以将数据转换成Json格式的脚本语言，可以采用第三方工具将数据转换为Json数据格式。

数据可视化D3.js软件可自由设计图表，适合展示丰富多样的图表样式，且完全免费，代码开源。由于图表类型非常丰富，因此几乎可以满足所有开发需求。本实施例通过D3.js软件将节点和关系转换为可视化图表，供用户查看，能更好的展现某一基金经理的社团划分和关系情况。

本发明基金经理社团划分方法，在基金知识图谱中提取多个实体后，对每个实体都获取与其他实体之间的权重W，通过Fast Newman算法对多个实体进行社团划分，得到最终的社团划分结果，并存储在社团划分表中。为了便于使用者查询实体的社团划分结果，还通过预设的用户查询界面与使用者交互，将社团划分结果通过可视化图表进行呈现，供用户查看。

上述实体在本发明中指基金经理，本发明的方法得到的社团划分结果为基金经理与其他基金经理的社团划分结果。在基金领域，基金经理之间由于导师、毕业院校或者在同一家公司等情况下，往往具有派系之分，据有关系的两个基金经理之间还具有抱团倾向，他们通常在基金买卖时会相互影响。在多个基金经理的网络关系中，人们无法直观的知道两个基金经理之间的关系程度。因此本发明的方法，将具有紧密关系的多个基金经理进行社团划分，网络关系中有不同的社团,某一社团内基金经理之间的连接关系比较稠密,而社团之间的基金经理的连接关系比较稀疏。使用者在了解某一基金经理的情况时，通过社团划分后的可视化图表可以容易的知道与其有紧密关系的其他基金经理的现状，在进行基金筛选时，为使用者提供更优的参考价值。

在一个实施例中，提出了一种基金经理社团划分系统，如图4所示，包括如下单元：

提取实体单元，用于从基金知识图谱中提取多个实体，基金知识图谱采用图谱形式存储在图数据库中，基金知识图谱包括实体和关系；

获取权重单元，用于获取每两个实体之间的关系，合并成权重W；

社团划分单元，用于将每个实体均设置为一个节点，将每个节点设置为一个初始社团，两个节点之间的权重W设置为度，调用快速聚类Fast Newman算法，对节点进行社团划分，得到社团划分结果；

保存单元，用于将社团划分结果保存入社团划分表中，社团划分表位于图数据库中。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行计算机可读指令时实现以下步骤：从基金知识图谱中提取多个实体，基金知识图谱采用图谱形式存储在图数据库中，基金知识图谱包括实体和关系；获取两个实体之间的关系，合并成权重W；将每个实体均设置为一个节点，将每个节点设置为一个初始社团，两个节点之间的权重W设置为度，调用快速聚类Fast Newman算法，对节点进行社团划分，得到社团划分结果；将社团划分结果保存入社团划分表中，社团划分表位于图数据库中。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：从基金知识图谱中提取多个实体，基金知识图谱采用图谱形式存储在图数据库中，基金知识图谱包括实体和关系；获取两个实体之间的关系，合并成权重W；将每个实体均设置为一个节点，将每个节点设置为一个初始社团，两个节点之间的权重W设置为度，调用快速聚类Fast Newman算法，对节点进行社团划分，得到社团划分结果；将社团划分结果保存入社团划分表中，社团划分表位于图数据库中。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明一些示例性实施例，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基金经理社团划分方法，其特征在于，包括：

从基金知识图谱中提取多个实体，所述基金知识图谱采用图谱形式存储在图数据库中，所述基金知识图谱包括所述实体和关系；

获取每两个所述实体之间的关系，合并成权重W；

2.根据权利要求1所述的基金经理社团划分方法，其特征在于，所述基金知识图谱的生成过程，包括：

3.根据权利要求2所述的基金经理社团划分方法，其特征在于，所述从外部信息源中抽取多条基金知识数据，包括：

4.根据权利要求1所述的基金经理社团划分方法，其特征在于，所述每两个所述实体之间的关系，合并成权重W，包括：

对所述实体与另一实体之间的所有关系求和，形成权重W。

5.根据权利要求1所述的基金经理社团划分方法，其特征在于，所述调用快速聚类FastNewman算法，对所述节点进行社团划分，得到社团划分结果，包括：

6.根据权利要求5所述的基金经理社团划分方法，其特征在于，所述模块度Q值的计算公式，包括：

其中，

7.根据权利要求1所述的基金经理社团划分方法，其特征在于，所述将所述社团划分结果保存入社团划分表中，所述社团划分表位于所述图数据库中后，还包括：

8.一种基金经理社团划分系统，其特征在于，包括：

提取实体单元，用于从基金知识图谱中提取实体，所述基金知识图谱采用图谱形式存储在图数据库中，所述基金知识图谱包括实体和关系；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述基金经理社团划分方法的步骤。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述基金经理社团划分方法的步骤。