CN112732925A - 基于图谱的确定投资数据的方法、存储介质及相关设备 - Google Patents
基于图谱的确定投资数据的方法、存储介质及相关设备 Download PDFInfo
- Publication number
- CN112732925A CN112732925A CN202011614547.2A CN202011614547A CN112732925A CN 112732925 A CN112732925 A CN 112732925A CN 202011614547 A CN202011614547 A CN 202011614547A CN 112732925 A CN112732925 A CN 112732925A
- Authority
- CN
- China
- Prior art keywords
- investment
- data
- relation
- nodes
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例属于大数据领域,涉及一种基于图谱的确定投资数据的方法,包括:获取各个投资节点之间直接的投资关系数据,所述投资节点包括投资者和被投企业;基于Spark将所述投资关系数据转换为投资关系特征图谱;利用图计算引擎对所述投资关系特征图谱进行迭代计算,并为所述投资关系特征图谱中的目标投资节点生成对应的三元组,所述三元组用于指示所述目标投资节点的投资数据。本申请还提供一种基于图谱的确定投资数据的装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,为进一步保证上述投资关系数据的私密和安全性,上述投资关系数据还可以存储于一区块链的节点中。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及一种基于图谱的确定投资数据的方法、装置、计算机设备和计算机可读存储介质。
背景技术
在企业知识图谱应用场景中,通常会遇到计算投资者和被投企业之间投资比例的问题,例如,确定两个企业之间的关联关系时,往往需要确定两个企业之间是否存在间接持股的问题。投资比例计算可以包括直接投资比例和间接投资比例计算,间接投资是指,投资方经由中间企业来实现对另一企业的投资,其在计算时,同一投资路径采用乘法法则,不同投资路径则采用加法原则。
但由于现有的企业,很多存在极为复杂的投资关系,现有技术中,更多时候需要人工计算间接的投资关系数据,而人工梳理和计算需要耗费大量的时间。
因此,如何实现高效地确定企业直接和间接投资数据,是目前尚待解决的技术问题。
发明内容
本申请实施例的目的在于提出一种基于图谱的确定投资数据的方法、装置、计算机设备及存储介质,用于实现高效地确定企业直接和间接投资数据。
为了解决上述技术问题,本申请实施例提供一种基于图谱的确定投资数据的方法,采用了如下所述的技术方案:
获取各个投资节点之间直接的投资关系数据,所述投资节点包括投资者和被投企业;
基于Spark将所述投资关系数据转换为投资关系特征图谱,所述投资关系特征图谱为有向图,所述所述投资关系特征图谱中的边信息包括投资比例数据;
利用图计算引擎对所述投资关系特征图谱进行迭代计算,并为所述投资关系特征图谱中的目标投资节点生成对应的三元组,所述三元组用于指示所述目标投资节点的投资数据,其中,每组所述三元组由投资者标识、被投企业标识和投资比例数据组成,所述投资者标识为直接投资者或者间接投资者的唯一标识,所述被投企业标识为所述投资者标识对应投资者直接或者间接投资的企业的唯一标识。
为了解决上述技术问题,本申请实施例还提供一种基于图谱的确定投资数据的装置,采用了如下所述的技术方案:
获取单元,用于获取各个投资节点之间直接的投资关系数据,所述投资节点包括投资者和被投企业;
转换单元,用于基于Spark将所述投资关系数据转换为投资关系特征图谱,所述投资关系特征图谱为有向图,所述所述投资关系特征图谱中的边信息包括投资比例数据;
图计算单元,用于利用图计算引擎对所述投资关系特征图谱进行迭代计算,并为所述投资关系特征图谱中的目标投资节点生成对应的三元组,所述三元组用于指示所述目标投资节点的投资数据,其中,每组所述三元组由投资者标识、被投企业标识和投资比例数据组成,所述投资者标识为直接投资者或者间接投资者的唯一标识,所述被投企业标识为所述投资者标识对应投资者直接或者间接投资的企业的唯一标识。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于图谱的确定投资数据的方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于图谱的确定投资数据的方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,在获取到直接的投资关系数据后,可以基于Spark将投资关系数据转换为投资关系特征图谱,进而利用图计算引擎对投资关系特征图谱进行迭代计算,确定目标投资节点对应的用于指示投资数据的三元组,从而提供了一种高效便捷确定企业投资数据的方法。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请的一种基于图谱的确定投资数据的方法的一个实施例的流程图;
图2a是一个投资关系源数据的示意图;
图2b是一种筛选出的投资关系数据的示意图;
图2c是另一种筛选出的投资关系数据的示意图;
图3是图1中步骤S130的一个具体实施例示意图;
图4为根据本申请的一种基于图谱的确定投资数据的装置的一个实施例示意图;
图5为图4中图计算单元430的一个具体的实施例示意图;
图6是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面对本申请所应用到的术语进行简要说明。
图(Graph)是用于表示对象之间关联关系的一种抽象数据结构,使用顶点(Vertex)和边(Edge)进行描述:顶点表示对象,边表示对象之间的关系。可抽象成用图描述的数据即为图数据。图计算,便是以图作为数据模型来表达问题并予以解决的这一过程。以高效解决图计算问题为目标的系统软件称为图计算系统。
Pregel是一种图计算引擎,可以将图分析过程分析为若干轮计算,每一轮各个顶点独立地执行各自的顶点程序,通过消息传递在顶点之间同步状态。
将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
继续参考图1,示出了根据本申请的一种基于图谱的确定投资数据的方法的一个实施例的流程图。所述的基于图谱的确定投资数据的方法,包括以下步骤:
S110,获取各个投资节点之间直接的投资关系数据,所述投资节点包括投资者和被投企业。
在本实施例中,基于图谱的确定投资数据的方法运行于其上的电子设备,可以是服务器或者终端设备,可以通过有线连接方式或者无线连接方式接收外部设备或者用户的指令和数据。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
需要说明的是,直接的投资关系数据主要包括投资者和被投资者的直接投资关系,以及投资者对被投资者直接的投资比例数据。具体的获取操作可以是,在响应到获取指令或者查询指令后,通过相关的插件或者脚本,从本地下载的工商资料源数据,或者在线从工商网站的数据查询接口,查询并获取指令对应的投资关系数据。
进一步的,在获取指令或者查询指令中,可以设定获取筛选参数,进而根据该筛选参数从投资关系源数据筛选确定直接的投资关系数据。其中,筛选参数可以包括设置至少一个主投资节点和关联度等。参照图2a,图2a为一个投资关系源数据的示意图,之后的投资关系数据需要从中提取。主投资节点为一个时,还需要设置关联投资节点类型,关联投资节点类型可以设置为股东类型,或者被投企业类型,设置为股东类型时,即把主投资节点视为被投资者,设置为被投企业类型时,即把主投资节点视为投资者。关联度为待确定的关联投资节点与主投资节点之间间隔的最短路径上投资节点的个数。例如,若设置主投资节点为C,关联度为2,关联投资节点类型设置为股东类型,即设置寻找与C节点关联度为2的股东节点,设置后可以从图2a示意的投资关系源数据中提取得到如图2b示意的,包括所有直接的投资关系和直接投资比例数据的投资关系数据。主投资节点为多个时,即至少两个时,则可以是设定获取与该多个主投资节点都具有关联关系的投资节点。例如,若设置主投资节点为A和E时,关联度为3,设置后可以从图2a示意的投资关系源数据中提取得到如图2c示意的,包括所有直接的投资关系和直接投资比例数据的投资关系数据。
进一步的,上述在获取到投资关系数据后,为获得更为准确的数据,还可以对初始获取的数据进行预处理,从而得到预处理后的投资关系数据。其中,预处理可以包括:去重预处理和融合预处理。其中,去重预处理中,可以以企业和投资者名称加密值作为联合主键分组,从投资关系数据中去重提取最新公告日期的投资关系数据。融合预处理中,具体可以对企业和投资者实体进行相似度识别,从而在投资关系数据中,将被识别为同一企业或投资者的投资节点做融合处理,可以减少数据规模,避免重复计算。此外,融合预处理中,还可以从工商数据中查询确定每个投资节点的曾用名,进而对企业实体进行曾用名识别,从而在投资关系数据中,将有曾用名关系的企业,融合为最新企业名称。还需说明的是,获取的投资关系数据中,可能存在比例设置错误的情况,因此可以在预处理过程中,对其数据进行修正,例如对显示投资比例为0%的投资关系进行过滤,并对只有一家投资且投资比例为0%的转换为100%。
在一些可能的实现方式中,在上述步骤获取投资关系数据中,还可以设定股东个数阈值或者投资企业个数阈值,从而在获取到投资关系数据后,可以对同一投资关系条数超过阈值的投资节点,只按照投资比例大小识别提取阈值前的股东或者被投节点,从而得到更新后的投资关系数据。例如,对于X企业,其存在有20个股东,若设定股东个数阈值为15,则按照股东投资比例大小排序后,只获取前15名(包括15)的股东作为投资节点,放入投资关系数据中。
需要强调的是,为进一步保证上述投资关系数据的私密和安全性,上述投资关系数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
S120,基于Spark将所述投资关系数据转换为投资关系特征图谱,所述投资关系特征图谱为有向图,所述所述投资关系特征图谱中的边信息包括投资比例数据。
其中,Spark是一种快速、通用、可扩展的大数据并行计算框架,其基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。Spark GraphX是基于Spark的一个分布式图处理框架,其可以基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。
在本实施例中,在获取到投资关系数据后,利用Spark GraphX将投资关系数据转换为投资关系特征图谱,该投资关系特征图谱为有向图。其中,构建的特征图GraphX是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。假设该投资关系特征图谱可以如图2c所示,各个投资节点记载的为对应的唯一标识,而节点之间的边信息,则用于表示相邻投资节点之间的投资比例信息,边的方向代表投资方向,发出向节点为投资者,接收向节点为被投资者。
S130,利用图计算引擎对所述投资关系特征图谱进行迭代计算,并为所述投资关系特征图谱中的目标投资节点生成对应的三元组,所述三元组用于指示所述目标投资节点的投资数据,其中,每组所述三元组由投资者标识、被投企业标识和投资比例数据组成,所述投资者标识为直接投资者或者间接投资者的唯一标识,所述被投企业标识为所述投资者标识对应投资者直接或者间接投资的企业的唯一标识。
本实施例中,投资数据以三元组的形式来表示,具体对投资关系特征图谱进行处理的方法,可以采用图计算方法。具体的,可以将投资关系特征图谱输入预设的图计算引擎中,进而为投资关系特征图谱中的目标投资节点生成对应的三元组。其中,三元组可以包括投资者标识、被投企业标识和投资比例数据组成,所述投资者标识为直接投资者或者间接投资者的唯一标识,所述被投企业标识为所述投资者标识对应投资者直接或者间接投资的企业的唯一标识。投资者标识为当前投资节点时,则三元组可以表示当前投资节点作为投资者与直接或者间接投资的企业之间的投资关系数据;被投企业标识为当前投资节点时,则三元组可以表示当前投资节点作为被投资者与直接或者间接的投资者之间的投资关系数据。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,在获取到直接的投资关系数据后,可以基于Spark将投资关系数据转换为投资关系特征图谱,进而利用图计算引擎对投资关系特征图谱进行迭代计算,确定目标投资节点对应的用于指示投资数据的三元组,从而提供了一种高效便捷确定企业投资数据的方法。
在一些可能的实现方式中,具体参照图3,图3为S130的一个具体实施例示意图,S130可以包括:
S131,为每个投资节点设置初始三元组。
本实施例中,在进行图计算之前,需要为投资关系特征图谱中涉及计算的投资节点设定对应的初始三元组,初始三元组中的初始投资比例数据可以设置为1或者直接投资比例数据,可以设置在投资方节点也可以设置在被投资方节点上。
S132,利用pregel对所述投资关系特征图谱中所述每个投资节点当前的三元组进行迭代更新。
其中,Pregel是一种图计算引擎,可以将图分析过程分析为若干轮计算,每一轮各个顶点独立地执行各自的顶点程序,通过消息传递在顶点之间同步状态,其中,每一轮迭代也可以称作一次超步(super step)。
本实施例中,可以利用pregel在每个投资节点上迭代运行投资比例的计算方法,并通过迭代更新的方式,确定每个投资节点的间接投资比例信息。
在一个具体的实施例中,S132可以包括以下步骤:
步骤A:利用所述投资关系特征图谱中所述每个投资节点正向边的边信息,对所述每个投资节点当前的三元组进行更新,所述边信息包括投资比例信息;
步骤B:将更新后的所述三元组推送至所述正向边相连的下游投资节点;
步骤C:获取所述每个投资节点的上游投资节点发送的三元组,并保存在本地;
迭代执行所述步骤A至所述步骤C。
具体的,上述步骤中的正向边可以是投资节点的出度边或者入度边,即迭代方向可以是正向或者反向,具体的如何设置迭代更新的方向,可以由用户自行设定,此处不做过多限定。
下面参照示例,对上述步骤A至C进行说明:其中,假设投资关系图为图2c,初始三元组中的投资比例信息为直接投资比例信息,迭代更新过程为正向,下面表1为进行多轮迭代的迭代结果。
表1
结合表1和图2c,以第一轮迭代中的B节点为例,其在第一轮中执行的步骤A为:B节点在进行计算前,当前的三元组为(A,B,0.6)和(D,B,0.4),采用正向迭代,其需要更新的下游投资节点为C节点。因此,需要利用BC边的边信息0.5对(A,B,0.6)和(D,B,0.4)进行更新。同一路径选择乘法法则,并且在更新后,被投企业标识也由B转变为C,因此更新后,可以得到(A,C,0.3)和(D,C,0.2)。步骤B:在更新得到(A,C,0.3)和(D,C,0.2)后,则进一步沿BC方向传递更新的三元组至C节点。步骤C:在节点D上运行投资比例计算方法后,进而向B节点发送(A,B,0.2),即投资路径ADB中A对B的间接投资比例数据。B节点在收到D发送的三元组后,由于本地已存在AB路径中A对B的投资比例数据(A,B,0.6),而ADB和AB为不同的投资路径,因此在获得D节点发送的三元组之后,B节点需要对两个路径的三元组进行合并,从而得到最终的A对B节点的投资数据为(A,B,0.8)。需要说明的时,步骤C中,在进行合并后,第一轮初始的A对B的三元组(A,B,0.6)依旧可以保留,步骤C中可以仅为添加操作。
其中,上述仅以节点B在第一轮迭代过程中的计算操作为例进行说明,其他节点与之类似,此处不再说明。
此外,还需要说明的是:1、在具体进行迭代时,在一个轮次内,对所有节点的计算过程处于并行状态,在检测所有节点在本轮次的迭代计算操作完成后,再通知进行下一次的迭代过程。2、在某一节点确定没有再向下游投资节点传递新的三元组时,则设置该节点为非活跃状态。非活跃状态的节点,在之后的更新中不执行迭代计算操作,从而可以避免无意义计算,减轻系统计算负担。
在一些可能的实现方式中,参照上述说明,也可以采用反向迭代更新的方法,与表1对应,在进行反向更新时,其迭代更新的过程可以参照下述表2,具体在每轮次的迭代计算操作可以参照上述节点B的相关描述,此处不再赘述。
表2
S133,在达到迭代停止条件时,保存所述每个投资节点在迭代过程中生成的所有三元组。
本实施例中,根据前述说明,在进行迭代时,存在设置节点运行状态的机制,即若为活跃节点,则可以进行下一轮的迭代计算操作,否则则不执行迭代计算操作。因此,迭代停止条件若在未进行人为设置的情况下,则为在检测投资关系特征图谱中所有节点都处于非活跃状态时,则迭代自行停止。需要说明的是,迭代停止条件也可以人工进行设置,例如,可以设置为迭代轮次。系统每次迭代一次后,则计数器加一,直至达到迭代停止的阈值时,则停止迭代。
需要说明的是,在迭代停止后,系统则可以保留在每轮迭代中产生的三元组。
在一些可能的实现方式中,上述在每次迭代操作生成三元组之后,即也指示实现了更进一层间接投资比例的计算。例如以表1为例,第一轮结束后,节点C中的三元组中(A,C,0.3)则指示节点A对节点C的一次间接投资(路径A-B-C)。第二轮结束后,节点C中的三元组中(A,C,0.4)则指示节点A对节点C的二次间接投资(包含路径A-D-B-C)。
基于上述描述,在S130之后,还可以包括:生成并保留生成的每个三元组和迭代轮次的对应关系。
具体的,在得到每个投资节点的三元组后,可以生成和保留每个三元组和每个三元组对应生成的迭代次数的对应关系。并且,需要说明的是,迭代次数还可以设置对应的查询接口。
所述的一种基于图谱的确定投资数据的方法还可以包括:
响应用户对所述目标投资节点投资关系的浏览操作,根据所述对应关系,将所述目标投资节点的投资关系数据分层显示。
具体的,可以在目标投资节点投资关系的显示界面显示投资关系层级的按钮。该投资关系层级与迭代轮次相同,因此在响应到用户对目标投资节点投资关系的某一层级的点击操作时,则系统可以根据对应关系提取与该层级对应的三元组,并将与该三元组对应的投资关系数据进行展示。例如,以表1中第二轮次后,C节点的三元组(A,C,0.4)为例,则可以显示的投资关系数据可以包括:A通过B,以及,A通过D和B,两种路径间接投资C,并且间接占有40%的股份。具体此处展示的投资关系数据,可以由用户自行设定形式,此处不做限定。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,在获取到直接的投资关系数据后,可以基于Spark将投资关系数据转换为投资关系特征图谱,进而利用图计算引擎对投资关系特征图谱进行迭代计算,确定目标投资节点对应的用于指示投资数据的三元组,从而提供了一种高效便捷确定企业投资数据的方法。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图4,作为对上述图1所示方法的实现,本申请提供了一种基于图谱的确定投资数据的装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的基于图谱的确定投资数据的装置,可以包括:
获取单元410,用于获取各个投资节点之间直接的投资关系数据,所述投资节点包括投资者和被投企业;
转换单元420,用于基于Spark将所述投资关系数据转换为投资关系特征图谱,所述投资关系特征图谱为有向图,所述所述投资关系特征图谱中的边信息包括投资比例数据;
图计算单元430,用于利用图计算引擎对所述投资关系特征图谱进行迭代计算,并为所述投资关系特征图谱中的目标投资节点生成对应的三元组,所述三元组用于指示所述目标投资节点的投资数据,其中,每组所述三元组由投资者标识、被投企业标识和投资比例数据组成,所述投资者标识为直接投资者或者间接投资者的唯一标识,所述被投企业标识为所述投资者标识对应投资者直接或者间接投资的企业的唯一标识。
在一些可能的实现方式中,具体参照图5,为图计算单元430的一个具体的实施例示意图,可以包括:
设置子单元431,用于为每个投资节点设置初始三元组;
迭代更新子单元432,用于利用pregel对所述投资关系特征图谱中所述每个投资节点当前的三元组进行迭代更新;
保存子单元433,用于在达到迭代停止条件时,保存所述每个投资节点在迭代过程中生成的所有三元组。
在一些可能的实现方式中,迭代更新子单元432,具体用于执行下述步骤:
步骤A:利用所述投资关系特征图谱中所述每个投资节点正向边的边信息,对所述每个投资节点当前的三元组进行更新,所述边信息包括投资比例信息;
步骤B:将更新后的所述三元组推送至所述正向边相连的下游投资节点;
步骤C:获取所述每个投资节点的上游投资节点发送的三元组,并保存在本地;
迭代执行所述步骤A至所述步骤C。
在一些可能的实现方式中,所述的基于图谱的确定投资数据的装置还可以包括:
生成单元,用于生成并保留生成的每个三元组和迭代轮次的对应关系;
响应显示单元,用于响应用户对所述目标投资节点投资关系的浏览操作,根据所述对应关系,将所述目标投资节点的投资关系数据分层显示。
在一些可能的实现方式中,获取单元410,具体用于响应获取指令或者查询指令,并提取所述获取指令或者查询指令中包括的筛选参数;
根据所述筛选参数从投资关系源数据中筛选确定所述投资关系数据。
在一些可能的实现方式中,所述的基于图谱的确定投资数据的装置还可以包括:
预处理单元,用于对所述投资关系数据进行去重预处理和融合预处理;
转换单元420,具体用于基于Spark将预处理后的所述投资关系数据转换为投资关系特征图谱。
在一些可能的实现方式中,所述的基于图谱的确定投资数据的装置还可以包括:
提取单元,用于对所述投资关系数据中,投资关系条数超过预先设定的股东个数阈值或者投资企业个数阈值的投资节点,按照投资比例大小排序,识别提取所述股东个数阈值或者所述投资企业个数阈值前的股东或者被投节点,从而得到更新后的投资关系数据。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,基于图谱的确定投资数据的装置在获取到直接的投资关系数据后,可以基于Spark将投资关系数据转换为投资关系特征图谱,进而图计算引擎对投资关系特征图谱进行处理,确定目标投资节点的投资数据,从而提供了一种高效便捷确定企业投资数据的方法。
为解决上述技术问题,本申请实施例还提供一种计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器610、处理器620、网络接口630。需要指出的是,图中仅示出了具有组件610-630的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器610至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器610可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器610也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器610还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器610通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如基于图谱的确定投资数据的方法的计算机可读指令等。此外,所述存储器610还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器620在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器620通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器620用于运行所述存储器610中存储的计算机可读指令或者处理数据,例如运行所述基于图谱的确定投资数据的方法的计算机可读指令。
所述网络接口630可包括无线网络接口或有线网络接口,该网络接口630通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于图谱的确定投资数据的方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种基于图谱的确定投资数据的方法,其特征在于,包括下述步骤:
获取各个投资节点之间直接的投资关系数据,所述投资节点包括投资者和被投企业;
基于Spark将所述投资关系数据转换为投资关系特征图谱,所述投资关系特征图谱为有向图,所述所述投资关系特征图谱中的边信息包括投资比例数据;
利用图计算引擎对所述投资关系特征图谱进行迭代计算,并为所述投资关系特征图谱中的目标投资节点生成对应的三元组,所述三元组用于指示所述目标投资节点的投资数据,其中,每组所述三元组由投资者标识、被投企业标识和投资比例数据组成,所述投资者标识为直接投资者或者间接投资者的唯一标识,所述被投企业标识为所述投资者标识对应投资者直接或者间接投资的企业的唯一标识。
2.根据权利要求1所述的方法,其特征在于,所述利用图计算引擎对所述投资关系特征图谱进行迭代计算,并为所述投资关系特征图谱中的目标投资节点生成对应的三元组的步骤,包括:
为每个投资节点设置初始三元组;
利用pregel对所述投资关系特征图谱中所述每个投资节点当前的三元组进行迭代更新;
在达到迭代停止条件时,保存所述每个投资节点在迭代过程中生成的所有三元组。
3.根据权利要求2所述的方法,其特征在于,所述利用pregel对所述投资关系特征图谱中所述每个投资节点当前的三元组进行迭代更新的步骤,包括:
步骤A:利用所述投资关系特征图谱中所述每个投资节点正向边的边信息,对所述每个投资节点当前的三元组进行更新,所述边信息包括投资比例信息;
步骤B:将更新后的所述三元组推送至所述正向边相连的下游投资节点;
步骤C:获取所述每个投资节点的上游投资节点发送的三元组,并保存在本地;
迭代执行所述步骤A至所述步骤C。
4.根据权利要求2所述的方法,其特征在于,所述在达到迭代停止条件时,保存所述每个投资节点在迭代过程中生成的所有三元组的步骤之后,所述方法还包括:
生成并保留生成的每个三元组和迭代轮次的对应关系;
响应用户对所述目标投资节点投资关系的浏览操作,根据所述对应关系,将所述目标投资节点的投资关系数据分层显示。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述获取各个投资节点之间直接的投资关系数据,包括:
响应获取指令或者查询指令,并提取所述获取指令或者查询指令中包括的筛选参数;
根据所述筛选参数从投资关系源数据中筛选确定所述投资关系数据。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述获取各个投资节点之间直接的投资关系数据的步骤之后,所述方法还包括:
对所述投资关系数据进行去重预处理和融合预处理;
所述基于Spark将所述投资关系数据转换为投资关系特征图谱,包括:
基于Spark将预处理后的所述投资关系数据转换为投资关系特征图谱。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述获取各个投资节点之间直接的投资关系数据的步骤之后,所述方法还包括:
对所述投资关系数据中,投资关系条数中超过预先设定的股东个数阈值或者投资企业个数阈值的投资节点,按照投资比例大小排序,识别提取所述股东个数阈值或者所述投资企业个数阈值前的股东或者被投节点,从而得到更新后的投资关系数据。
8.一种基于图谱的确定投资数据的装置,其特征在于,包括:
获取单元,用于获取各个投资节点之间直接的投资关系数据,所述投资节点包括投资者和被投企业;
转换单元,用于基于Spark将所述投资关系数据转换为投资关系特征图谱,所述投资关系特征图谱为有向图,所述所述投资关系特征图谱中的边信息包括投资比例数据;
图计算单元,用于利用图计算引擎对所述投资关系特征图谱进行迭代计算,并为所述投资关系特征图谱中的目标投资节点生成对应的三元组,所述三元组用于指示所述目标投资节点的投资数据,其中,每组所述三元组由投资者标识、被投企业标识和投资比例数据组成,所述投资者标识为直接投资者或者间接投资者的唯一标识,所述被投企业标识为所述投资者标识对应投资者直接或者间接投资的企业的唯一标识。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于图谱的确定投资数据的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于图谱的确定投资数据的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011614547.2A CN112732925A (zh) | 2020-12-31 | 2020-12-31 | 基于图谱的确定投资数据的方法、存储介质及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011614547.2A CN112732925A (zh) | 2020-12-31 | 2020-12-31 | 基于图谱的确定投资数据的方法、存储介质及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112732925A true CN112732925A (zh) | 2021-04-30 |
Family
ID=75611203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011614547.2A Pending CN112732925A (zh) | 2020-12-31 | 2020-12-31 | 基于图谱的确定投资数据的方法、存储介质及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732925A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626438A (zh) * | 2021-08-12 | 2021-11-09 | 深圳平安智汇企业信息管理有限公司 | 一种数据表管理的方法、装置、计算机设备及存储介质 |
-
2020
- 2020-12-31 CN CN202011614547.2A patent/CN112732925A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626438A (zh) * | 2021-08-12 | 2021-11-09 | 深圳平安智汇企业信息管理有限公司 | 一种数据表管理的方法、装置、计算机设备及存储介质 |
CN113626438B (zh) * | 2021-08-12 | 2024-04-30 | 深圳平安智汇企业信息管理有限公司 | 一种数据表管理的方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112445854B (zh) | 多源业务数据实时处理方法、装置、终端及存储介质 | |
CN112507027A (zh) | 基于Kafka的增量数据同步方法、装置、设备及介质 | |
CN108241529B (zh) | 薪资计算方法、应用服务器及计算机可读存储介质 | |
CN112052138A (zh) | 业务数据质量检测方法、装置、计算机设备及存储介质 | |
CN114691658A (zh) | 一种数据回溯方法、装置、电子设备及存储介质 | |
CN112559631A (zh) | 分布式图数据库的数据处理方法、装置以及电子设备 | |
CN107133233B (zh) | 一种配置数据查询的处理方法及装置 | |
CN112905805A (zh) | 知识图谱构建方法及装置、计算机设备和存储介质 | |
CN114416703A (zh) | 数据完整性自动监控方法、装置、设备及介质 | |
CN112732925A (zh) | 基于图谱的确定投资数据的方法、存储介质及相关设备 | |
CN114064925A (zh) | 知识图谱的构建方法、数据查询方法、装置、设备和介质 | |
WO2019192101A1 (zh) | 客户保障分析方法、电子装置及计算机可读存储介质 | |
WO2019095569A1 (zh) | 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质 | |
GB2505186A (en) | Using machine learning to categorise software items | |
CN112860662A (zh) | 数据血缘关系建立方法、装置、计算机设备及存储介质 | |
CN111752958A (zh) | 智能关联标签方法、装置、计算机设备及存储介质 | |
CN114968719A (zh) | 线程运行状态分类方法、装置、计算机设备及存储介质 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
CN115936895A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN110443560B (zh) | 一种协议数据管理方法、装置、计算机设备及存储介质 | |
CN113626438A (zh) | 一种数据表管理的方法、装置、计算机设备及存储介质 | |
CN113407495A (zh) | 一种基于simhash的文件相似度判定方法及系统 | |
CN116107991A (zh) | 容器标签数据库构建方法、装置、存储介质及电子设备 | |
CN113590217A (zh) | 基于引擎的函数管理方法、装置、电子设备及存储介质 | |
CN103761247B (zh) | 一种出错文件的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |