CN113239243A - 基于多计算平台的图数据分析方法、装置和计算机设备 - Google Patents

基于多计算平台的图数据分析方法、装置和计算机设备 Download PDF

Info

Publication number
CN113239243A
CN113239243A CN202110773206.8A CN202110773206A CN113239243A CN 113239243 A CN113239243 A CN 113239243A CN 202110773206 A CN202110773206 A CN 202110773206A CN 113239243 A CN113239243 A CN 113239243A
Authority
CN
China
Prior art keywords
calculation
analysis
map
result
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110773206.8A
Other languages
English (en)
Inventor
袁泽江
陈敏
曾琰
林鹏
黄九鸣
张圣栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xinghan Shuzhi Technology Co ltd
Original Assignee
Hunan Xinghan Shuzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xinghan Shuzhi Technology Co ltd filed Critical Hunan Xinghan Shuzhi Technology Co ltd
Priority to CN202110773206.8A priority Critical patent/CN113239243A/zh
Publication of CN113239243A publication Critical patent/CN113239243A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Abstract

本发明涉及图数据领域,提供了一种基于多计算平台的图数据分析方法、装置和计算机设备,所述方法包括:接收图谱计算任务,所述图谱计算任务携带计算任务类型;根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于所述计算任务类型的基准测试分数,得到与所述计算任务类型的匹配程度;根据各所述匹配程度从已兼容的各所述计算框架中确定最优计算框架;调用所述最优计算框架进行图谱分析计算,输出分析计算结果。采用本方法能够提高效率和准确率。

Description

基于多计算平台的图数据分析方法、装置和计算机设备
技术领域
本发明属于图数据领域,尤其涉及一种基于多计算平台的图数据分析方法、装置和计算机设备。
背景技术
对于图数据的计算分析,现有通常采用Spark-GraphX,GraphFrame,plato等图数据计算框架。其中,不同的计算框架,对原始数据的格式、输出计算结果的格式、计算算法、优势计算模型以及所擅长的计算类型都有所不同。
然而,在实际应用中,由于图谱计算一般需要使用到多种图谱算法,所以若只使用一种计算框架往往会在框架不擅长的计算类型上达到计算瓶颈,降低了图数据分析的准确率。而若同时使用多种计算框架,则需要开发多种图计算程序,并且需要根据不同的计算框架,开发不同的结果解析程序,开发工作量巨大,从而降低图数据分析的效率。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高效率和准确率的基于多计算平台的图数据分析方法、装置和计算机设备。
本发明提供一种基于多计算平台的图数据分析方法,包括:
接收图谱计算任务,所述图谱计算任务携带计算任务类型;
根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于所述计算任务类型的基准测试分数,得到与所述计算任务类型的匹配程度;
根据各所述匹配程度从已兼容的各所述计算框架中确定最优计算框架;
调用所述最优计算框架进行图谱分析计算,输出分析计算结果。
在其中一个实施例中,所述调用所述最优计算框架进行图谱分析计算,输出分析计算结果,包括:
读取图谱源数据并转换成系统标准输入格式,得到标准格式图谱源数据;
根据所述标准格式图谱源数据进行图谱分析计算,得到分析计算结果;
将所述分析计算结果转换成系统标准输出格式后输出。
在其中一个实施例中,所述将所述分析计算结果转换成系统标准输出格式后输出,包括:将所述分析计算结果转换成逗号分隔值格式文件后输出,所述逗号分隔值格式文件按行且以键值存储的方式存储所述分析计算结果。
在其中一个实施例中,所述方法还包括:
接收结果查询请求,解析所述结果查询请求获取分析计算结果标识;
根据所述分析计算结果标识查询分析计算结果。
在其中一个实施例中,所述根据所述分析计算结果标识查询分析计算结果,包括:
根据所述分析计算结果标识与保存路径的映射关系,得到分析计算结果保存路径;
根据所述分析计算结果保存路径从结果数据共享文件系统中读取对应的分析计算结果的文件内容,所述结果数据共享文件系统存储有转换成系统标准输出格式后的分析计算结果。
在其中一个实施例中,所述分析已兼容的各计算框架分别与所述计算任务类型的匹配程度之前,还包括:
解析所述图谱计算任务是否携带有计算框架标识;
当携带有计算框架标识时,根据所述计算框架标识调用指定的计算框架进行图谱计算分析;
当未携带有计算框架标识时,进入分析已兼容的各计算框架分别与所述计算任务类型的匹配程度的步骤。
一种基于多计算平台的图数据分析装置,包括:
接收模块,用于接收图谱计算任务,所述图谱计算任务携带计算任务类型;
分析模块,用于根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于所述计算任务类型的基准测试分数,得到与所述计算任务类型的匹配程度;
计算框架优化模块,用于根据所述匹配程度从已兼容的各所述计算框架中确定最优计算框架;
计算任务执行模块,用于调用所述最优计算框架进行图谱分析计算,输出分析计算结果。
本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的基于多计算平台的图数据分析方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的基于多计算平台的图数据分析方法的步骤。
上述基于多计算平台的图数据分析方法、装置和计算机设备,接收到携带计算任务类型的图谱计算任务后,根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于计算任务类型的基准测试分数,得到与计算任务类型的匹配程度,进而根据各匹配程度从已兼容的各计算框架中确定最优计算框架,然后调用最优计算框架进行图谱分析计算输出分析计算结果。该方法通过兼容多种不同的计算框架,可以实现各种类型图谱计算任务,提高效率。并且进行图谱计算时通过基准测试分数选择最优的计算框架,确保能够使用计算瓶颈最高的计算框架进行计算,从而提高准确率。
附图说明
图1为一个实施例中基于多计算平台的图数据分析的环境应用图。
图2为一个实施例中基于多计算平台的图数据分析方法的流程示意图。
图3为一个实施例中查询分析计算结果的流程示意图。
图4为一个实施例中基于多计算平台的图数据分析方法的时序交互示意图。
图5为一个实施例中基于多计算平台的图数据分析装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请提供的基于多计算平台的图数据分析方法,可以应用于如图1所示的应用环境中,该应用环境涉及客户端102和服务器104。其中,客户端102通过网络与服务器104进行通信。客户端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
当客户端102接收到用户下发的图谱计算任务时,可以由客户端102单独实现上述多计算平台的图数据分析方法。也可以由客户端102将图谱计算任务发送给通信的服务器104,由服务器104实现上述多计算平台的图数据分析方法。以服务器104为例,具体的,服务器104接收图谱计算任务,图谱计算任务携带计算任务类型;服务器104根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于计算任务类型的基准测试分数,得到与计算任务类型的匹配程度;服务器104根据各匹配程度从已兼容的各计算框架中确定最优计算框架;服务器104调用最优计算框架进行图谱分析计算,输出分析计算结果。
在一个实施例中,如图2所示,提供一种基于多计算平台的图数据分析方法,以该方法应用于服务器为例进行说明,包括以下步骤:
步骤S201,接收图谱计算任务,图谱计算任务携带计算任务类型。
其中,图谱计算任务是指示进行图谱计算(图数据分析)的计算请求指令,包括PageRank(网页排名)计算请求、最短路径计算请求、社区发现计算请求等。计算任务类型是指本次图谱计算任务所对应的任务类型,比如接收到的图谱计算任务是PageRank计算请求,由于PageRank计算请求需要使用PageRank算法进行计算,所以对应的计算任务类型即为PageRank算法。
具体的,当用户有图谱计算需求时,通过客户端向服务器下达携带有计算任务类型的图谱计算任务。
步骤S202,根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于计算任务类型的基准测试分数,得到与计算任务类型的匹配程度。
其中,系统计算资源包括CPU(central processing unit,中央处理器)空闲百分比、物理内存消耗量、硬盘空闲层度、网卡、声卡等一切计算机上硬件状态的综合繁忙层度。本实施例中,标准图谱数据为Graph500图数据库的标准图谱数据。基准测试分数即为benchmark分数。计算框架是指用于进行图谱计算的框架,包括但不限于spark GraphX计算框架,GraphFrames计算框架,Plato计算框架。若需要接入新的计算框架,通过接入本系统定义的数据转换接口和算子调用接口即可快速实现计算框架的接入。匹配程度用于反映计算框架与当前的计算任务类型的相匹配程度,通过匹配程度可以确定最适合本次图谱计算的最优计算框架。
具体的,为了挑选最适合本次计算任务的计算框架,服务器对已兼容的各个计算框架分别进行分析,分析各个计算框架与本次计算任务类型的匹配程度。匹配程度通过根据标准图谱数据和当前的系统计算资源来计算各计算框架对于计算任务类型的基准测试分数确定。应当理解的是,匹配程度的分析可以是服务器接收到图谱计算任务之后,实时的根据携带的计算任务类型进行分析。也可以是在系统初始化时预先根据各个计算任务类型进行预先分析,并将预先分析所得到的匹配程度进行保存。进而在服务器接收到图谱计算任务之后,根据所携带的计算任务类型直接获取本次所保存的该计算任务类型对应的匹配程度。
步骤S203,根据各匹配程度从已兼容的各计算框架中确定最优计算框架。
其中,最优计算框架可以理解为进行该计算任务类型的图谱计算时,速度最快、最稳定的计算框架。
具体的,当得到各个计算框架与本次计算任务的匹配程度之后,服务器比对各个计算框架的匹配程度,确定最优计算框架。比如,确定匹配程度最高的计算框架作为最优计算框架。
步骤S204,调用最优计算框架进行图谱分析计算,输出分析计算结果。
具体的,当确定最优计算框架之后,服务器调用最优计算框架对应的计算程序,执行该计算程序进行图数据的计算分析,输出分析计算结果。
上述基于多计算平台的图数据分析方法,接收到携带计算任务类型的图谱计算任务后,分别分析已兼容的各计算框架与计算任务类型的匹配程度,进而根据各匹配程度从已兼容的各计算框架中确定最优计算框架,然后调用最优计算框架进行图谱分析计算输出分析计算结果。该方法通过兼容多种不同的计算框架,可以实现各种类型图谱计算任务,并且进行图谱计算时选择最优的计算框架,确保能够使用计算瓶颈最高的计算框架进行计算,从而提高准确率。
在一个实施例中,步骤S202,具体的,服务器分析匹配程度时,获取当前可用的系统计算资源和Graph500标准图谱数据进行计算推演,得到在当前可用的系统计算资源的情况下,各个计算框架的benchmark分数。计算推演过程中,服务器创建一个计算资源管理器和一个计算框架与算法注册列表。计算资源管理器用于扫描整个集群中的可用的系统计算资源,比如扫描得到可用的CPU核数、可用内存大小等。计算框架与算法注册列表则用于记录每种计算框架在当前计算环境下的最优资源分配方案和benchmark分数。当服务器开始计算各个计算框架的benchmark分数时,逐个调用计算框架与算法注册列表中所记录包括的各个计算框架对应的计算算法,按照所记录的该计算框架的最优资源分配方案对所获取的Graph500标准图谱数据做图谱计算。计算过程中,计算资源管理器实时扫描可用的系统计算资源,进而服务器通过记录计算资源管理器实时所扫描的可用的系统计算资源的变化过程来确定当前计算框架实际计算所需要占用的计算资源数量。最终服务器通过本次计算实际占用的计算资源数量以及实际计算所用耗时综合得到该计算框架在当前计算环境下的benchmark分数。同时,服务器可以将该benchmark分数记录到计算框架与算法注册列表中,后续服务器可以直接从计算框架与算法注册列表中获取计算框架的benchmark分数。其中,计算框架与算法注册列表所记录的最优资源分配方案用户可以根据实际情况进行手动调整,而当用户修改之后,服务器将自动使用修改后的资源分配方案再次进行图谱计算,得到更新后的benchmark分数更新到注册列表中。然后,服务器获取得的各个计算框架的benchmark分数之后,通过benchmark分数的高低可以确定匹配程度,计算框架的benchmark分数越高表示该计算框架越适合本计算环境下该计算任务的计算。
本实施例中,由于benchmark分数记录已综合体现了当前CPU、内存、带宽等系统计算资源情况下各个计算框架的计算速度,计算稳定性。因此通过计算benchmark分数衡量匹配程度能够提高确定最优计算框架的准确性而确保更高的计算瓶颈能力,提高计算的准确性。
在一个实施例中,步骤S204,包括:读取图谱源数据并转换成系统标准输入格式,得到标准格式图谱源数据;根据标准格式图谱源数据进行图谱分析计算,得到分析计算结果;将分析计算结果转换成系统标准输出格式后输出。
具体的,进行图谱分析计算时,首先从图谱数据库中,例如从Junasgraph图谱数据库中读取图谱源数据,并将读取的图谱源数据转换成标准的graph-json图谱数据格式,从而将需要计算的图谱数据导出,得到本实施例的标准格式图谱源数据。其中,导出后的图谱数据可以保存到源数据共享文件系统便于后续的直接调用。然后,服务器对导出的标准格式图谱源数据进行图谱分析计算,得到分析计算结果。具体的图谱分析计算过程基于不同的计算框架有所不同,取决于该计算框架的计算方式。服务器最后再将得到的分析计算结果转换成系统标准格式后输出,同理,转换后的分析计算结果同样可以保存到结果数据共享文件系统中,便于后续直接进行结果查询。
本实施例中,由于兼容了多个不同的计算框架,而不同的计算框架之间的数据输入输出格式均不相同,因此本实施例通过采用统一的图谱数据格式,在数据输入之前和输出之后均进行统一的转换,使得同一份图谱数据可同时应用于多种不同的计算框架上进行计算。
在一个实施例中,将分析计算结果转换成系统标准输出格式后输出,包括:将分析计算结果转换成逗号分隔值格式文件后输出,逗号分隔值格式文件按行且以键值存储的方式存储分析计算结果。
具体的,由于不同计算框架计算结果输出的格式各不相同,为了后续能够统一对不同计算框架的计算结果进行解析,将分析计算结果进行统一的格式转换。以PageRank算法对应任务的分析计算结果为例,GraphX 和 Graphframe计算框架的计算结果是DataFrame的格式表示,这是一种类似关系型数据的库的表结构数据集。而PageRank的计算结果为数据集中的一个小数类型的字段。Plato计算框架的PageRank的计算结果为一组Key(关键字)-value(值)键值对。Key表示节点ID(标识),value是小数类型的计算结果。因此,本实施例统一将分析计算结果的格式转换为CSV(Comma-Separated Values,逗号分隔值)格式文件,文件内容为一行一行的Key-value键值对,key表示节点ID,value是小数类型的计算结果,表示这个节点的PageRank值。也就是说,在CSV文件中,key为计算结果的计算结果ID,value为计算结果的计算值。本实施例中,通过CSV统一将分析计算结果的格式进行转换,统一各个计算框架输出格式,方便后续的结果解析。
在一个实施例中,如图3所示,所述方法还包括:
步骤S301,接收结果查询请求,解析结果查询请求获取分析计算结果标识。
步骤S302,根据分析计算结果标识查询分析计算结果。
具体的,服务器接收用户通过客户端下发的结果查询请求,对结果查询请求进行解析,获取所携带的分析计算结果标识。其中,分析计算结果标识用于唯一对应图谱分析计算所得到的分析计算结果。然后,服务器根据分析计算结果标识查询对应的分析计算结果返回给到客户端。
在一个实施例中,根据分析计算结果标识查询分析计算结果,包括:根据分析计算结果标识与保存路径的映射关系,得到分析计算结果保存路径;根据分析计算结果保存路径从结果数据共享文件系统中读取对应的分析计算结果的文件内容,结果数据共享文件系统存储有转换成系统标准输出格式后的分析计算结果。
具体的,当完成图谱的分析计算且得到转换为系统标准输出格式的分析计算结果之后,服务器将该分析计算结果保存至结果数据共享文件系统中。并且,为每一个分析计算结果赋予唯一的ID,将ID与该分析计算结果的保存路径进行映射关联。进而,当服务器接收到结果查询请求之后,根据对结果查询请求解析所得到的分析计算结果标识与保存路径的映射关系,得到当前所查询的分析计算结果的保存路径。然后,服务器根据分析计算结果保存路径从存储计算结果的结果数据共享文件系统中读取对应的分析计算结果返回给到客户端。其中,结果数据共享文件系统可以使用分布式文件系统(Hadoop Distributed FileSystem,HDFS),或者公共文件服务器等。
本实施例中,对每一次的分析计算结果进行共享保存,能够便于后续直接查询,从而避免同一个分析计算结果的反复计算,从而节约资源提高效率。
在一个实施例中,步骤S202之前还包括:解析图谱计算任务是否携带有计算框架标识;当携带有计算框架标识时,根据计算框架标识调用指定的计算框架进行图谱计算分析;当未携带有计算框架标识时,进入步骤S202。
其中,计算框架标识(ID)是用于标识对应计算框架的标识,通过计算框架标识可以确定唯一对应的计算框架。
具体的,在分析与计算任务类型的匹配程度之前,服务器还需要解析图谱计算任务中是否有携带有计算框架ID。若图谱计算任务中携带有计算框架ID,表示用户有指定的计算框架,则服务器无需通过分析匹配程度挑选最优计算框架,直接根据携带的计算框架ID调用用户所指定的计算框架进行图谱分析的计算。而当图谱计算任务中没有携带有计算框架ID时,表示用户没有指定的计算框,为了能够确保计算速度、稳定性,则进入步骤S202,通过分析匹配程度选择最优计算框架进行图谱计算任务的计算。
本实施例中,通过分析图谱计算任务是否携带有计算框架ID确定用户是否有指定的计算框架来进行计算框架的调用,在用户有指定需求时优先满足用户需求,而用户没有指定时优先挑选最优的计算框架,提高用户体验的同时能够确保计算的准确性。
在一个实施例中,如图4所示,提供一种基于多计算平台的图数据分析方法的交互时序图,包括客户端、多计算平台的图数据分析系统服务端、计算框架计算资源服务端、源数据共享文件系统服务端以及结果数据共享文件系统服务端。其中,客户端包括请求模块和结果接收模块,请求模块负责向多计算平台的图数据分析系统发送请求,结果接收模块负责向多计算平台数据分析系统接收请求结果。源数据共享文件系统包括文件读取模块,用于负责提供API(Application Programming Interface,应用程序接口)实现文件的存取。结果数据共享文件系统包括文件读取模块,用于负责提供API实现文件的存取。
本实施例以多计算平台的图数据分析系统服务端为例对基于多计算平台的图数据分析方法进行详细的解释说明。
具体的,参考图4,多计算平台的图数据分析系统服务端启动之后,首先进行系统初始化,使用标准图谱数据集和当前可用的系统计算资源执行benchmark任务的计算,计算得到每个计算框架计算不同类型任务时的耗时、综合资源占用量等来得到计算框架的benchmark分数进行缓存。然后,接收客户端发送的计算任务请求,响应该计算任务请求,向计算框架计算资源请求当前可执行该任务的计算框架,得到可执行计算任务的计算框架ID。根据缓存的各计算框架的benchmark分数,从计算框架计算资源请求返回的计算框架中选择benchmark分数最高的计算框架确定为最优计算框架。进而,根据最优计算框架的ID调用该最优计算框架对应的计算程序并执行。执行过程中,首先从计算框架计算资源中的Junasgraph图谱数据库中读取graph-json标准数据格式的图谱源数据,根据读取的标准格式图谱源数据进行分析计算得到分析计算结果。同时将该图谱源数据存储到源数据共享文件系统中。然后,将分析计算结果转换成标准输出格式,并赋予ID后存储到结果数据共享文件系统中,以及将计算结果的ID返回给到客户端。客户端保存该计算ID,根据计算结果ID下发结果查询请求,根据计算结果ID与保存路径(地址)的映射关系解析出计算结果文件保存路径。基于该计算结果文件保存路径从结果数据共享文件系统中读取对应的计算结果文件内容返回给到客户端,客户端可以对得到的计算结果进行展示分析。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供一种多计算平台的图数据分析装置,包括:接收模块501、分析模块502、计算框架优化模块503和计算任务执行模块504。
接收模块501,用于接收图谱计算任务,图谱计算任务携带计算任务类型。
分析模块502,用于根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于计算任务类型的基准测试分数,得到与计算任务类型的匹配程度。
计算框架优化模块503,用于根据匹配程度从已兼容的各计算框架中确定最优计算框架。
计算任务执行模块504,用于调用最优计算框架进行图谱分析计算,输出分析计算结果。
在一个实施例中,计算任务执行模块504还用于读取图谱源数据并转换成系统标准输入格式,得到标准格式图谱源数据;根据标准格式图谱源数据进行图谱分析计算,得到分析计算结果;将分析计算结果转换成系统标准输出格式后输出。
在一个实施例中,计算任务执行模块504还用于将分析计算结果转换成逗号分隔值格式文件后输出,逗号分隔值格式文件按行且以键值存储的方式存储分析计算结果。
在一个实施例中,接收模块501还用于接收结果查询请求,解析结果查询请求获取分析计算结果标识。多计算平台的图数据分析装置还包括查询模块,用于根据分析计算结果标识查询分析计算结果。
在一个实施例中,查询模块还用于根据分析计算结果标识与保存路径的映射关系,得到分析计算结果保存路径;根据分析计算结果保存路径从结果数据共享文件系统中读取对应的分析计算结果的文件内容,结果数据共享文件系统存储有转换成系统标准输出格式后的分析计算结果。
在一个实施例中,分析模块502还用于解析图谱计算任务是否携带有计算框架标识;当携带有计算框架标识时,根据计算框架标识调用指定的计算框架进行图谱计算分析;当未携带有计算框架标识时,进入分别分析已兼容的各计算框架与计算任务类型的匹配程度的步骤。
关于多计算平台的图数据分析装置的具体限定可以参见上文中对于基于多计算平台的图数据分析方法的限定,在此不再赘述。上述多计算平台的图数据分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个基于多计算平台的图数据分析方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
在一个实施例中,提供一种计算机设备,该计算机设备可以是服务器,包括处理器,存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多计算平台的图数据分析方法。示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域技术人员可以理解,本实施例中所示出的计算机设备结构,仅仅是与本发明方案相关的部分结构,并不构成对本发明所应用于其上的计算机设备的限定,具体的计算机设备可以包括更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
接收图谱计算任务,图谱计算任务携带计算任务类型;
根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于计算任务类型的基准测试分数,得到与计算任务类型的匹配程度;
根据匹配程度从已兼容的各计算框架中确定最优计算框架;
调用最优计算框架进行图谱分析计算,输出分析计算结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:读取图谱源数据并转换成系统标准输入格式,得到标准格式图谱源数据;根据标准格式图谱源数据进行图谱分析计算,得到分析计算结果;将分析计算结果转换成系统标准输出格式后输出。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将分析计算结果转换成逗号分隔值格式文件后输出,逗号分隔值格式文件按行且以键值存储的方式存储分析计算结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:接收结果查询请求,解析结果查询请求获取分析计算结果标识;根据分析计算结果标识查询分析计算结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据分析计算结果标识与保存路径的映射关系,得到分析计算结果保存路径;根据分析计算结果保存路径从结果数据共享文件系统中读取对应的分析计算结果的文件内容,结果数据共享文件系统存储有转换成系统标准输出格式后的分析计算结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:解析图谱计算任务是否携带有计算框架标识;当携带有计算框架标识时,根据计算框架标识调用指定的计算框架进行图谱计算分析;当未携带有计算框架标识时,进入分别分析已兼容的各计算框架与计算任务类型的匹配程度的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收图谱计算任务,图谱计算任务携带计算任务类型;
根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于计算任务类型的基准测试分数,得到与计算任务类型的匹配程度;
根据匹配程度从已兼容的各计算框架中确定最优计算框架;
调用最优计算框架进行图谱分析计算,输出分析计算结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:读取图谱源数据并转换成系统标准输入格式,得到标准格式图谱源数据;根据标准格式图谱源数据进行图谱分析计算,得到分析计算结果;将分析计算结果转换成系统标准输出格式后输出。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将分析计算结果转换成逗号分隔值格式文件后输出,逗号分隔值格式文件按行且以键值存储的方式存储分析计算结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:接收结果查询请求,解析结果查询请求获取分析计算结果标识;根据分析计算结果标识查询分析计算结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据分析计算结果标识与保存路径的映射关系,得到分析计算结果保存路径;根据分析计算结果保存路径从结果数据共享文件系统中读取对应的分析计算结果的文件内容,结果数据共享文件系统存储有转换成系统标准输出格式后的分析计算结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:解析图谱计算任务是否携带有计算框架标识;当携带有计算框架标识时,根据计算框架标识调用指定的计算框架进行图谱计算分析;当未携带有计算框架标识时,进入分别分析已兼容的各计算框架与计算任务类型的匹配程度的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于多计算平台的图数据分析方法,其特征在于,包括:
接收图谱计算任务,所述图谱计算任务携带计算任务类型;
根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于所述计算任务类型的基准测试分数,得到与所述计算任务类型的匹配程度;
根据各所述匹配程度从已兼容的各所述计算框架中确定最优计算框架;
调用所述最优计算框架进行图谱分析计算,输出分析计算结果。
2.根据权利要求1所述的方法,其特征在于,所述调用所述最优计算框架进行图谱分析计算,输出分析计算结果,包括:
读取图谱源数据并转换成系统标准输入格式,得到标准格式图谱源数据;
根据所述标准格式图谱源数据进行图谱分析计算,得到分析计算结果;
将所述分析计算结果转换成系统标准输出格式后输出。
3.根据权利要求2所述的方法,其特征在于,所述将所述分析计算结果转换成系统标准输出格式后输出,包括:将所述分析计算结果转换成逗号分隔值格式文件后输出,所述逗号分隔值格式文件按行且以键值存储的方式存储所述分析计算结果。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收结果查询请求,解析所述结果查询请求获取分析计算结果标识;
根据所述分析计算结果标识查询分析计算结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述分析计算结果标识查询分析计算结果,包括:
根据所述分析计算结果标识与保存路径的映射关系,得到分析计算结果保存路径;
根据所述分析计算结果保存路径从结果数据共享文件系统中读取对应的分析计算结果的文件内容,所述结果数据共享文件系统存储有转换成系统标准输出格式后的分析计算结果。
6.根据权利要求1所述的方法,其特征在于,所述分析已兼容的各计算框架分别与所述计算任务类型的匹配程度之前,还包括:
解析所述图谱计算任务是否携带有计算框架标识;
当携带有计算框架标识时,根据所述计算框架标识调用指定的计算框架进行图谱计算分析;
当未携带有计算框架标识时,进入分析已兼容的各计算框架分别与所述计算任务类型的匹配程度的步骤。
7.一种基于多计算平台的图数据分析装置,其特征在于,包括:
接收模块,用于接收图谱计算任务,所述图谱计算任务携带计算任务类型;
分析模块,用于根据标准图谱数据和当前的系统计算资源分别计算已兼容的各计算框架对于所述计算任务类型的基准测试分数,得到与所述计算任务类型的匹配程度;
计算框架优化模块,用于根据所述匹配程度从已兼容的各所述计算框架中确定最优计算框架;
计算任务执行模块,用于调用所述最优计算框架进行图谱分析计算,输出分析计算结果。
8.一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器用于执行所述计算机程序时实现权利要求1-6中任意一项所述的基于多计算平台的图数据分析方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任意一项所述的基于多计算平台的图数据分析方法。
CN202110773206.8A 2021-07-08 2021-07-08 基于多计算平台的图数据分析方法、装置和计算机设备 Pending CN113239243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110773206.8A CN113239243A (zh) 2021-07-08 2021-07-08 基于多计算平台的图数据分析方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110773206.8A CN113239243A (zh) 2021-07-08 2021-07-08 基于多计算平台的图数据分析方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN113239243A true CN113239243A (zh) 2021-08-10

Family

ID=77141354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110773206.8A Pending CN113239243A (zh) 2021-07-08 2021-07-08 基于多计算平台的图数据分析方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN113239243A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834561A (zh) * 2015-04-29 2015-08-12 华为技术有限公司 一种数据处理方法及装置
CN106354729A (zh) * 2015-07-16 2017-01-25 阿里巴巴集团控股有限公司 一种图数据处理方法、装置和系统
US20170201434A1 (en) * 2014-05-30 2017-07-13 Hewlett Packard Enterprise Development Lp Resource usage data collection within a distributed processing framework
CN107562528A (zh) * 2017-09-11 2018-01-09 金蝶软件(中国)有限公司 支持多种计算框架的单元化按需计算方法及相关装置
US20180144251A1 (en) * 2016-11-23 2018-05-24 Institute For Information Industry Server and cloud computing resource optimization method thereof for cloud big data computing architecture
CN109933306A (zh) * 2019-02-11 2019-06-25 山东大学 混合计算框架生成、数据处理方法、装置及混合计算框架
CN110109799A (zh) * 2019-03-29 2019-08-09 北京奇安信科技有限公司 一种计算资源运行状况的实时监控处理方法及装置
CN110688993A (zh) * 2019-12-10 2020-01-14 中国人民解放军国防科技大学 一种基于Spark作业的计算资源确定方法及装置
CN110704186A (zh) * 2019-09-25 2020-01-17 国家计算机网络与信息安全管理中心 基于混合分布架构的计算资源分配方法、装置和存储介质
CN111192123A (zh) * 2019-12-25 2020-05-22 深圳晶泰科技有限公司 一种基于混合云计算平台的对账系统及其对账方法
CN111290917A (zh) * 2020-02-26 2020-06-16 深圳市云智融科技有限公司 基于yarn的资源监控方法、装置及终端设备
CN111880911A (zh) * 2020-06-19 2020-11-03 浪潮电子信息产业股份有限公司 一种任务负载调度方法、装置、设备及可读存储介质
CN112148926A (zh) * 2019-06-28 2020-12-29 京东数字科技控股有限公司 一种图数据流的处理方法、处理装置和存储介质
CN112307270A (zh) * 2020-10-10 2021-02-02 苏州浪潮智能科技有限公司 一种图数据库中图计算方法及装置
CN112685160A (zh) * 2020-12-30 2021-04-20 深圳前海微众银行股份有限公司 定时任务的调度方法、装置,终端设备及计算机存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170201434A1 (en) * 2014-05-30 2017-07-13 Hewlett Packard Enterprise Development Lp Resource usage data collection within a distributed processing framework
CN104834561A (zh) * 2015-04-29 2015-08-12 华为技术有限公司 一种数据处理方法及装置
CN106354729A (zh) * 2015-07-16 2017-01-25 阿里巴巴集团控股有限公司 一种图数据处理方法、装置和系统
US20180144251A1 (en) * 2016-11-23 2018-05-24 Institute For Information Industry Server and cloud computing resource optimization method thereof for cloud big data computing architecture
CN107562528A (zh) * 2017-09-11 2018-01-09 金蝶软件(中国)有限公司 支持多种计算框架的单元化按需计算方法及相关装置
CN109933306A (zh) * 2019-02-11 2019-06-25 山东大学 混合计算框架生成、数据处理方法、装置及混合计算框架
CN110109799A (zh) * 2019-03-29 2019-08-09 北京奇安信科技有限公司 一种计算资源运行状况的实时监控处理方法及装置
CN112148926A (zh) * 2019-06-28 2020-12-29 京东数字科技控股有限公司 一种图数据流的处理方法、处理装置和存储介质
CN110704186A (zh) * 2019-09-25 2020-01-17 国家计算机网络与信息安全管理中心 基于混合分布架构的计算资源分配方法、装置和存储介质
CN110688993A (zh) * 2019-12-10 2020-01-14 中国人民解放军国防科技大学 一种基于Spark作业的计算资源确定方法及装置
CN111192123A (zh) * 2019-12-25 2020-05-22 深圳晶泰科技有限公司 一种基于混合云计算平台的对账系统及其对账方法
CN111290917A (zh) * 2020-02-26 2020-06-16 深圳市云智融科技有限公司 基于yarn的资源监控方法、装置及终端设备
CN111880911A (zh) * 2020-06-19 2020-11-03 浪潮电子信息产业股份有限公司 一种任务负载调度方法、装置、设备及可读存储介质
CN112307270A (zh) * 2020-10-10 2021-02-02 苏州浪潮智能科技有限公司 一种图数据库中图计算方法及装置
CN112685160A (zh) * 2020-12-30 2021-04-20 深圳前海微众银行股份有限公司 定时任务的调度方法、装置,终端设备及计算机存储介质

Similar Documents

Publication Publication Date Title
US20200327107A1 (en) Data Processing Method, Apparatus, and System
US10114682B2 (en) Method and system for operating a data center by reducing an amount of data to be processed
CN107229619B (zh) 互联网业务链路调用情况的统计、展示方法及装置
US20160188391A1 (en) Sophisticated run-time system for graph processing
US20230144100A1 (en) Method and apparatus for managing and controlling resource, device and storage medium
CN111177113B (zh) 数据迁移方法、装置、计算机设备和存储介质
WO2021258512A1 (zh) 数据的聚合处理装置、方法和存储介质
US11816511B1 (en) Virtual partitioning of a shared message bus
CN112905854A (zh) 数据处理方法、装置、计算设备及存储介质
CN110781159B (zh) Ceph目录文件信息读取方法、装置、服务器及存储介质
CN115391356A (zh) 数据处理方法、装置、设备、介质和计算机程序产品
CN112905596B (zh) 数据处理的方法、装置、计算机设备以及存储介质
CN113239243A (zh) 基于多计算平台的图数据分析方法、装置和计算机设备
CN113609168B (zh) 数据导出方法、装置、终端以及可读存储介质
WO2022001626A1 (zh) 注入时序数据的方法、查询时序数据的方法及数据库系统
US20220335047A1 (en) System and method for dynamic memory allocation for query execution
CN109902067B (zh) 文件处理方法、装置、存储介质及计算机设备
CN112749189A (zh) 数据查询方法及装置
CN112115150A (zh) 嵌入式内存数据库的数据管理方法、终端设备及介质
CN110851452A (zh) 数据表连接处理方法及装置、电子设备和存储介质
US20220197874A1 (en) Efficient storage of key-value data with schema integration
CN115544055A (zh) 计算引擎确定方法及设备
CN114826864A (zh) 应用系统的架构确定方法和装置、电子设备及计算机可读存储介质
CN114385569A (zh) 文件压缩方法、装置、电子设备及存储介质
CN113448995A (zh) 数据库操作方法及装置、系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210810

RJ01 Rejection of invention patent application after publication