CN116304218A - 一种基于图数据库集成多领域平台的实现方法及系统 - Google Patents
一种基于图数据库集成多领域平台的实现方法及系统 Download PDFInfo
- Publication number
- CN116304218A CN116304218A CN202310590752.7A CN202310590752A CN116304218A CN 116304218 A CN116304218 A CN 116304218A CN 202310590752 A CN202310590752 A CN 202310590752A CN 116304218 A CN116304218 A CN 116304218A
- Authority
- CN
- China
- Prior art keywords
- graph
- data
- database
- analysis
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请涉及计算机技术领域,解决了现有技术中复杂图查询、图计算和图分析具有较高的门槛的问题,公开了一种基于图数据库集成多领域平台的实现方法及系统,该方法包括:对分布式计算平台和图数据库的接口进行封装,在Jupyter Notebook的交互界面中设计用于数据导入、数据预处理、图计算、图查询和图分析的交互式单元格,将数据导入、数据预处理、图计算、图查询和图分析步骤组合成自动化的数据管道,将图计算、图查询和图分析结果转换成可视化图形,该方法能够用简单的自然语言实现全流程的图计算、图查询和图分析任务,大大的降低了使用门槛和开发成本,通过将图计算、图查询和图分析结果图形化。
Description
技术领域
本申请涉及计算机技术领域,尤其是一种基于图数据库集成多领域平台的实现方法及系统。
背景技术
随着大数据技术的快速发展,各大公司,尤其是联网企业,都在从各个角度采集数据、存储数据、处理数据、分享数据、检索数据、分析数据、展示数据和挖掘数据背后的商业价值。不同个体之间彼此交互而产生的数据以图的形式表现,在通信、互联网、电子商务、社交网络和物联网等领域都积累有大规模的图数据。
图由节点与边构成,具有图结构的数据为图数据。图计算是对图数据的处理技术,例如图数据库和图计算框架,无论是分布式还是单节点的方案,都是构建于物理机上,通过部署在物理机上的服务来满足用户需求,多个用户共享使用同一个服务。
其中,分布式计算平台和图数据库是广泛使用的技术,然而,使用分布式计算平台和图数据库技术进行复杂图查询、图计算和图分析,在描述业务需求时通常需要用户熟练掌握特定的编程语言和工具,由于非专业人士通常不具有编写代码的能力,在进行复杂图查询、图计算和图分析具有较高的门槛,并且图分析和图计算的结果通常以文字描述的形式呈现给用户,使得结果的展示不够直观。
发明内容
本申请的目的在于解决了现有技术中复杂图查询、图计算和图分析具有较高的门槛的问题,提供一种基于图数据库集成多领域平台的实现方法及系统。
第一方面,提供了一种基于图数据库集成多领域平台的实现方法,包括:
对分布式计算平台和图数据库的接口进行封装,所述分布式计算平台包括ChatGPT大型语言模型;
在Jupyter Notebook的交互界面中设计用于数据导入、数据预处理、图计算、图查询和图分析的交互式单元格,其中,所述交互式单元格能够通过代码、自然语言或可视化工具进行操作;
将数据导入、数据预处理、图计算、图查询和图分析步骤组合成自动化的数据管道,以实现自动化的数据处理和分析;
将图计算、图查询和图分析结果转换成可视化图形。
进一步的,所述图数据库为NebulaGraph原生图数据库,所述分布式计算平台还包括Dashboard可视化工具、Studio图数据可视化工具、Spark utils工具包和UDF可扩展组件。
可选的,所述分布式计算平台还包括BR备份工具。
具体的,所述ChatGPT大型语言模型用于自然语言、代码和可视化图形之间的相互转换。
具体的,所述可视化图形包括节点、节点上的属性、边和边上的属性。
进一步的,所述边的两端均连接有节点,且所述节点的位置能够进行拖动。
第二方面,提供了一种基于图数据库集成多领域平台的实现系统,包括:
接口封装模块,用于对分布式计算平台和图数据库的接口进行封装,所述分布式计算平台包括ChatGPT大型语言模型;
界面交互模块,用于在Jupyter Notebook的交互界面中设计用于数据导入、数据预处理、图计算、图查询和图分析的交互式单元格,其中,所述交互式单元格能够通过代码、自然语言或可视化工具进行操作;
数据管道搭建模块,用于将数据导入、数据预处理、图计算、图查询和图分析步骤组合成自动化的数据管道,以实现自动化的数据处理和分析;
数据可视化模块,用于将图计算、图查询和图分析结果转换成可视化图形。
进一步的,所述图数据库为NebulaGraph原生图数据库,所述分布式计算平台还包括Dashboard可视化工具、Studio图数据可视化工具、Spark utils工具包和UDF可扩展组件。
第三方面,提供了一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如第一方面中的任意一种实现方式中方法的步骤。
第四方面,提供了一种电子设备,所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面中的任意一种实现方式中的方法。
本申请具有如下有益效果:
1、采用基于Jupyter Notebook的交互界面,使得用户可以方便地使用数据科学家熟悉的方式、语言(JAVA, Python, Scala)进行图计算、图查询和图分析;
2、采用分布式计算平台,能够支持单机平台、并行平台和GNN平台在友好的封装与抽象下,只需一个参数修改就实现了不同运行时的执行,加速研究-验证-落地的反馈循环;
3、通过构建自动化的数据管道,能够帮助用户节省时间和精力,从而更快地完成复杂的数据处理和分析任务;
4、通过将图计算、图查询和图分析结果图形化,使得图计算、图查询和图分析的结果更加直观和易于理解;
5、接入了ChatGPT大型语言模型,能够对自然语言进行转换,从而能够用简单的自然语言实现全流程的图计算、图查询和图分析任务,大大的降低了使用门槛和开发成本。
附图说明
构成本申请的一部分的附图用于来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一的基于图数据库集成多领域平台的实现方法的流程图;
图2是本申请实施例一的基于图数据库集成多领域平台的实现方法中的接口封装示意图;
图3是本申请实施例一的基于图数据库集成多领域平台的实现方法中输出结果的可视化图形;
图4是本申请实施例二的基于图数据库集成多领域平台的实现系统的结构框图;
图5是本申请实施例四的电子设备的内部结构示意图。
附图标记:
100、接口封装模块;200、界面交互模块;300、数据管道搭建模块;400、数据可视化模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
本申请实施例一所涉及的一种基于图数据库集成多领域平台的实现方法,包括:对分布式计算平台和图数据库的接口进行封装,所述分布式计算平台包括ChatGPT大型语言模型;在Jupyter Notebook的交互界面中设计用于数据导入、数据预处理、图计算、图查询和图分析的交互式单元格,其中,所述交互式单元格能够通过代码、自然语言或可视化工具进行操作;将数据导入、数据预处理、图计算、图查询和图分析步骤组合成自动化的数据管道,以实现自动化的数据处理和分析;将图计算、图查询和图分析结果转换成可视化图形,该方法采用基于Jupyter Notebook的交互界面,使得用户可以方便地使用数据科学家熟悉的方式、语言(JAVA, Python, Scala)进行图计算、图查询和图分析;采用分布式计算平台,能够支持单机平台、并行平台和GNN平台在友好的封装与抽象下,只需一个参数修改就实现了不同运行时的执行,加速研究-验证-落地的反馈循环;通过构建自动化的数据管道,能够帮助用户节省时间和精力,从而更快地完成复杂的数据处理和分析任务;通过将图计算、图查询和图分析结果图形化,使得图计算、图查询和图分析的结果更加直观和易于理解;接入了ChatGPT大型语言模型,能够对自然语言进行转换,从而能够用简单的自然语言实现全流程的图计算、图查询和图分析任务,大大的降低了使用门槛和开发成本。
具体的,图1示出了申请实施例一中的基于图数据库集成多领域平台的实现方法的流程图,包括:
S101、对分布式计算平台和图数据库的接口进行封装,如图2所示,所述分布式计算平台包括ChatGPT大型语言模型;
随着大数据和人工智能的迅猛发展,超大规模关系网络逐步在社交推荐、风险控制、物联网、区块链、安全防控领域被广泛使用,而作为所有这些应用的技术基石之一,大规模分布式关系网络的存储和计算平台越来越受到学术界和工业界的关注。这类关系网络通常以数据结构中的图论(Graph)为理论基础,构成图的核心要素有两个:点(vertex或node,也称为节点)以及点上的属性,和边(edge,也称为关联关系)以及边上的属性。
其中,所述图数据库为NebulaGraph原生图数据库,所述分布式计算平台还包括Dashboard可视化工具、Studio图数据可视化工具、Spark utils工具包和UDF可扩展组件,NebulaGraph原生图数据库是一款开源的、分布式的、易扩展的原生图数据库,能够承载包含数千亿个点和数万亿条边的超大规模数据集,并且提供毫秒级查询。围绕NebulaGraph还有一系列的周边生态工具,例如:
Dashboard可视化工具:用于监控和管理 NebulaGraph 多集群中机器和服务状态的可视化工具;
Studio图数据可视化工具:通过 Web 访问的图数据库可视化工具;
Console:NebulaGraph的原生 CLI 客户端;
Spark utils:基于 Spark导入、导出 NebulaGraph数据以及图计算的工具包;
UDF(全称User Defined Function)可扩展组件:是内嵌在图数据库内核进程中的可扩展组件;
示例性的,分布式计算平台的核心组件包括:
-Spark Cluster,作为其中一种计算后端引擎,负责分布式数据读取、写入、计算的复杂运行时,此外,与之并行的平台还有 NetworkX、GNN、DGL,后者处在相同的调用位置;
-ngai,作为本申请平台方案的核心逻辑,实现了接口的封装,可插拔多引擎插拔调用的实现,其内部包含读取、计算、写入、GNN(图神经网络)等负载类型的模块与抽象,同时,包括所有后端引擎(Engine)集成的插件式模块,负责在相应的工作负载与后端引擎需求下的执行逻辑;
-ngai-api,作为支持图数据库UDF(自定义函数调用)接口的接口服务,承接图数据库远程调用(RPC),并代理平台请求给 ngai 内部模块;
-架构图ngai区域下方的区域为图数据库内核,除了 ngai-udf 部分,其余都是标准的图数据库;
这其中ngai-udf负责为数据库内核增加面向本申请方案引入的自定义函数(UDF),作为图数据库内核插件存在;图数据库内部包括 graph engine(图引擎)与storage engine(存储引擎);
典型的调用流程:
-无论是从图数据库还是从编程语言接口(比如:Python、Scala、Java),一个典型的图计算任务负载会包含这几个步骤:读取图数据库或者其他介质中的子图、进行计算并输出结果、结果写入介质或者图数据;
-子图读取:
ngai.reader 读模块根据输入参数选择介质(比如图数据库),读取方式(比如基于查询、基于存储层扫描等)与执行平台(spark, netowrkx,dgl 等),在任务验证有效之后,可以开始执行,执行的平台会根据方式、平台不同调用不同模块,比如:spark 引擎的扫描模式(scan mode),则会调用 spark_scan_reader 与 spark engine;
读取完成之后的输出是一个图对象,其存储介质根据不同后端而有所不同,比如如果是 spark 引擎,则存在于 spark cluster(集群)之中;
-算法执行
ngai.algo 运算模块接受读模块的输出:子图,根据其他运算相关参数在相应后端之中进行运算,结果数据为相应引擎之上的 DataFrame(数据表),例如:Spark 引擎中的结果为 Spark DataFrame,在运行时,比如:在 spark 引擎下的 PageRank 算法中,ngai.algo 会从 ngai.algo.pagerank 中调用 spark Engine 模块,最终在 spark 集群中并行执行算法。
-结果写回
ngai.writer 写入模块接受运算完成之后的数据,根据给定的配置写入到不同的输出(sink)可能是数仓、文件或者写回图数据库的点、或者边之中,例如:当输出为NebulaGraph 点并且运算结果是 PageRank 之后,ngai.writer 会将结果读取,调用NebulaGraph Engine 的写回图数据库;
-此外,当以上的过程的触发从图数据库发起时候(基于自定义函数 udf),调用流程只是增加了从图数据库中的 udf 插件到 ngai-api、然后从 ngai-api 到各个 ngai 读取、算法、写入模块与后端引擎调用过程,其余的流程是一样的;
图数据库中发起一个图算法任务的时候,读取、运算、写入的参数在一个请求里被一并输入、执行;
图数据库的图引擎解析到这个自定义算法函数(udf),会调用 ngai-udf 插件;
Ngai-udf 插件迪根据输入信息与配置,调用 ngai-api;
Ngai-api 会将传入上下文(包含读取、运算、写入),调用 ngai 各个模块进行任务执行,其过程同上。
在进一步的实施例中,所述分布式计算平台还包括BR备份工具,其中,BR备份工具用于帮助备份 NebulaGraph 的图空间数据,或者通过备份文件恢复数据;
ChatGPT大型语言模型由OpenAI开发的大型语言模型,被训练来与人类进行自然语言交互,可以回答各种问题,从各种主题的知识到简单的闲聊,训练数据来自互联网上的大量文本,包括书籍、文章、新闻、社交媒体帖子等,ChatGPT大型语言模型用于自然语言、代码和可视化图形之间的相互转换;
示例性的,三行代码就可以做到读取一个待计算的子图,如:
from ng_ai import NebulaReader
# read data with spark engine, scan mode
reader = NebulaReader(engine="spark")
reader.scan(edge="follow", props="degree")
df = reader.read()
一行代码就可以调动给定的后端(Spark 或者其他分布式、单机后端引擎),执行图算法、图分析、图神经网络训练,如:
pr_result = df.algo.pagerank(reset_prob=0.15, max_iter=10)
将结果写回图,如:
from ng_ai import NebulaWriter
from ng_ai.config import NebulaGraphConfig
config = NebulaGraphConfig()
writer = NebulaWriter(
data=df_result, sink="nebulagraph_vertex", config=config, engine="spark"
)
# map column louvain into property cluster_id
properties = {"lpa": "cluster_id"}
writer.set_options(
tag="label_propagation",
vid_field="_id",
properties=properties,
batch_size=256,
write_mode="insert",
)
# write back to NebulaGraph
writer.write()
值得注意的是,除了通过分布式计算平台的 python 高度抽象接口,还可以通过udf接口,在图数据库的查询语句中调用图计算任务,如下一个查询语句可以触发:读取子图、执行图计算、将计算结果写回图上,这个语句可以通过图数据库客户端、可视化工具或者 Notebook 内部执行,如:
RETURN ng_ai("pagerank", ["follow"], ["degree"], "spark", {space: "basketballplayer", max_iter: 10}, {write_mode: "insert"})
多引擎平台支持,只需将engine=spark切换成 networkx/nebula/graphscope 等字段,就可以无缝支持不同后端运行时,方便用户在本地测试验证 networkx 运行时逻辑,生产远程环境测试 spark 等并行平台,实现快速研究-验证-落地的反馈循环。
S102、在Jupyter Notebook的交互界面中设计用于数据导入、数据预处理、图计算、图查询和图分析的交互式单元格,其中,所述交互式单元格能够通过代码、自然语言或可视化工具进行操作;
Jupyter Notebook是一款Web应用程序,可以用于创建和共享交互式的程序文档,适合数据科学工作者进行数据清理和转换,数值模拟,统计建模,机器学习等等;
示例性的,用户可以输入自然语言指令:“查找年龄大于30岁的用户”
对于这样一个文本输入的自然语言指令,本申请可以使用openai的ChatGPT大型语言模型对应的API来将这个指令转换为相应的Python代码:
import openai
import nebula_data_pipeline as ndp
from nebula_python3 import session_pool
# 设置 API 密钥和模型 ID
openai.api_key = "YOUR_API_KEY"
model_engine = "text-davinci-002"
# 输入自然语言文本
text_input = input("交互内容:")
# 调用 GPT 模型进行转换
model_output = openai.Completion.create(
engine=model_engine,
prompt=text_input,
max_tokens=50,
n=1,
stop=None,
temperature=0.5,
)
# 解析 GPT 输出
generated_text = model_output.choices[0].text.strip()
# 实例化 session_pool
hosts = ["graphd:9669"]
user = "root"
password = "nebula"
space = "test"
sp = session_pool(hosts, user, password, space)
def extract_graph(generated_text, session_pool):
# 连接到图数据库
with session_pool.session() as session:
result = session.run(generated_text=generated_text, mode="query")
query = ndp.Graph(serializer="networkx", input=result) # could benebula-algorithm, networkx, etc.
return query
def run_query(query):
result = client.execute("USE " + space + ";" + query)
return result
# 获取 session
client = sp.get_session()
# 执行查询并打印结果
query = generated_text
result = run_query(query, client)
print(result)
S103、将数据导入、数据预处理、图计算、图查询和图分析步骤组合成自动化的数据管道,以实现自动化的数据处理和分析,这个自动化数据管道可以帮助用户节省时间和精力,从而更快地完成复杂的数据处理和分析任务;
示例性的:
import nebula_data_pipeline as ndp
from nebula_python3 import session_pool
def extract_subgraph(pattern, session_pool):
# 连接到图数据库
with session_pool.session() as session:
result = session.run(pattern=pattern, mode="query")
subgraph = ndp.Graph(serilizer="networkx", input=result) # could benebula-algorithm, networkx, etc.
return subgraph
def run_analysis(subgraph):
config = ndp.analyze.wcc.config()
config["max_iterations"] = 10
config["threshold"] = 0.001
config["damping_factor"] = 0.85
config["convergence"] = True
config["convergence_threshold"] = 0.001
config["convergence_max_iterations"] = 10
analysis_results = ndp.analyze.wcc.run(graph=subgraph, output="wcc",config=config)
return analysis_results
def run_graph_algorithm(subgraph):
config = ndp.algorithm.pagerank.config()
config["max_iterations"] = 10
config["threshold"] = 0.001
algorithm_results = ndp.algorithm.pagerank.run(graph=subgraph, output="pagerank", config=config)
return algorithm_results
# 实例化 session_pool
hosts = ["graphd:9669"]
user = "root"
password = "nebula"
space = "test"
sp = session_pool(hosts, user, password, space)
# 按照模式从图数据库中查询子图
pattern = "(n)-[r]->()"
subgraph = extract_subgraph(pattern, sp)
# 在子图上运行分析
analysis_results = run_analysis(subgraph)
# 在子图上运行图计算算法
algorithm_results = run_graph_algorithm(subgraph)
需要说明的是,代码中每一部分可以被 DAG(有向无环图)调度器单独调度,形成复杂、聚合的执行计划管道:比如多个 extract_subgraph 任务并行执行,合并输出是下一跳的 analysis 任务结果,analysis 结果结合 subgraph 合并输出一起作为下一个algorithm 执行任务的输入,DAG 调度器有 API 和 UI 接口。
S104、将图计算、图查询和图分析结果转换成可视化图形;
请参阅图3,将图分析和图计算的结果以图形化的方式呈现给用户,以帮助用户更好地理解数据和分析结果,对于任意结果,可以通过图形界面,或者接口中的 render 方法输出可视化图形:
接口:analysis_results.render()。
本方法提供了以下优势:有机集成图计算、图数据库和分布式计算平台,使得整套交互、计算流程非常流畅、高效;基于 Jupyter Notebook 风格的交互界面,使得用户可以方便地使用数据科学家熟悉的方式、语言(JAVA, Python, Scala)进行图计算、图分析;支持 UDF 接口调用,在应用逻辑中,或者图数据库界面,用简单查询语句实现熟悉全流程的图计算、图分析任务,这大大降低了使用难度和开发成本;多计算平台的支持(单机平台,并行平台,GNN平台)在友好的封装与抽象下,只需一个参数修改就实现了不同运行时的执行,加速研究-验证-落地的反馈循环;借助ChatGPT大数据模型或者本地大语言模型的API降低使用门槛,可以使用自然语言描述业务需求;自动化数据管道,帮助用户节省时间和精力,从而更快地完成复杂的数据处理和分析任务;数据可视化,使得图分析和图计算的结果更加直观和易于理解;总的来说,本专利提供了一种更加智能和便捷的方式,使得用户可以在 Jupyter Notebook 风格的交互界面中直接使用分布式计算平台和图数据库的功能,从而更快地完成复杂的图计算、图分析任务。
实施例二
请参阅图4,本申请实施例二所涉及的一种基于图数据库集成多领域平台的实现系统,包括:
接口封装模块100,用于对分布式计算平台和图数据库的接口进行封装,所述分布式计算平台包括ChatGPT大型语言模型;
界面交互模块200,用于在Jupyter Notebook的交互界面中设计用于数据导入、数据预处理、图计算、图查询和图分析的交互式单元格,其中,所述交互式单元格能够通过代码、自然语言或可视化工具进行操作;
数据管道搭建模块300,用于将数据导入、数据预处理、图计算、图查询和图分析步骤组合成自动化的数据管道,以实现自动化的数据处理和分析;
数据可视化模块400,用于将图计算、图查询和图分析结果转换成可视化图形。
在进一步的实施例中,所述图数据库为NebulaGraph原生图数据库,所述分布式计算平台还包括Dashboard可视化工具、Studio图数据可视化工具、Spark utils工具包和UDF可扩展组件。
实施例三
本申请实施例三所涉及的一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如本申请实施例一中的任意一种实现方式中方法的步骤;
其中,计算机可读存储介质可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM);计算机可读存储介质可以存储程序代码,当计算机可读存储介质中存储的程序被处理器执行时,处理器用于执行如本申请实施例一中的任意一种实现方式中方法的步骤。
实施例四
请参阅图5,本申请实施例四所涉及的一种电子设备,所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如本申请实施例一中的任意一种实现方式中的方法;
其中,处理器可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例一中的任意一种实现方式中的方法。
处理器还可以是一种集成电路电子设备,具有信号的处理能力。在实现过程中,本申请实施例一中的任意一种实现方式中方法的各个步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器还可以是通用处理器、数字信号处理器、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成本申请实施例的数据处理的装置中包括的单元所需执行的功能,或者执行本申请实施例一中的任意一种实现方式中方法。
以上,仅为本申请较佳的具体实施方式;但本申请的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,根据本申请的技术方案及其改进构思加以等同替换或改变,都应涵盖在本申请的保护范围内。
Claims (10)
1.一种基于图数据库集成多领域平台的实现方法,其特征在于,包括:
对分布式计算平台和图数据库的接口进行封装,所述分布式计算平台包括ChatGPT大型语言模型;
在Jupyter Notebook的交互界面中设计用于数据导入、数据预处理、图计算、图查询和图分析的交互式单元格,其中,所述交互式单元格能够通过代码、自然语言或可视化工具进行操作;
将数据导入、数据预处理、图计算、图查询和图分析步骤组合成自动化的数据管道,以实现自动化的数据处理和分析;
将图计算、图查询和图分析结果转换成可视化图形。
2.根据权利要求1所述的基于图数据库集成多领域平台的实现方法,其特征在于,所述图数据库为NebulaGraph原生图数据库,所述分布式计算平台还包括Dashboard可视化工具、Studio图数据可视化工具、Spark utils工具包和UDF可扩展组件。
3.根据权利要求2所述的基于图数据库集成多领域平台的实现方法,其特征在于,所述分布式计算平台还包括BR备份工具。
4.根据权利要求1所述的基于图数据库集成多领域平台的实现方法,其特征在于,所述ChatGPT大型语言模型用于自然语言、代码和可视化图形之间的相互转换。
5.根据权利要求1所述的基于图数据库集成多领域平台的实现方法,其特征在于,所述可视化图形包括节点、节点上的属性、边和边上的属性。
6.根据权利要求5所述的基于图数据库集成多领域平台的实现方法,其特征在于,所述边的两端均连接有节点,且所述节点的位置能够进行拖动。
7.一种基于图数据库集成多领域平台的实现系统,其特征在于,包括:
接口封装模块,用于对分布式计算平台和图数据库的接口进行封装,所述分布式计算平台包括ChatGPT大型语言模型;
界面交互模块,用于在Jupyter Notebook的交互界面中设计用于数据导入、数据预处理、图计算、图查询和图分析的交互式单元格,其中,所述交互式单元格能够通过代码、自然语言或可视化工具进行操作;
数据管道搭建模块,用于将数据导入、数据预处理、图计算、图查询和图分析步骤组合成自动化的数据管道,以实现自动化的数据处理和分析;
数据可视化模块,用于将图计算、图查询和图分析结果转换成可视化图形。
8.根据权利要求7所述的基于图数据库集成多领域平台的实现系统,其特征在于,所述图数据库为NebulaGraph原生图数据库,所述分布式计算平台还包括Dashboard可视化工具、Studio图数据可视化工具、Spark utils工具包和UDF可扩展组件。
9.一种计算机可读存储介质,其特征在于,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如权利要求1-6中任一项所述方法的步骤。
10.一种电子设备,其特征在于,所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310590752.7A CN116304218B (zh) | 2023-05-24 | 2023-05-24 | 一种基于图数据库集成多领域平台的实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310590752.7A CN116304218B (zh) | 2023-05-24 | 2023-05-24 | 一种基于图数据库集成多领域平台的实现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116304218A true CN116304218A (zh) | 2023-06-23 |
CN116304218B CN116304218B (zh) | 2023-08-11 |
Family
ID=86820774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310590752.7A Active CN116304218B (zh) | 2023-05-24 | 2023-05-24 | 一种基于图数据库集成多领域平台的实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304218B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684349A (zh) * | 2018-11-20 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于sql与图计算交互式分析的查询方法和系统 |
CN110083455A (zh) * | 2019-05-07 | 2019-08-02 | 网易(杭州)网络有限公司 | 图计算处理方法、装置、介质及电子设备 |
CN113177034A (zh) * | 2021-05-06 | 2021-07-27 | 南京大学 | 一种跨平台统一的分布式图数据处理方法 |
CN114416855A (zh) * | 2021-12-14 | 2022-04-29 | 国网河北省电力有限公司经济技术研究院 | 一种基于电力大数据的可视化平台及方法 |
CN114596070A (zh) * | 2022-03-09 | 2022-06-07 | 中国科学技术大学 | 一种基于知识图谱的产品优化设计平台构建方法 |
US20220414228A1 (en) * | 2021-06-23 | 2022-12-29 | The Mitre Corporation | Methods and systems for natural language processing of graph database queries |
US20230060252A1 (en) * | 2019-02-01 | 2023-03-02 | System Inc. | Systems and Methods for Organizing, Finding, and Using Data |
CN116127170A (zh) * | 2023-03-06 | 2023-05-16 | 钟原 | 一种新型网络引擎系统 |
-
2023
- 2023-05-24 CN CN202310590752.7A patent/CN116304218B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684349A (zh) * | 2018-11-20 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于sql与图计算交互式分析的查询方法和系统 |
US20230060252A1 (en) * | 2019-02-01 | 2023-03-02 | System Inc. | Systems and Methods for Organizing, Finding, and Using Data |
CN110083455A (zh) * | 2019-05-07 | 2019-08-02 | 网易(杭州)网络有限公司 | 图计算处理方法、装置、介质及电子设备 |
CN113177034A (zh) * | 2021-05-06 | 2021-07-27 | 南京大学 | 一种跨平台统一的分布式图数据处理方法 |
US20220414228A1 (en) * | 2021-06-23 | 2022-12-29 | The Mitre Corporation | Methods and systems for natural language processing of graph database queries |
CN114416855A (zh) * | 2021-12-14 | 2022-04-29 | 国网河北省电力有限公司经济技术研究院 | 一种基于电力大数据的可视化平台及方法 |
CN114596070A (zh) * | 2022-03-09 | 2022-06-07 | 中国科学技术大学 | 一种基于知识图谱的产品优化设计平台构建方法 |
CN116127170A (zh) * | 2023-03-06 | 2023-05-16 | 钟原 | 一种新型网络引擎系统 |
Non-Patent Citations (1)
Title |
---|
王晓风;张业武;李言飞;: "Jupyter Notebook在疾控科研大数据平台的应用", 中国数字医学, no. 05 * |
Also Published As
Publication number | Publication date |
---|---|
CN116304218B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cortez et al. | Modern optimization with R | |
Daniel et al. | NeoEMF: A multi-database model persistence framework for very large models | |
US20180285417A1 (en) | Intelligent query parameterization of database workloads | |
Cassel et al. | Computer science curriculum 2008: An interim revision of CS 2001 | |
CN106611037A (zh) | 用于分布式图计算的方法与设备 | |
CN108984155B (zh) | 数据处理流程设定方法和装置 | |
Junghanns et al. | Declarative and distributed graph analytics with GRADOOP | |
Charguéraud et al. | Machine-checked verification of the correctness and amortized complexity of an efficient union-find implementation | |
EP3387525B1 (en) | Learning from input patterns in programing-by-example | |
US20190213007A1 (en) | Method and device for executing the distributed computation task | |
US11573790B2 (en) | Generation of knowledge graphs based on repositories of code | |
CN114996619A (zh) | 一种页面显示的方法、装置、计算机设备及存储介质 | |
Cartright et al. | Galago: A Modular Distributed Processing and Retrieval System. | |
US20190004776A1 (en) | Data marshalling optimization via intermediate representation of workflows | |
CN110851123A (zh) | 基于SpringMVC的WebGIS电网可视化框架的构建方法、系统及装置 | |
CN108701153B (zh) | 响应自然语言查询的方法、系统和计算机可读存储介质 | |
Winter et al. | Formal information modelling for standardisation in the spatial domain | |
US20170147943A1 (en) | Global data flow optimization for machine learning programs | |
EP3293645B1 (en) | Iterative evaluation of data through simd processor registers | |
CN116304218B (zh) | 一种基于图数据库集成多领域平台的实现方法及系统 | |
Miao et al. | Research on user interface transformation method based on MDA | |
CN114356403A (zh) | 一种基于低代码应用开发的组态数据处理方法、装置和系统 | |
Andrade et al. | Efficient execution of multi-query data analysis batches using compiler optimization strategies | |
de Boer et al. | A logical viewpoint on architectures | |
Milovanovic et al. | Python Data Visualization Cookbook |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |