CN114817264B - 面向图计算的拓扑查询结构、查询方法、电子设备及介质 - Google Patents

面向图计算的拓扑查询结构、查询方法、电子设备及介质 Download PDF

Info

Publication number
CN114817264B
CN114817264B CN202210460338.XA CN202210460338A CN114817264B CN 114817264 B CN114817264 B CN 114817264B CN 202210460338 A CN202210460338 A CN 202210460338A CN 114817264 B CN114817264 B CN 114817264B
Authority
CN
China
Prior art keywords
node
edge
nodes
operator
edges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210460338.XA
Other languages
English (en)
Other versions
CN114817264A (zh
Inventor
段翰聪
李林
张建
李世豪
李�浩
王书涵
邹涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210460338.XA priority Critical patent/CN114817264B/zh
Publication of CN114817264A publication Critical patent/CN114817264A/zh
Application granted granted Critical
Publication of CN114817264B publication Critical patent/CN114817264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机软件技术领域,公开了一种面向图计算的拓扑查询结构,包括:存储层,用于进行多圈层路径的遍历,每完成一个圈层的遍历,就返回该圈层需进行计算和过滤的节点集合以及边集合;计算层,至少包括一个计算节点,计算节点基于查询条件计算和过滤所述存储层返回的节点集合以及边集合,通过流水线处理的方式与所述存储层并行工作;图拓扑构建模块,接收经过所述计算层的计算和过滤后符合查询条件的节点集合以及边集合,并将符合查询条件的节点集合以及边集合进行组合构建成符合查询条件的图,本发明还公开了一种面向图计算的拓扑查询方法。本发明避免了存储层与计算层负载不均的状况,提高了资源利用率,减少了查询时延。

Description

面向图计算的拓扑查询结构、查询方法、电子设备及介质
技术领域
本发明涉及计算机软件技术领域,具体涉及面向图计算的拓扑查询结构、查询方法、电子设备及介质。
背景技术
在现有的分布式的图查询技术中,对于多圈层路径的查询,比如:先进行NodeScanByIndex操作查找某些节点,然后对其结果进行若干次ExpandAll操作。常用的做法有两种:一种是向存储层下发节点查询任务,获得结果集后在计算层进行过滤操作,再将过滤结果下发的存储层作为Expand的输入,由存储进行Expand操作并向上层返回结果。这带来了较大的网络开销,导致效率底下。第二种做法则是将过滤操作直接下沉到存储层,由存储层在多圈层遍历的同时进行过滤,并最终将结果返回。这种方式避免了大量的网络开销,但同样存在一些不足:1.存储层完成了图查询的大部分任务,而计算层资源被浪费掉。这在高并发场景下尤其明显,在存储层进行图遍历的过程中,计算层由于没有获得数据而处于空闲状态,而存储层由于查询任务过多产生了极大的负载。2.当存在一些涉及计算的过滤时(如对边的若干属性求加权平均值),存储层需要针对属性值进行字节流反序列化,在经过一系列的计算和过滤后,再将查询结果序列化后返回计算层,计算层在反序列后才能进行后续的拓扑构建操作,这样频繁的序列化和反序列化也会产生很多的时延。
发明内容
针对上述问题,本发明提供一种面向图计算的拓扑查询结构、查询方法、电子设备及介质,目的在于利用存储层具备一定过滤能力和批处理能力的前提下,将复杂过滤和图计算以及图拓扑构建的工作交由计算层,通过算子分片与流水线技术,增大节点间与节点内的并发度,充分利用分布式资源,以降低在多圈层遍历过程中的查询时延。
本发明通过下述技术方案实现:
一种面向图计算的拓扑查询结构,包括:
存储层,用于进行多圈层路径的遍历,每完成一个圈层的遍历,就返回该圈层需进行计算和过滤的节点集合以及边集合;
计算层,至少包含一个计算节点,计算节点用于基于查询条件计算和过滤所述存储层返回的节点集合以及边集合,通过流水线处理的方式与所述存储层并行工作;
图拓扑构建模块,设置在其中一个计算节点中,接收经过所述计算节点的计算和过滤后符合查询条件的节点集合以及边集合,并将符合查询条件的节点集合以及边集合进行组合构建成符合查询条件的图。
作为优化,所述计算节点包括:
GetData算子:用于获取所述存储层遍历圈层得到的节点集合以及节点集合中的节点对应的边集合,并将所述节点集合与边集合反序列化,同时将该次遍历圈层的节点集合中的起始节点进行过滤,将符合过滤条件的起始节点放入待处理节点队列,并将该起始节点放入图拓扑构建模块中,对于不符合过滤条件的起始节点,进行删除,对于非起始节点的节点和所有的边数据都在GetData算子内存储并保持,供计算层中的后续的算子获得属性数据;
GetEdge算子:从待处理节点队列中获取节点集合中的节点,从所述GetData算子中获取边集合的边,并输出获取的节点集合中的节点对应的边至EdgeFilter算子;
EdgeFilter算子:至少包括一个,用于对节点对应的边进行预处理并进行边过滤,将符合查询条件的节点对应的边传入第一GetNode算子,对不符合查询条件的节点对应的边传入待丢弃边队列,输出过滤后的边给第一GetNode算子;
第一GetNode算子:数量与所述EdgeFilter算子匹配,用于获取过滤后的边对应的目的节点,并对该过滤后的边对应的目的节点进行预处理并进行目的节点过滤,将符合查询条件的目的节点放入待处理节点队列和图拓扑构建模块,并将有目的节点对应的边输入至所述图拓扑构件模块中;
待处理节点队列,用于存放符合过滤条件的节点,数据来源包括GetData算子获得的符合过滤条件的起始节点以及第一GetNode算子获得的符合过滤条件的节点。
待丢弃边队列,用于存放通过EdgeFilter算子过滤后得到的不符合边过滤条件的边的集合,用以删除冗余路径;
待处理边队列,用于存放暂时未找到目的节点的边的集合,且所述存储层每遍历一次圈层,重新判断所述待处理边列队的边是否有找到目的节点,若所述存储层的遍历结束时,将所述待处理边队列内的边定义为冗余路径并加入到待丢弃边队列中。
作为优化,所述第一GetNode算子中,当存储层数据为分批次返回节点集合与边集合时,若获取不到过滤后的边对应的目的节点,则将该过滤后的边传入到待处理边队列中。
作为优化,还包括第二GetNode算子,用于在所述存储层每完成一次圈层的遍历,重新判断所述待处理边列队的边是否有找到目的节点,具体过程为:
所述存储层每完成一圈层的遍历,返回新的节点集合,第二GetNode算子遍历所述待处理边列队中的边,同时,判断所述待处理边列队中的边是否在新的节点集合中有对应的目的节点,若是,将该目的节点进行预处理并进行目的节点过滤,将符合查询条件的目的节点输出至待处理节点队列和图拓扑构建模块中,并将有目的节点对应的入边输入至所述图拓扑构件模块中。否则,该边继续保存在所述待处理边队列中。
作为优化,若所述计算节点有多个,多个所述计算节点包括一个主计算节点和若干从计算节点,所述主计算节点中设置有图拓展构建模块,所述从计算节点中的符合查询条件的节点和边输出值所述主计算节点中的图拓展构建模块。
作为优化,若所述EdgeFilter算子有多个,所述EdgeFilter算子一一对应所述第一GetNode算子,且多个EdgeFilter算子同时工作。
本发明还公开了一种面向图计算的拓扑查询方法,包括如下步骤:
S1、遍历多圈层路径,每完成一个圈层的遍历,返回该圈层需进行计算和过滤的节点集合以及边集合;
S2、基于查询条件计算和过滤所述节点集合以及边集合;
S3、接收经过步骤S2计算和过滤后符合查询条件的节点集合以及边集合,并将符合查询条件的节点集合以及边集合进行组合构建成符合查询条件的图。
作为优化,步骤S2的具体步骤为:
S2.1、通过GetData算子将所述节点集合与边集合反序列化,同时将该次遍历圈层的起始节点进行过滤,将符合过滤条件的起始节点放入待处理节点队列,同时,将该起始节点放入图拓扑构建模块中;
S2.2、通过GetEdge算子从待处理节点队列中获取节点集合中的节点,从所述GetData算子中获取边集合的边,并输出获取的节点集合中的节点对应的边至EdgeFilter算子;
S2.3、通过EdgeFilter算子对边集合中的边进行预处理并进行边过滤,将符合查询条件的节点对应的边传入第一GetNode算子,对不符合查询条件的节点对应的边传入待丢弃边队列,输出过滤后的边给第一GetNode算子;
S2.4、通过第一GetNode算子获取过滤后的边对应的目的节点,并对该过滤后的边对应的目的节点进行预处理并进行目的节点过滤,将符合查询条件的目的节点放入待处理节点队列和图拓扑构建模块,并将有目的节点对应的边输入至所述图拓扑构件模块中。
本发明还公开了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的一种面向图计算的拓扑查询方法。
本发明还公开了一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种面向图计算的拓扑查询方法。
本发明与现有技术相比,具有如下的优点和有益效果:
1.本发明提出了一种面向图计算的拓扑查询方法,避免了存储层与计算层负载不均的状况,提高了资源利用率,减少了查询时延。
2.本发明采用选择性算子下沉的策略,减少计算层与存储层网络通信开销的同时,在高并发场景下能够极大的减轻存储层的检索压力。
3.本发明采用基于负载的流水线与算子分片技术,动态分配计算资源,提高并发度并避免线程切换带来的代价。
4.本发明同时针对分布式场景提出了一套执行方案,具备可扩展性。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为本发明所示的一种面向图计算的拓扑查询结构的结构示意图;
图2为图1中主计算节点的结构示意图;
图3为若干节点形成的路径示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
在介绍本发明技术方案之前,先介绍一下圈层的概念。
如图3所示,根据输入的查询条件获得了A、B两个起始节点,则A、B属于第0圈层,CDE属于1圈层,FG属于2圈层,同时G属于3圈层。存储层将从起始节点开始,依次遍历当前节点的直接相邻节点,称之为完成了一圈层的遍历,然后再以直接相邻节点作为当前节点,递归进行遍历,终止条件为:圈层数满足查询条件(如查询要求获取三圈层内的所有节点,则遍历第3圈层结束后终止)。以上图为例,存储层第一次返回AB,第二次返回CDE,第三次返回FG,第四次返回G。
如图1所示,本发明公开了一种面向图计算的拓扑查询结构,包括:
存储层,用于进行多圈层路径的遍历,每完成一个圈层的遍历,就返回该圈层需进行计算和过滤的节点集合以及边集合。
存储层返回的节点和边的属性可以不是全量的,仅将计算层进行计算和过滤的必须属性值返回即可,以减少网络负载。本发明中,存储层的数据不必一次返回,而采用每完成一个圈层的遍历就返回该圈层的节点和边的方式,即存储层采用一边遍历一边返回的方式将数据(节点集合以及边集合)以圈层为单位构建分组发送到计算层。
计算层,至少包括一个计算节点,所述计算节点用于基于查询条件计算和过滤所述存储层返回的节点集合以及边集合,通过流水线处理的方式与所述存储层并行工作;计算节点的算子采用流水线技术对分组数据进行处理;
图拓扑构建模块,设置在其中一个计算节点中,接收经过所述计算节点的计算和过滤后符合查询条件的节点集合以及边集合,并将符合查询条件的节点集合以及边集合进行组合构建成符合查询条件的图。
若所述计算节点有多个,多个所述计算节点包括一个主计算节点和若干计算节点,所述计算节点中设置有图拓展构建模块,所述从计算节点中的符合查询条件的节点和边输出值所述主计算节点中的图拓展构建模块。
本实施例中,主计算节点和从计算节点均包括:
GetData算子:用于获取所述存储层遍历圈层得到的节点集合以及节点集合中的节点对应的边集合,并将所述节点集合与边集合反序列化,同时将该次遍历圈层的节点集合中的起始节点进行过滤,将符合过滤条件的起始节点放入待处理节点队列,并将该起始节点放入图拓扑构建模块中,对于不符合过滤条件的起始节点,进行删除,对于节点集合中的未过滤的非起始节点的节点和所有的边数据都在GetData算子内存储并保持,供计算层中的计算节点的后续的算子获得属性数据。
这里的节点集合中的节点包括遍历圈层的起始节点以及与该起始节点相邻的相邻节点。
GetEdge算子:从待处理节点队列中获取节点集合中的节点,从所述GetData算子中获取边集合的边,并输出获取的节点集合中的节点对应的边至EdgeFilter算子;GetEdge算子的输入是节点id,输出是对应的节点的边id,将输出推给EdgeFilter算子。
EdgeFilter算子:至少包括一个,用于对节点对应的边进行预处理并进行边过滤,将符合查询条件的节点对应的边传入第一GetNode算子,对不符合查询条件的节点对应的边传入待丢弃边队列,输出过滤后的边给第一GetNode算子。
这里的对节点对应的边进行预处理,是指即对边的属性值做类型转换,因为底层存储引擎对属性值的存储均采用string类型,而后续过滤时要涉及计算,因此要将属性值转换为int或float。
而此处的查询条件即过滤条件,例如,设置边的过滤条件为边的属性a>5,则所有属性a的值大于5的边就是符合条件的。
a是指边的属性,例如:将甲及其好友们抽象为节点,关系“好友”抽象为节点之间的边,边存在属性“亲密度”。如进行一次图查询:查询甲的所有好友中亲密度>5的所有人。
亲密度>5就是此次查询对边的过滤条件,在进行EdgeFilter时,亲密度>5的边就是符合查询条件的边,会传入第一GetNode算子。
第一GetNode算子:数量与所述EdgeFilter算子匹配,用于获取过滤后的边对应的目的节点,并对该过滤后的边对应的目的节点进行预处理并进行目的节点过滤,将符合查询条件的目的节点放入待处理节点队列和图拓扑构建模块,并将有目的节点对应的边(即上述过滤后的边)输入至所述图拓扑构件模块中。
每个边的数据结构中包含了该边所指向节点的nodeID,根据该ID在GetData算子中进行查找即可查找到目的节点。(EdgeFilter算子将边传入第一GetNode算子,但边中只包含了该边指向节点的nodeID(相当于指向该节点的一个指针),节点的属性信息仍在第一GetData算子中),
至于对目的节点进行预处理并进行目的节点过滤的具体过程为:预处理阶段将节点属性进行类型转换,过滤阶段即根据用户传入的过滤条件进行过滤。
若所述EdgeFilter算子有多个,所述EdgeFilter算子一一对应所述第一GetNode算子,且多个EdgeFilter算子同时工作。
所述第一GetNode算子中,当存储层数据为分批次返回节点集合与边集合时,若获取不到过滤后的边集合中的边对应的目的节点,则将该无目的节点对应的过滤后的边传入到待处理边队列中。
本实施例中,还包括第二GetNode算子,用于在所述存储层每完成一次圈层的遍历,重新判断所述待处理边列队的边是否有找到目的节点的具体过程为:
所述存储层每完成一圈层的遍历,返回新的节点集合,第二GetNode算子遍历所述待处理边列队中的边,同时,判断所述待处理边列队中的边是否在新的节点集合中有对应的目的节点,若是,将该目的节点进行预处理并进行目的节点过滤,将符合查询条件的目的节点输出至待处理节点队列和图拓扑构建模块中,并将有目的节点对应的入边输入至所述图拓扑构件模块中。否则,该边继续保存在所述待处理边队列中。
待处理节点队列,用于存放符合过滤条件的节点,包括GetData算子获得的符合过滤条件的起始节点以及第一GetNode算子、第二GetNode算子获得的符合过滤条件的节点。
待丢弃边队列,用于存放通过EdgeFilter算子过滤后得到的不符合边过滤条件的边的集合,用以删除冗余路径。
待处理边队列,用于存放暂时未找到目的节点的边的集合,且所述存储层每遍历一次圈层,重新判断所述待处理边列队的边是否有找到目的节点,若所述存储层的遍历结束时,将所述待处理边队列内的边定义为冗余路径并加入到待丢弃边队列中。
图拓扑构建模块,接收经过所述第一GetNode算子的计算和过滤后符合查询条件的节点集合以及边集合,并将符合查询条件的节点集合以及边集合进行组合构建成符合查询条件的图。将符合条件的点和边将传入该模块,由该模块负责图的构建。采用写管道的方式,以避免一个节点连接多条出边时产生写冲突。
例如,如需要查询节点A到节点B中间节点数目小于3的所有路径,对中间节点和边的过滤条件都涉及浮点数运算。假设流水线最大数目为2,当前计算层内只有一个计算节点,查询流程如下:
1.存储层获得节点A以及A的所有出边,将这些数据返回计算层,并继续下一圈层的遍历。
2.计算节点的GetData算子获得这些数据(节点A以及A的所有出边)并反序列化,对节点A进行过滤,发现A符合过滤条件,于是将节点A写入待处理节点队列。
3.GetEdge从待处理节点队列拿到节点A,在GetData算子返回的边集中获取节点A的出边。下发第1、2条边时,构建新流水线。此后,由于流水线数目已达到上限,因此选择等待数最少的流水线下发。此外,起始节点A由GetEdge算子发送到图拓扑构建模块。
4.EdgeFilter算子获取一条边进行预处理并进行边过滤,如符合条件,传递给第一GetNode算子,否则放入待丢弃边队列
5.第一GetNode算子获得过滤后的边的目的节点,并对该过滤后的边对应的目的节点进行预处理并进行目的节点过滤,如符合条件,将该目的节点传递给待处理节点队列,并将该边以及目的节点发送到图拓扑构建模块。若目的节点可能还未从存储层返回,则将该边放入待处理边队列。
6.另由一个GetNode算子(第二GetNode算子)来处理待处理边队列中的内容,每次存储层返回新的数据时,该算子会遍历待处理边队列,获得边的目的节点,进行预处理并进行边过滤,如符合条件,传递给待处理节点队列,并发送到拓扑构建模块。
7.存储层发送结束信号后,待处理边队列中仍存留的边与待丢弃边队列中的边所在的路径需要被丢弃。采用递归方式删除掉这些路径的数据。
如图2所示,为计算节点的执行架构。
1)存储层发送数据给GetData算子(可以是分批次,也可以是一次性全返回),GetData对数据进行反序列化,并将起始节点写入待处理节点队列。
2)GetEdge算子从待处理节点队列中拉取节点,获取节点的出边后:
若当前流水线数目小于限额,则新建一条EdgeFilter算子到GetNode算子的流水线,将出边下发。
若当前流水线数目已经达到最大值,则选择一条待处理边最少的流水线,下发出边排队等待。
3)EdgeFilter算子与GetNode算子采用流水线方式执行,符合条件的边和点传入图拓扑构建模块。
4)GetNode获得的节点写入待处理节点队列,重复2)。
实施例2
本发明还公开了一种面向图计算的拓扑查询方法,包括如下步骤:
S1、遍历多圈层路径,每完成一个圈层的遍历,返回该圈层需进行计算和过滤的节点集合以及边集合;
S2、基于查询条件计算和过滤所述节点集合以及边集合;
S3、接收经过步骤S2计算和过滤后符合查询条件的节点集合以及边集合,并将符合查询条件的节点集合以及边集合进行组合构建成符合查询条件的图。
本实施例中,步骤S2的具体步骤为:
S2.1、通过GetData算子将所述节点集合与边集合反序列化,同时将该次遍历圈层的起始节点进行过滤,将符合过滤条件的起始节点放入待处理节点队列,并将该起始节点放入图拓扑构建模块中,对于不符合过滤条件的起始节点,进行删除,对于非起始节点和所有的边数据都在算子内存储并保持,供后续算子获得属性数据;
S2.2、通过GetEdge算子从待处理节点队列中获取节点集合中的节点,从所述GetData算子中获取边集合的边,并输出获取的节点集合中的节点对应的边id以及边集合中的边至EdgeFilter算子;
S2.3、通过EdgeFilter算子对边集合中的边进行预处理并进行边过滤,将符合查询条件的边集合中的边传入第一GetNode算子,对不符合查询条件的边集合中的边传入待丢弃边队列,输出节点集合中的节点对应的边id以及过滤后的边集合中的边;
S2.4、通过第一GetNode算子获取过滤后的边集合中的边对应的目的节点,并对节点集合中的节点进行预处理并进行节点过滤,将符合查询条件的节点集合中的节点放入待处理节点队列和图拓扑构建模块,并将有目的节点对应的边集合中的边输入至所述图拓扑构件模块中。
实施例3
本发明还公开了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的一种面向图计算的拓扑查询方法。
实施例4
本发明还公开了一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种面向图计算的拓扑查询方法。
本发明采用基于值域的算子分片技术,构建多条流水线同时处理反序列化后的数据,处理完成后的节点和边除了作为输入进行圈层扩展,同时也会汇聚到图拓扑构建模块进行拓扑构建。采用边过滤边构建的方式,降低查询处理时延。若节点数目巨大使得一台计算节点的资源负载严重,可以考虑增加计算节点,由一台主计算节点负载控制查询计划并生成最终图拓扑。需要做出的改动如下:
a)对算子进行分片,通过对数据的基数估计,分配多台计算节点负责接受和处理存储层返回的数据。例如,预估圈层遍历的起始节点有10000个,则可以通过算子分片的方式,向两台计算节点分配查询任务,每台节点负责5000个起始节点及其后续的多圈层扩展。
b)一次查询计划中仅主计算节点的图拓扑构建模块发挥作用,每台计算节点在获取存储层数据后,进行流水线处理,将过滤后的节点和边传到主节点,由主节点负责拓扑构建。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述事实和方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,涉及的程序或者所述的程序可以存储于一计算机所可读取存储介质中,该程序在执行时,包括如下步骤:此时引出相应的方法步骤,所述的存储介质可以是ROM/RAM、磁碟、光盘等等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向图计算的拓扑查询结构,其特征在于,包括:
存储层,用于进行多圈层路径的遍历,每完成一个圈层的遍历,就返回该圈层需进行计算和过滤的节点集合以及边集合;
计算层,至少包括一个计算节点,所述计算节点用于基于查询条件计算和过滤所述存储层返回的节点集合以及边集合,通过流水线处理的方式与所述存储层并行工作;
所述计算节点包括:
GetData算子:用于获取所述存储层遍历圈层得到的节点集合以及节点集合中的节点对应的边集合,并将所述节点集合与边集合反序列化,同时将该次遍历圈层的节点集合中的起始节点进行过滤,将符合过滤条件的起始节点放入待处理节点队列,并将该起始节点放入图拓扑构建模块中,对于不符合过滤条件的起始节点,进行删除,对于节点集合中的未过滤的非起始节点的节点和所有的边数据都在GetData算子内存储并保持,供计算层中的后续的算子获得属性数据;
GetEdge算子:从待处理节点队列中获取节点集合中的节点,从所述GetData算子中获取边集合的边,并输出获取的节点集合中的节点对应的边至EdgeFilter算子;
EdgeFilter算子:至少包括一个,用于对节点对应的边进行预处理并进行边过滤,将符合查询条件的节点对应的边传入第一GetNode算子,对不符合查询条件的节点对应的边传入待丢弃边队列,输出过滤后的边给第一GetNode算子;
第一GetNode算子:数量与所述EdgeFilter算子匹配,用于获取过滤后的边对应的目的节点,并对该过滤后的边对应的目的节点进行预处理并进行目的节点过滤,将符合查询条件的目的节点放入待处理节点队列和图拓扑构建模块,并将有目的节点对应的边输入至所述图拓扑构件模块中;
待处理节点队列,用于存放符合过滤条件的节点,包括GetData算子获得的符合过滤条件的起始节点以及第一GetNode算子获得的符合过滤条件的节点;
待丢弃边队列,用于存放通过EdgeFilter算子过滤后得到的不符合边过滤条件的边的集合,用以删除冗余路径;
待处理边队列,用于存放暂时未找到目的节点的边的集合,且所述存储层每遍历一次圈层,重新判断所述待处理边队列的边是否有找到目的节点,若所述存储层的遍历结束时,将所述待处理边队列内的边定义为冗余路径并加入到待丢弃边队列中;
图拓扑构建模块,设置在其中一个计算节点中,接收经过所述计算节点的计算和过滤后符合查询条件的节点集合以及边集合,并将符合查询条件的节点集合以及边集合进行组合构建成符合查询条件的图。
2.根据权利要求1所述的一种面向图计算的拓扑查询结构,其特征在于,所述第一GetNode算子中,当存储层数据为分批次返回节点集合与边集合时,若获取不到过滤后的边对应的目的节点,则将该过滤后的边传入到待处理边队列中。
3.根据权利要求2所述的一种面向图计算的拓扑查询结构,其特征在于,还包括第二GetNode算子,用于在所述存储层每完成一次圈层的遍历,重新判断所述待处理边队列的边是否有找到目的节点,具体过程为:
所述存储层每完成一圈层的遍历,返回新的节点集合,第二GetNode算子遍历所述待处理边队列中的边,同时,判断所述待处理边队列中的边是否在新的节点集合中有对应的目的节点,若是,将该目的节点进行预处理并进行目的节点过滤,将符合查询条件的目的节点输出至待处理节点队列和图拓扑构建模块中,并将有目的节点对应的入边输入至所述图拓扑构件模块中;否则,该边继续保存在所述待处理边队列中。
4.根据权利要求1所述的一种面向图计算的拓扑查询结构,其特征在于,若所述计算节点有多个,多个所述计算层包括一个主计算节点和若干从计算节点,所述主计算节点中设置有图拓展构建模块,所述从计算层中的符合查询条件的节点和边输出值所述主计算节点中的图拓展构建模块。
5.根据权利要求1所述的一种面向图计算的拓扑查询结构,其特征在于,若所述EdgeFilter算子有多个,所述EdgeFilter算子一一对应所述第一GetNode算子,且多个EdgeFilter算子同时工作。
6.一种面向图计算的拓扑查询方法,其特征在于,包括如下步骤:
S1、遍历多圈层路径,每完成一个圈层的遍历,返回该圈层需进行计算和过滤的节点集合以及边集合;
S2、基于查询条件计算和过滤所述节点集合以及边集合;
步骤S2的具体步骤为:
S2.1、通过GetData算子将所述节点集合与边集合反序列化,同时将该次遍历圈层的起始节点进行过滤,将符合过滤条件的起始节点放入待处理节点队列,同时,将该起始节点放入图拓扑构建模块中;
S2.2、通过GetEdge算子从待处理节点队列中获取节点集合中的节点,从所述GetData算子中获取边集合的边,并输出获取的节点集合中的节点对应的边至EdgeFilter算子;
S2.3、通过EdgeFilter算子对边集合中的边进行预处理并进行边过滤,将符合查询条件的节点对应的边传入第一GetNode算子,对不符合查询条件的节点对应的边传入待丢弃边队列,输出过滤后的边给第一GetNode算子;
S2.4、通过第一GetNode算子获取过滤后的边对应的目的节点,并对该过滤后的边对应的目的节点进行预处理并进行目的节点过滤,将符合查询条件的目的节点放入待处理节点队列和图拓扑构建模块,并将有目的节点对应的边输入至所述图拓扑构件模块中;
S3、接收经过步骤S2计算和过滤后符合查询条件的节点集合以及边集合,并将符合查询条件的节点集合以及边集合进行组合构建成符合查询条件的图。
7.一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求6所述的一种面向图计算的拓扑查询方法。
8.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求6所述的一种面向图计算的拓扑查询方法。
CN202210460338.XA 2022-04-28 2022-04-28 面向图计算的拓扑查询结构、查询方法、电子设备及介质 Active CN114817264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210460338.XA CN114817264B (zh) 2022-04-28 2022-04-28 面向图计算的拓扑查询结构、查询方法、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210460338.XA CN114817264B (zh) 2022-04-28 2022-04-28 面向图计算的拓扑查询结构、查询方法、电子设备及介质

Publications (2)

Publication Number Publication Date
CN114817264A CN114817264A (zh) 2022-07-29
CN114817264B true CN114817264B (zh) 2023-04-25

Family

ID=82510352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210460338.XA Active CN114817264B (zh) 2022-04-28 2022-04-28 面向图计算的拓扑查询结构、查询方法、电子设备及介质

Country Status (1)

Country Link
CN (1) CN114817264B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459914A (zh) * 2020-03-31 2020-07-28 北京金山云网络技术有限公司 分布式图数据库的优化方法、装置和电子设备
CN113420187A (zh) * 2021-06-22 2021-09-21 东北大学 一种基于边分割的gpu子图匹配的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10180973B2 (en) * 2014-09-26 2019-01-15 Oracle International Corporation System and method for efficient connection management in a massively parallel or distributed database environment
CN105320757A (zh) * 2015-10-19 2016-02-10 杭州华量软件有限公司 一种快速处理数据的商业智能分析方法
US11546380B2 (en) * 2015-10-28 2023-01-03 Qomplx, Inc. System and method for creation and implementation of data processing workflows using a distributed computational graph
CN113051446B (zh) * 2019-12-26 2024-10-18 百度国际科技(深圳)有限公司 拓扑关系查询方法、装置、电子设备和介质
CN112559807B (zh) * 2020-12-03 2022-06-21 浙江邦盛科技股份有限公司 一种基于多源点并行探索的图模式匹配方法
CN112988802B (zh) * 2021-04-29 2022-07-15 电子科技大学 一种基于强化学习的关系型数据库查询优化方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459914A (zh) * 2020-03-31 2020-07-28 北京金山云网络技术有限公司 分布式图数据库的优化方法、装置和电子设备
CN113420187A (zh) * 2021-06-22 2021-09-21 东北大学 一种基于边分割的gpu子图匹配的方法

Also Published As

Publication number Publication date
CN114817264A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN110908788B (zh) 基于Spark Streaming的数据处理方法、装置、计算机设备及存储介质
JP4171835B2 (ja) 並列マージソート処理装置及び方法並びにプログラム
CN107247623B (zh) 一种基于多核cpu的分布式集群系统及数据连接方法
CN103870340A (zh) 流计算系统中的数据处理方法、控制节点及流计算系统
CN110502337B (zh) 针对Hadoop MapReduce中混洗阶段的优化系统
CN104298598B (zh) 分布式环境下rdfs本体的调试方法
CN103677760B (zh) 一种基于Openflow的事件并行控制器及其事件并行处理方法
US20160026663A1 (en) Distributing and processing streams over one or more networks for on-the-fly schema evolution
CN114490027A (zh) 分布式作业调整方法、主节点、系统、物理机及存储介质
CN110135067B (zh) 一种双时间步方法下的直升机流场重叠混合网格并行方法
CN114817264B (zh) 面向图计算的拓扑查询结构、查询方法、电子设备及介质
CN104572275B (zh) 一种进程加载方法、装置及系统
CN104933110B (zh) 一种基于MapReduce的数据预取方法
CN105335135A (zh) 数据处理方法和中心节点
CN117081944A (zh) 一种基于多生成树的全局归约方法
CN110377795A (zh) 一种基于Blogel的分布式时态图可达性查询处理方法
CN116991562A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114024977B (zh) 一种基于边缘计算的数据调度方法、装置及系统
CN117370613A (zh) 面向大规模图数据的最短路径加速方法及装置
CN117076563A (zh) 一种应用于区块链的剪枝方法和装置
CN110851178B (zh) 一种基于分布式图可达计算的过程间程序静态分析方法
CN115409180A (zh) 一种分布式图推理计算方法、装置、终端及存储介质
CN114331711A (zh) 一种基于关联语义的区块链交易并行执行方法与装置
CN116012485A (zh) 一种时序路径处理方法及装置、存储介质
CN118590497B (zh) 一种基于异构通信的全归约通信方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant