CN113722520A - 图数据的查询方法及装置 - Google Patents

图数据的查询方法及装置 Download PDF

Info

Publication number
CN113722520A
CN113722520A CN202111289086.0A CN202111289086A CN113722520A CN 113722520 A CN113722520 A CN 113722520A CN 202111289086 A CN202111289086 A CN 202111289086A CN 113722520 A CN113722520 A CN 113722520A
Authority
CN
China
Prior art keywords
data
index
edge
attribute
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111289086.0A
Other languages
English (en)
Other versions
CN113722520B (zh
Inventor
袁琳
江进
付治钧
朱炳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111289086.0A priority Critical patent/CN113722520B/zh
Publication of CN113722520A publication Critical patent/CN113722520A/zh
Application granted granted Critical
Publication of CN113722520B publication Critical patent/CN113722520B/zh
Priority to PCT/CN2022/127215 priority patent/WO2023078120A1/zh
Priority to US18/398,372 priority patent/US20240126817A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种图数据的查询方法及装置,所述图数据包括第一节点的点数据以及所述第一节点的邻边的边数据,且所述点数据和所述边数据均存储在所述第一节点对应的单点数据块中,所述单点数据块还包括所述边数据的索引数据,所述索引数据用于对所述边数据的第一属性进行索引,所述索引数据记录有所述第一属性的属性值,所述索引数据还记录有边数据在所述单点数据块中的存储位置,所述方法包括:接收查询请求,所述查询请求包含第一属性的属性值的过滤条件,所述查询请求用于查询第一节点的邻边中满足所述过滤条件的目标边;根据索引数据和过滤条件,确定目标边在单点数据块中的存储位置;根据目标边在单点数据块中的存储位置,获取目标边的数据。

Description

图数据的查询方法及装置
技术领域
本公开涉及图数据库技术领域,并且更为具体地,涉及一种图数据的查询方法及装置。
背景技术
大数据时代,图数据库中的一个节点(或称顶点)可能会包括大量的边。例如,在社交网络上,一个明星或主播可能有几千万的粉丝量。如果需要对此类具有对某个节点的边进行检索(如筛选或过滤出满足某种条件的边),则边数据的检索效率显得非常重要。
为了提高边数据的检索效率,相关技术为边数据引入全局索引。边数据的全局索引存在诸多问题。一方面,全局索引的构建需要重复存储部分甚至全部的边数据。另一方面,基于全局索引通常只能定位找到边数据的主键(edge key),在得到边数据的主键之后,接下来还需要基于边数据的主键重新查找边数据,计算过程复杂,中央处理单元(centralprocessing unit,CPU)开销大。
发明内容
针对上述问题,本公开提供一种图数据的查询方法及装置。
第一方面,提供一种图数据的查询方法,所述图数据包括第一节点的点数据以及所述第一节点的邻边的边数据,且所述点数据和所述边数据均存储在所述第一节点对应的单点数据块中,所述单点数据块还包括所述边数据的索引数据,所述索引数据用于对所述边数据的第一属性进行索引,所述索引数据记录有所述第一属性的属性值,所述索引数据还记录有所述第一属性的属性值对应的边在所述单点数据块中的存储位置,所述方法包括:接收查询请求,所述查询请求包含所述第一属性的属性值的过滤条件,所述查询请求用于查询所述第一节点的邻边中的满足所述过滤条件的目标边;根据所述索引数据和所述过滤条件,确定所述目标边在所述单点数据块中的存储位置;根据所述目标边在所述单点数据块中的存储位置,获取所述目标边的数据。
可选地,所述索引数据位于第一索引块中,所述第一索引块为所述单点数据块包含的多个索引块中的任意一个索引块,所述多个索引块分别用于对所述边数据的多种属性进行索引。
可选地,所述单点数据块还包含定位数据,所述定位数据记录有所述多个索引块中的每个索引块在所述单点数据块中的存储位置,在所述根据所述索引数据和所述过滤条件,确定所述目标边在所述单点数据块中的存储位置之前,还包括:根据所述定位数据,查询所述第一索引块在所述单点数据块中的存储位置。
可选地,所述定位数据存储在所述点数据和所述边数据之间。
可选地,所述边数据存储在多个边数据块中。
可选地,所述单点数据块中的数据属于同一文件的数据,且所述单点数据块中的数据在所述文件的存储位置中连续存储。
可选地,所述索引数据的索引名为所述第一属性的属性名,所述第一索引的索引值为所述第一属性的属性值。
第二方面,提供一种图数据的查询装置,所述图数据包括第一节点的点数据以及所述第一节点的邻边的边数据,且所述点数据和所述边数据均存储在所述第一节点对应的单点数据块中,所述单点数据块还包括所述边数据的索引数据,所述索引数据用于对所述边数据的第一属性进行索引,所述索引数据记录有所述第一属性的属性值,所述索引数据还记录有所述第一属性的属性值对应的边在所述单点数据块中的存储位置,所述装置包括:接收模块,用于接收查询请求,所述查询请求包含所述第一属性的属性值的过滤条件,所述查询请求用于查询所述第一节点的邻边中的满足所述过滤条件的目标边;确定模块,用于根据所述索引数据和所述过滤条件,确定所述目标边在所述单点数据块中的存储位置;获取模块,根据所述目标边在所述单点数据块中的存储位置,获取所述目标边的数据。
可选地,所述索引数据位于第一索引块中,所述第一索引块为所述单点数据块包含的多个索引块中的任意一个索引块,所述多个索引块分别用于对所述边数据的多种属性进行索引。
可选地,所述单点数据块还包含定位数据,所述定位数据记录有所述多个索引块中的每个索引块在所述单点数据块中的存储位置,所述装置还包括:查询模块,用于在所述根据所述索引数据和所述过滤条件,确定所述目标边在所述单点数据块中的存储位置之前,根据所述定位数据,查询所述第一索引块在所述单点数据块中的存储位置。
可选地,所述定位数据存储在所述点数据和所述边数据之间。
可选地,所述边数据存储在多个边数据块中。
可选地,所述单点数据块中的数据属于同一文件的数据,且所述单点数据块中的数据在所述文件的存储位置中连续存储。
可选地,所述索引数据的索引名为所述第一属性的属性名,所述第一索引的索引值为所述第一属性的属性值。
第三方面,提供一种图数据的查询装置,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面或第一方面中任一实现方式所述的方法。
第四方面,提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被执行时,能够实现如第一方面或第一方面中任一实现方式所述的方法。
第五方面,提供一种计算机程序产品,包括可执行代码,当所述可执行代码被执行时,能够实现如第一方面或第一方面中任一实现方式所述的方法。
本公开实施例将一单点的点数据以及该单点的邻边的边数据均存储在单点数据块中,同时该单点数据块还包括边数据的索引数据。该索引数据记录有边数据在单点数据块中的位置信息。在边数据的查询过程中,可以先根据过滤条件定位索引数据中对应的边数据的位置信息,然后根据该位置信息获取到目标边数据。由于索引数据中直接存储的是边数据的位置信息,因此减少了数据冗余。同时,也省略了计算查询边数据位置信息的步骤,从而降低了CPU开销。
附图说明
图1是本公开实施例提供的一种单点数据块的示意性结构图。
图2是本公开实施例提供的一种图数据的查询方法的示意性流程图。
图3是本公开实施例提供的另一种单点数据块的示意性结构图。
图4是本公开实施例提供的一种图数据的查询装置的示意性结构图。
图5是本公开实施例提供的另一种图数据的查询装置的示意性结构图。
具体实施方式
下面将结合本公开实施例的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本公开一部分实施例,而不是全部的实施例。
随着零售、金融、电商、互联网、物联网等行业的兴起,基础数据量成几何状增长,为了将日益增长的庞大数据量组织成一个关系网,传统的关系数据库已经很难应对了。由此业界上出现了一批专门针对关系网数据存储、计算的数据库--图数据库。
实际上,图数据库源起欧拉和图理论,也可称为面向/基于图的数据库,对应的英文是Graph Database。图数据库的基本含义是以“图”这种数据结构存储和查询数据,而不是存储图片的数据库。它的数据模型主要是以节点和关系(边)来体现,也可处理键值对。它的优点是快速解决复杂的关系问题。图数据库善于处理大量的、复杂的、互联的、多变的网状数据,其效率远远高于传统的关系型数据库的百倍、千倍甚至万倍。相关技术中,比较有代表性的图数据库是JanusGraph、Neo4j、Hbase和RocksDB等。
可以理解的是,图可以由节点(node)的有穷非空集合和节点之间相连的边的集合组成。图数据可以包括图的拓扑结构、节点和/或边的信息。图中的节点有时也可以被称为顶点(vertex)或点。任意两个节点之间可能存在关系,这种关系可以用边(edge)表示。由边相连的两个节点可以称为邻居节点,例如第一节点通过边与第二节点直接相连,则第二节点为第一节点的邻居节点。或者,第二节点也可以被称为第一节点的一度邻居。该边可以被称为第一节点或第二节点的邻边或一度边(即与节点直接相连的边)。同理,如果两个节点之间间隔一个节点(即两个节点并非直接相连,而是间接相连),则该两个节点中的一个节点可以称为另一节点的二度邻居。以此类推。
节点和边均可以有各自对应的一种或多种属性。节点或边的属性可用于描述节点或边在某个方面的性质。以社交网络为例,节点可以表示参与社交网络的用户,边可以表示用户之间相互关注。节点对应的属性例如可以包括用户身份的创建时间、用户的年龄、性别、粉丝数量等。边对应的属性例如可以包括该边的两个端节点的标识、边的创建时间等。节点的属性可以记录在该节点对应的点数据中;边的属性可以记录在该边对应的边数据中。节点或边的属性可以根据实际的应用场景设定,本公开实施例对此不作具体限定。无论是点数据还是边数据,均具有主键。基于点数据或边数据的主键,能够在点数据或边数据中唯一标识某个节点或某条边。以边数据为例,边数据的主键可以称为edge key。edgekey可以由边数据的部分属性构成(构成edgekey的属性需要能够唯一标识各条边)。例如,edgekey可以包括边数据的如下属性数据“该边的两个端节点的标识、边的类型、出节点的标识”。这是因为,针对同一类型的边而言,边的两个端节点通常是不同的,所以能够唯一标识各条边。
可以理解的是,图数据中的边可以是有方向的,也可以是没方向的。有方向的边可以被称为有向边,没有方向的边可以被称为无向边。有向边可以是指由源节点(source,或简称Src)指向目标节点(destination,或简称Dst)的边。包括有向边的图可以被称为有向图,包括无向边的图可以被称为无向图。本公开实施例可以应用于有向图,也可以应用于无向图。
很多场景中的数据均可以表达成图数据。而且,在不同场景下,基于图数据可以实现很多不同的应用。例如,基于图数据,可以实现金融风险评估、广告推荐、社交关系预测以及交通调度等应用。
以图数据用于金融信用评估为例。节点可以是用户或金融机构等,节点的信息可以包括用户信息、用户的信用评分或金融机构信息等数据。边可以表示用户之间的关系或用户与金融机构之间的关系,例如边可以表示好友关系或合作关系等。或者,边可以表示一个节点对另一节点的操作或行为,例如边可以表示:转账、借贷、消费或储蓄等。基于该图,可以通过某一用户已知的信用评分,评估或预测与该用户存在好友关系的另一用户的信用评分。或者,可以基于该图,通过用户转账或贷款等金融行为评估该用户的信用评分。
或者,以图数据用于广告推荐为例。节点可以是用户、广告或商品等。节点的信息可以包括用户的信息、商品介绍、广告点击率等。边可以是用户的行为,例如购买或点击等。基于该图,根据用户历史购买商品的记录或者点击广告的行为,可以预测用户点击某一广告的概率,从而针对不同用户实现个性化的广告推荐。
随着基础数据量的增长,针对关系网数据存储、计算的图数据的规模也越来越大。在以上图数据库的应用场景中,图数据可能会包括海量的点数据和边数据。一些图数据的节点的邻边数量甚至达到了数千万个(这样的节点也可称为超大点)。例如,在金融系统中,金融机构可能拥有几千万的关系用户。又如,在社交网络上,一个名人明星或主播可能也有几千万的粉丝。虽然这样的点并不见得多,但是因为它们的邻居非常多,导致在查询路径上很容易遇到这样的点。作为一个示例,根据转账关系查询涉及到主播的网络诈骗就可能会遇到超大点等。如果对这样的点的边进行遍历查询,对处理器或内存的性能影响可能会非常严重,但是在几乎所有的查询场景里,通常不会需要某个超大点的所有边(或称全量边),而是需要从超大点的边中找出符合某种条件的边。以社交网络为例,可能需要查询某个主播的粉丝中的男性粉丝或年龄在20-40岁的粉丝的数量。以金融场景为例,可能需要查询某个金融机构的用户中的日转账数额在20万元以上的用户。
可以理解的是,在以上图数据库的应用场景中,如何提高对边数据的检索效率几乎是每个图数据库必须要面对的问题。随着基础数据量的不断增长,该问题也变得越来越突出。
面对上述问题,一种最糟糕的方案就是对点边数据不作任何处理,此时就需要将该点的所有边数据都读出来,在内存中进行处理。这样一来,待处理边数据量比较大,就会占用较大内存。在遇到超大点的情况下,可能导致需要处理的数据超过内存的容量,此时则需要将数据写到磁盘上,从而导致数据处理过程需要频繁地访问。与内存输入输出(inputoutput,IO)相比,磁盘IO的时延较长,大量的磁盘IO也可能会成为系统瓶颈,甚至导致查询超时或查询失败。
为了提高边数据的检索效率,一些相关技术提出了为边数据建立索引的方案。但是,针对边数据的检索,目前使用的主流索引为全局索引。全局索引通常是基于边数据的部分或全部属性数据建立的。例如,全局索引一般包括键和值两部分,全局索引的值一般至少会包含边数据的主键(edge key),甚至会包含边数据中的除主键之外的其他属性数据。在基于全局索引进行边数据查询的过程中,可以先根据过滤条件定位到全局索引中的值(即定位到边数据的主键),然后基于边数据的主键从边数据中找到该主键对应的边。
全局索引的存储或实现方式需要重复存储部分甚至全部的边数据。此外,基于全局索引通常只能定位找到边数据的主键,在得到边数据的主键之后,接下来还需要基于边数据的主键重新查找边数据,计算过程复杂,CPU开销大。由此可见,全局索引存在诸多问题。
为了解决全局索引存在的问题,一些相关技术对单个点对应的邻边的边数据建立单点索引,该单点索引可以将边按照索引值排序,多个索引之间的排序可以根据优先级按树形进行排列,以提升查询效率。索引值相同的边会被排列到一起,这种情况下,索引和边之间是一对多的关系。可以理解的是,当出现多对多的情况时,索引数据整体上只能围绕一种排序规则进行排序,无法同时围绕多种排序规则进行整体排序。作为一个示例,假设索引数据包含转账时间、转账金额、转账的货币类型等多种索引值,则该索引数据可以先按照转账时间排序,只有当转账时间相同时再按照转账金额进行排序,当转账金额相同时再按照转账的货币类型进行排序。无论如何,该索引数据整体上不可能按照转账时间、转账金额和转账的货币类型同时进行排序。在这种情况下,只有按照索引数据的排序规律查询才能获得较好的性能提升。例如,在上面的示例中,如果希望查找符合如下过滤条件的边数据:<转账时间,转账金额,转账的货币类型>,则由于该过滤条件符合存储排序规则,通过一次IO即可快速查找到目标边数据。但是,如果过滤条件是希望找到转账货币类型的边数据,则由于边数据整体上并非以转账的货币类型进行排序,需要通过多次IO才能找到期望的目标边数据。从上述描述内容可以看出,这样的索引是不够灵活的。
由上文可知,相关技术中提供的边数据的索引方式存在诸多缺陷。随着图数据的数据量越来越大,亟需寻找一种更为有效的边数据索引方式。
下面结合附图1,对本公开实施例提出的图数据库存储结构进行详细描述。
图数据库可以存储图的数据。图可以包括多个节点,其中每个节点可以包括一个或多个边。为了便于描述,后文主要以图中的第一节点为例进行描述。应理解,第一节点可以为图中的任意一个节点。图中的其他节点的数据也可以按照与第一节点类似的方式在图数据库中进行存储。
图1示出了第一节点在图数据库中的存储结构。从图1可以看出,图数据库以单点数据块的形式存储第一节点的数据。第一节点对应单点数据块10。该单点数据块10存储有第一节点的点数据和第一节点的邻边的边数据。也就是说,本公开实施例将点数据和其邻边的边数据存储在一起。
如果第一节点所在的图为无向图,则第一节点的邻边可以包括与第一节点相连的任意邻边。如果第一节点所在的图为有向图,则第一节点的邻边可以包括以第一节点为起始节点(或源节点)的邻边。当然,在一些实施例中,第一节点的邻边也可以包括以第一节点为目标节点的邻边。
在一些实施例中,第一节点的邻边可以指第一节点的一度邻边,即图中的与第一节点直接相邻的边。在另一些实施例中,第一节点的邻边也可以包括与第一节点的N度邻边(N为大于1的整数)。N的取值可以根据实际场景或实际的查询需求设定。
在不同场景下,第一节点及其点数据的内容可以有不同的含义。例如,第一节点可以是一个人,也可以是一个账户或平台等,第一节点的点数据可以包含标识(identity,ID)编号,也可以包含其他属性信息。示例性地,在社交网络中,当第一节点为一个人时,第一节点的点数据可以包括年龄、性别、身高等属性信息。在资金网络中,当第一节点为一个账户时,该节点的属性信息例如可以为账户名、账户的创建时间、账户余额等。本公开对第一节点的类别和属性信息不做具体限制。
同理,在不同场景下,第一节点的边数据可以包括不同的属性数据。示例性地,在社交网络中,当边表示好友关系时,边数据可以包括聊天时长、点赞次数等属性。在资金网络中,当边表示转账关系时,边数据可以包括转账时间和转账金额等属性。
进一步地,在一些实施例中,该单点数据块10还可以包括边数据的索引数据。该索引数据可以用于对第一节点的边数据的第一属性进行索引。该第一属性可以是边数据中的所有属性中的任意一种属性,第一属性的具体内容可以根据实际的检索需求设定。以边数据的属性包括转账时间、转账金额、转账的货币类型为例,则第一属性可以是转账时间、转账金额、转账的货币类型中的任意一种。
在一些实施例中,上述边数据的索引数据例如可以记录有该边数据对应的位置信息。边数据对应的位置信息可用于定位第一节点的各个邻边的边数据在整个边数据中的位置。某个边对应的位置信息例如可以包括偏移值(offset)和长度(length)。偏移值可用于指示该边对应的数据相对于单点数据块的起始存储位置的偏移量。长度可用于指示该边对应的数据所占的存储空间的大小。基于偏移值和长度,即可推算出该边对应的数据在单点数据块中的存储位置。
与前文提到的边数据的全局索引不同,本公开实施例提供的索引数据中存储的是边数据的位置信息(而不是重复存储边数据的主键),因此该索引数据并不会产生数据冗余。由于位置信息所占的存储空间通常非常小(如前文提到的“偏移值+长度”所需要的存储空间非常小),会极大地降低索引数据的数据量,从而可以从整体上降低图数据的数据量。
在一些实施例中,索引数据可以包括索引名称和索引值。该索引名称可以为第一属性的属性名。该索引值可以为第一属性的属性值。以第一属性为转账金额为例,则索引数据的索引名称可以为转账金额,索引数据的索引值可以为具体的转账金额值(如200元)。以第一属性为转账的货币类型为例,则索引数据的索引名称可以为转账的货币类型,索引数据的索引值可以为人民币或者美元。
可选地,该索引块还可以包括索引数据的数据类型。索引数据的数据类型例如可以为字符型、布尔型、整型等,本公开实施例对此不做具体限制,可以根据需要自行设置。
单点数据块可以存储在一个文件中。例如,可以将单点数据块的数据在一个文件对应的存储位置中连续存储,以方便索引和查找。而且,一个文件的数据通常不会分布在多个服务器中,因此,即使在分布式存储场景中,边数据和边数据的索引数据也不会被存储在不同的服务器,从而可以降低服务器之间的通信开销。
基于如图1所示的图数据存储结构,本公开实施例还提出了一种图数据的查询方法。下面结合附图2,对本公开实施例提出的图数据查询方法20进行详细描述。
参见图2,在步骤S21,接收查询请求。该查询请求可以包含第一属性的属性值的过滤条件,该查询请求用于查询第一节点的邻边中的满足过滤条件的目标边。查询请求例如可以由图数据库的用户向数据库发送。该查询请求例如可以是SQL命令。
以第一属性为转账的货币类型为例,则第一属性的属性值可以包括人民币和美元。第一属性的属性值的过滤条件可以为人民币。
以第一属性为转账金额为例,则第一属性的属性值可以是0~200元之间的任意值。第一属性的属性值的过滤条件可以为0~200元。
在一些实施例中,查询请求除了包括第一属性的属性值的过滤条件之外,还可以包括其他过滤条件。第一属性的属性值的过滤条件与其他过滤条件可以按照任意逻辑关系(如且、或、异或)进行组合。
步骤S23,根据索引数据和过滤条件,确定目标边在单点数据块中的存储位置。
例如,可以根据过滤条件从索引数据中找到索引值满足该过滤条件的部分索引数据。然后,获取该部分索引数据中存储的位置信息。这些位置信息记录的即为目标边在单点数据块中的存储位置。
步骤S25,根据目标边在单点数据块中的存储位置,获取目标边的数据。例如,可以将目标边的数据读取到内存中。然后,可以将该目标边的数据发送给提交查询请求的用户。
前文提到的针对第一属性的索引数据可以是单点数据块中存储的索引数据中的一种。单点数据块还可以存储更多种类的索引数据。如图3所示,单点数据块30可以包括多个索引块(针对属性a的索引块和针对属性b的索引块等等)。前文提到的针对第一属性的索引数据可以存储在该单点数据块30中的任意一个索引块中。在单点数据块30中设置多个索引块可以分别用于对边数据的多种属性进行索引,由此可以增加对单点数据块30中边数据索引的灵活性。以边数据包括转账时间、转账金额、转账的货币类型为例,则可以分别针对转账时间、转账金额、转账的货币类型建立索引块,并将这些索引块均存储在单点数据块中。这样一来,图数据库的用户就可以分别针对转账时间、转账金额和转账的货币类型进行查询,且针对每种属性的查询均具有较好的查询性能。此外,通过将索引数据按属性分块查找,每个属性名对应一个索引块,在查询的过程中,可以单线程查询,也可以做并发查询,以提高对边数据查找的灵活性和快速性。
在一些实施例中,如图3所示,单点数据块30还包括定位数据。该定位数据可用于对索引块进行定位(参见图2中的步骤S22)。例如,该定位数据可以记录多个索引块各自在单点数据块30中的位置。示例性地,该定位数据记录有属性与索引块(用于索引该属性)的存储位置的映射关系。当存在多个索引块时,利用该定位数据可以方便快速找到所需的索引块。例如,假设接收的查询请求包含针对属性a的过滤条件,则可以先利用该定位数据找到用于索引属性a的索引块,然后再根据该索引块找到符合该过滤条件的目标边的存储位置。
在一些实施例中,如图3所示,该定位数据可以存储在第一节点的点数据和边数据之间。当接收到查询请求之后,可以首先通过一次IO从单点数据块中读取点数据和定位数据,从而确定索引块的位置。
前文提到,图数据中可能存在超大点。这种点的边数据的数据量可能较大,因此,在一些实施例中,可以将边数据划分成多个边数据块进行存储。对边数据进行分块存储,可以便于管理边数据。
为了能精准定位到图数据库中的边数据,同时避免在查找过程中产生网络开销、CPU开销、数据冗余等问题,本公开中图数据库将一单点的点数据以及该单点的邻边的边数据均存储在单点数据块中,同时该单点数据块还包括边数据的索引数据。该索引数据记录有边数据在单点数据块中的位置信息。在边数据的查询过程中,可以先根据过滤条件查询索引数据中对应的边数据的位置信息,然后根据该位置信息直接定位到目标边数据。由于索引数据和边数据同时存储在一个模块中,且索引数据中存储的是边数据的位置信息(省略了计算查询的步骤),因此降低了网络开销、CPU开销以及数据冗余的问题。
在一些实施例中,在数据构建的时候可以根据用户指定的索引构建规则,在单点的边属性上建立二级索引,本公开对此不做具体限制。
通过本公开的图数据存储结构和图数据查询方法,可以快速读取边数据。示例性地,在对边数据查询过程中,根据节点(node)Id可以常数级时间复杂度查找到单点数据块的存储位置,即,通过一次IO可以拿到单点数据块的点数据、边数据的属性名以及边对应索引数据的位置,并解析出来。然后,通过遍历全部属性名,可以获取该属性名对应的索引数据块位置,一次IO读取并解析。接着,根据过滤规则和上一步拿到的索引数据,过滤出符合要求的边的数据位置。最后,根据边数据位置,可以直接读取边数据并解析。
可以理解的是,上述内容所提及的数据存储结构和数据查询方法可以但不限于应用在基于完美哈希的储存系统(perfecthashstore,PhStore)。
可以理解的是,上述内容所提及的数据存储结构和数据查询方法不仅适用于数据存储在磁盘上的系统,也同样适用数据存储在内存中的系统。
可以理解的是,上述内容所提及的数据存储结构和数据查询方法不仅适用于图数据系统,同样也适用于键值系统。
可以理解的是,上述内容所提及的数据存储结构和数据查询方法不仅可以在边属性上建立索引,同样也可以在点数据上建立索引。
可以理解的是,上述所提及的数据查询方法不限于对异步输入输出(asynchronous input output,AIO)查询,同样也可以对同步输入输出(synchronousinput output,SIO)查询。
上文结合图1至图3,详细描述了本公开中的图数据存储结构和图数据的查询方法的实施例,下面结合图4和图5,详细描述本公开的装置实施例。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的部分可以参见前面方法实施例。
图4是本公开实施例提供的图数据的查询装置的示意性结构图。所述图数据包括第一节点的点数据以及所述第一节点的邻边的边数据,且所述点数据和所述边数据均存储在所述第一节点对应的单点数据块中,所述单点数据块还包括所述边数据的索引数据,所述索引数据用于对所述边数据的第一属性进行索引,所述索引数据记录有所述第一属性的属性值,所述索引数据还记录有所述第一属性的属性值对应的边在所述单点数据块中的存储位置,该装置40可以包括:接收模块41、确定模块43以及获取模块45。
接收模块41可以用于接收查询请求,所述查询请求包含所述第一属性的属性值的过滤条件,所述查询请求用于查询所述第一节点的邻边中的满足所述过滤条件的目标边。
确定模块43可以用于根据所述索引数据和所述过滤条件,确定所述目标边在所述单点数据块中的存储位置。
获取模块45可以根据所述目标边在所述单点数据块中的存储位置,获取所述目标边的数据。
可选地,所述索引数据位于第一索引块中,所述第一索引块为所述单点数据块包含的多个索引块中的任意一个索引块,所述多个索引块分别用于对所述边数据的多种属性进行索引。
可选地,所述单点数据块还包含定位数据,所述定位数据记录有所述多个索引块中的每个索引块在所述单点数据块中的存储位置,所述装置还包括:查询模块42,用于在所述根据所述索引数据和所述过滤条件,确定所述目标边在所述单点数据块中的存储位置之前,根据所述定位数据,查询所述第一索引块在所述单点数据块中的存储位置。
可选地,所述定位数据存储在所述点数据和所述边数据之间。
可选地,所述边数据存储在多个边数据块中。
可选地,所述单点数据块中的数据属于同一文件的数据,且所述单点数据块中的数据在所述文件的存储位置中连续存储。
可选地,所述索引数据的索引名为所述第一属性的属性名,所述第一索引的索引值为所述第一属性的属性值。
本公开实施例还提供了一种图数据的查询装置,例如可以是计算机、服务器等。图5为本公开实施例中图数据的查询装置50的结构示意图。图数据的查询装置50可以包括处理器51、存储器52、总线53。处理器51和存储器52通过总线53连接,处理器51用于执行存储器52中存储的可执行模块,例如计算机程序。
处理器51例如可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,图数据的查询方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。处理器51也可以是通用处理器,包括CPU、网络处理器(network processor,NP)等;还可以是数字信号处理器(digital signal processor,DSP)、专用集成电路(applicationspecific integrated circuit,ASIC)、现场可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器52例如可以包含高速随机存取存储器(random access memory,RAM),也可以包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
总线53可以是工业标准结构(industry standard architecture,ISA)总线、外围设备互连(peripheral component interconnect,PCI)总线或扩充的工业标准结构(extended industry standard architecture,EISA)总线等。图5中仅用一个双向箭头表示,但并不表示仅有一根总线53或一种类型的总线53。
存储器52用于存储程序,例如图数据的查询装置对应的程序。图数据的查询装置50可以包括至少一个软件或固件(firmware)的形式存储于存储器52中或固化在图数据的查询装置50的操作系统(operating system,OS)中的软件功能模块。处理器51在接收到执行指令后,执行所述程序以实现上述图数据的查询方法。
在一些实施例中,本公开提供的图数据的查询装置50还可以包括通信接口54。通信接口54通过总线与处理器51连接。
应当理解的是,图5所示的结构仅为图数据的查询装置50的部分的结构示意图,图数据的查询装置50还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
本公开实施例提供的图数据方法可以但不限于应用于图5所示的图数据的查询装置。
应理解,在本公开的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够读取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital video disc,DVD))或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种图数据的查询方法,所述图数据包括第一节点的点数据以及所述第一节点的邻边的边数据,且所述点数据和所述边数据均存储在所述第一节点对应的单点数据块中,所述单点数据块还包括所述边数据的索引数据,所述索引数据用于对所述边数据的第一属性进行索引,所述索引数据记录有所述第一属性的属性值,所述索引数据还记录有所述第一属性的属性值对应的边在所述单点数据块中的存储位置,
所述方法包括:
接收查询请求,所述查询请求包含所述第一属性的属性值的过滤条件,所述查询请求用于查询所述第一节点的邻边中的满足所述过滤条件的目标边;
根据所述索引数据和所述过滤条件,确定所述目标边在所述单点数据块中的存储位置;
根据所述目标边在所述单点数据块中的存储位置,获取所述目标边的数据。
2.根据权利要求1所述的方法,所述索引数据位于第一索引块中,所述第一索引块为所述单点数据块包含的多个索引块中的任意一个索引块,所述多个索引块分别用于对所述边数据的多种属性进行索引。
3.根据权利要求2所述的方法,所述单点数据块还包含定位数据,所述定位数据记录有所述多个索引块中的每个索引块在所述单点数据块中的存储位置,
在所述根据所述索引数据和所述过滤条件,确定所述目标边在所述单点数据块中的存储位置之前,还包括:
根据所述定位数据,查询所述第一索引块在所述单点数据块中的存储位置。
4.根据权利要求3所述的方法,所述定位数据存储在所述点数据和所述边数据之间。
5.根据权利要求1所述的方法,所述边数据存储在多个边数据块中。
6.根据权利要求1所述的方法,所述单点数据块中的数据属于同一文件的数据,且所述单点数据块中的数据在所述文件的存储位置中连续存储。
7.根据权利要求1所述的方法,所述索引数据的索引名为所述第一属性的属性名,所述索引数据的索引值为所述第一属性的属性值。
8.一种图数据的查询装置,所述图数据包括第一节点的点数据以及所述第一节点的邻边的边数据,且所述点数据和所述边数据均存储在所述第一节点对应的单点数据块中,所述单点数据块还包括所述边数据的索引数据,所述索引数据用于对所述边数据的第一属性进行索引,所述索引数据记录有所述第一属性的属性值,所述索引数据还记录有所述第一属性的属性值对应的边在所述单点数据块中的存储位置,
所述装置包括:
接收模块,用于接收查询请求,所述查询请求包含所述第一属性的属性值的过滤条件,所述查询请求用于查询所述第一节点的邻边中的满足所述过滤条件的目标边;
确定模块,用于根据所述索引数据和所述过滤条件,确定所述目标边在所述单点数据块中的存储位置;
获取模块,根据所述目标边在所述单点数据块中的存储位置,获取所述目标边的数据。
9.根据权利要求8所述的装置,所述索引数据位于第一索引块中,所述第一索引块为所述单点数据块包含的多个索引块中的任意一个索引块,所述多个索引块分别用于对所述边数据的多种属性进行索引。
10.根据权利要求9所述的装置,所述单点数据块还包含定位数据,所述定位数据记录有所述多个索引块中的每个索引块在所述单点数据块中的存储位置,所述装置还包括:
查询模块,用于在所述根据所述索引数据和所述过滤条件,确定所述目标边在所述单点数据块中的存储位置之前,根据所述定位数据,查询所述第一索引块在所述单点数据块中的存储位置。
11.根据权利要求10所述的装置,所述定位数据存储在所述点数据和所述边数据之间。
12.根据权利要求8所述的装置,所述边数据存储在多个边数据块中。
13.根据权利要求8所述的装置,所述单点数据块中的数据属于同一文件的数据,且所述单点数据块中的数据在所述文件的存储位置中连续存储。
14.根据权利要求8所述的装置,所述索引数据的索引名为所述第一属性的属性名,所述索引数据的索引值为所述第一属性的属性值。
15.一种图数据的查询装置,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器被配置为执行所述可执行代码,以实现权利要求1-7中任一项所述的方法。
CN202111289086.0A 2021-11-02 2021-11-02 图数据的查询方法及装置 Active CN113722520B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111289086.0A CN113722520B (zh) 2021-11-02 2021-11-02 图数据的查询方法及装置
PCT/CN2022/127215 WO2023078120A1 (zh) 2021-11-02 2022-10-25 图数据的查询
US18/398,372 US20240126817A1 (en) 2021-11-02 2023-12-28 Graph data query

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111289086.0A CN113722520B (zh) 2021-11-02 2021-11-02 图数据的查询方法及装置

Publications (2)

Publication Number Publication Date
CN113722520A true CN113722520A (zh) 2021-11-30
CN113722520B CN113722520B (zh) 2022-05-03

Family

ID=78686471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111289086.0A Active CN113722520B (zh) 2021-11-02 2021-11-02 图数据的查询方法及装置

Country Status (3)

Country Link
US (1) US20240126817A1 (zh)
CN (1) CN113722520B (zh)
WO (1) WO2023078120A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901279A (zh) * 2021-12-03 2022-01-07 支付宝(杭州)信息技术有限公司 一种图数据库的检索方法和装置
CN114077680A (zh) * 2022-01-07 2022-02-22 支付宝(杭州)信息技术有限公司 一种图数据的存储方法、系统及装置
WO2023078120A1 (zh) * 2021-11-02 2023-05-11 支付宝(杭州)信息技术有限公司 图数据的查询
CN117235120A (zh) * 2023-11-09 2023-12-15 支付宝(杭州)信息技术有限公司 具有时序特性的超图数据存储和查询方法及装置
CN117290560A (zh) * 2023-11-23 2023-12-26 支付宝(杭州)信息技术有限公司 图计算任务中获取图数据的方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708384B (zh) * 2024-01-31 2024-08-09 中电云计算技术有限公司 基于JanusGraph的图数据存储方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823846A (zh) * 2014-01-28 2014-05-28 浙江大学 一种基于图论的大数据存储及查询方法
CN104899156A (zh) * 2015-05-07 2015-09-09 中国科学院信息工程研究所 一种面向大规模社交网络的图数据存储及查询方法
CN106227794A (zh) * 2016-07-20 2016-12-14 北京航空航天大学 时态图数据中动态属性数据的存储方法和装置
US9535963B1 (en) * 2015-09-18 2017-01-03 Linkedin Corporation Graph-based queries
CN111241350A (zh) * 2020-01-07 2020-06-05 平安科技(深圳)有限公司 图数据查询方法、装置、计算机设备和存储介质
CN112363979A (zh) * 2020-09-18 2021-02-12 杭州欧若数网科技有限公司 一种基于图数据库的分布式索引方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10204174B2 (en) * 2015-12-15 2019-02-12 Oracle International Corporation Efficient method for subgraph pattern matching
CN110737659A (zh) * 2019-09-06 2020-01-31 平安科技(深圳)有限公司 图数据存储和查询方法、装置及计算机可读存储介质
WO2021217497A1 (en) * 2020-04-29 2021-11-04 Paypal, Inc. Statistics-aware sub-graph query engine
CN112287182B (zh) * 2020-10-30 2023-09-19 杭州海康威视数字技术股份有限公司 图数据存储、处理方法、装置及计算机存储介质
CN113722520B (zh) * 2021-11-02 2022-05-03 支付宝(杭州)信息技术有限公司 图数据的查询方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823846A (zh) * 2014-01-28 2014-05-28 浙江大学 一种基于图论的大数据存储及查询方法
CN104899156A (zh) * 2015-05-07 2015-09-09 中国科学院信息工程研究所 一种面向大规模社交网络的图数据存储及查询方法
US9535963B1 (en) * 2015-09-18 2017-01-03 Linkedin Corporation Graph-based queries
CN106227794A (zh) * 2016-07-20 2016-12-14 北京航空航天大学 时态图数据中动态属性数据的存储方法和装置
CN111241350A (zh) * 2020-01-07 2020-06-05 平安科技(深圳)有限公司 图数据查询方法、装置、计算机设备和存储介质
CN112363979A (zh) * 2020-09-18 2021-02-12 杭州欧若数网科技有限公司 一种基于图数据库的分布式索引方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023078120A1 (zh) * 2021-11-02 2023-05-11 支付宝(杭州)信息技术有限公司 图数据的查询
CN113901279A (zh) * 2021-12-03 2022-01-07 支付宝(杭州)信息技术有限公司 一种图数据库的检索方法和装置
CN114077680A (zh) * 2022-01-07 2022-02-22 支付宝(杭州)信息技术有限公司 一种图数据的存储方法、系统及装置
WO2023131218A1 (zh) * 2022-01-07 2023-07-13 支付宝(杭州)信息技术有限公司 图数据的存储
CN117235120A (zh) * 2023-11-09 2023-12-15 支付宝(杭州)信息技术有限公司 具有时序特性的超图数据存储和查询方法及装置
CN117235120B (zh) * 2023-11-09 2024-08-16 支付宝(杭州)信息技术有限公司 具有时序特性的超图数据存储和查询方法及装置
CN117290560A (zh) * 2023-11-23 2023-12-26 支付宝(杭州)信息技术有限公司 图计算任务中获取图数据的方法和装置
CN117290560B (zh) * 2023-11-23 2024-02-23 支付宝(杭州)信息技术有限公司 图计算任务中获取图数据的方法和装置

Also Published As

Publication number Publication date
WO2023078120A1 (zh) 2023-05-11
CN113722520B (zh) 2022-05-03
US20240126817A1 (en) 2024-04-18

Similar Documents

Publication Publication Date Title
CN113722520B (zh) 图数据的查询方法及装置
US10725981B1 (en) Analyzing big data
KR102226257B1 (ko) 서비스 데이터를 블록체인 시스템에 기입하기 위한 방법 및 디바이스
CN110168523B (zh) 改变监测跨图查询
CN107766568B (zh) 使用列式数据库中的直方图进行有效查询处理
JP6744854B2 (ja) データ記憶方法、データ照会方法、およびそれらの装置
CN109033101B (zh) 标签推荐方法及装置
US10037388B2 (en) Fast querying of social network data
US20130013597A1 (en) Processing Repetitive Data
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
CN109299334B (zh) 一种知识图谱的数据处理方法及装置
US11500876B2 (en) Method for duplicate determination in a graph
US8805767B1 (en) Machine learning memory management and distributed rule evaluation
CN104239395A (zh) 搜索的方法和系统
US20140019454A1 (en) Systems and Methods for Caching Data Object Identifiers
US20220229854A1 (en) Constructing ground truth when classifying data
CN112528067A (zh) 图数据库的存储方法、读取方法、装置及设备
CN115905630A (zh) 一种图数据库查询方法、装置、设备及存储介质
CN110443264A (zh) 一种聚类的方法和装置
US20230153286A1 (en) Method and system for hybrid query based on cloud analysis scene, and storage medium
US20190370406A1 (en) Network node consolidation
CN113792170B (zh) 图数据划分方法、装置和计算机设备
CN115733787A (zh) 一种网络识别方法、装置、服务器及存储介质
CN114490833A (zh) 一种图计算结果可视化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40062632

Country of ref document: HK