CN113297426A - 图数据库的特征生成方法、装置及电子设备 - Google Patents
图数据库的特征生成方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113297426A CN113297426A CN202110457492.7A CN202110457492A CN113297426A CN 113297426 A CN113297426 A CN 113297426A CN 202110457492 A CN202110457492 A CN 202110457492A CN 113297426 A CN113297426 A CN 113297426A
- Authority
- CN
- China
- Prior art keywords
- graph
- features
- database
- feature
- edges
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 52
- 230000002776 aggregation Effects 0.000 claims description 61
- 238000004220 aggregation Methods 0.000 claims description 61
- 230000004931 aggregating effect Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种图数据库的特征生成方法、装置、电子设备及计算机可读介质。该方法包括:基于图特征生成命令获取特征列表;基于所述特征列表提取多个待计算的特征;在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;对所述多个子图之中的边的关系进行收集和整理以生成多个特征。本公开涉及的图数据库的特征生成方法、装置、电子设备及计算机可读介质,能够显著提升图特征的计算性能,同时,也大幅减少计算时图数据库的压力。并且在所需计算的图特征数量的增加,也不会显著增加计算耗时。
Description
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种图数据库的特征生成方法、装置、电子设备及计算机可读介质。
背景技术
图数据库(Graph Database)是一种以图结构进行存储和查询的数据库。图数据库的关键概念是点(代表实体)和边(代表关系),通过边将顶点连接在一起,从而进行快速的图检索操作。节点(node):通常表示实体,例如人员、账户、事件等,相当于RDBMS中的一行记录。边(edge):又被称为关系(relationships),具有名字和方向,从一个节点指向另一个节点,边是图数据库中最显著的一个特征,在RDBMS中没有对应实现。属性(properties):类似KV数据库中的键值对,节点和边都可以有属性。
图数据库将数据以属性方式存储在节点或边中,以边来表示节点之间的关系,并用特定查询语言,进行数据检索。在表现实体间关系时,图数据库会将另一个实体的唯一标识,存储到表中的某一列,来与其他实体进行关联,例如典型的主键、外键。当遇到多对多关系时,典型做法会引入中间表,来存储两个实体ID间的关系,例如我们最熟悉的用户角色多对多关系。在查询时,需要多个表进行join连接,依次查询所需信息。依托于图数据库,根据给定顶点以及遍历条件查询出一度、二度乃至N度关系的关联节点后,经由一定计算后得出的结果,作为该顶点的图特征。目前在计算一个图数据库的顶点的图特征时,会根据所需计算的特征列表,逐一的去遍历图数据库,从而将特征列表中的特征全部计算完成,当特征数量非常大时,会对图数据库造成非常大的压力,且计算耗时根据图数据库的数据量有关系,在图数据库庞大时,整个计算的耗时非常漫长。
因此,需要一种新的图数据库的特征生成方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种图数据库的特征生成方法、装置、电子设备及计算机可读介质,能够显著提升图特征的计算性能,同时,也大幅减少计算时图数据库的压力。并且在所需计算的图特征数量的增加,也不会显著增加计算耗时。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种图数据库的特征生成方法,该方法包括:基于图特征生成命令获取特征列表;基于所述特征列表提取多个待计算的特征;在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;对所述多个子图之中的边的关系进行收集和整理以生成多个特征。
可选地,还包括:获取图数据库的图特征列表;基于所述图特征列表通过聚合方式生成多个数据库查询命令;基于所述数据库查询命令对所述图数据库进行查询以生成所述多个子图。
可选地,获取图数据库的图特征列表,包括:图特征计算服务端获取图数据库的图特征列表。
可选地,基于所述图特征列表通过聚合方式生成多个数据库查询命令,包括:基于所述图特征列表确定遍历条件集合;基于所述遍历条件集合对待查询的边的属性进行聚合,生成多个聚合集合;基于所述聚合集合生成所述多个数据库查询命令。
可选地,基于所述图特征列表确定遍历条件集合,包括:解析所述图特征列表中的每一个特征;基于解析后的特征确定遍历条件集合。
可选地,基于所述遍历条件集合对待查询的边的属性进行聚合,生成多个聚合集合,包括:基于所述遍历条件集合对待查询的边的度数进行聚合计算;基于所述遍历条件集合对待查询的边的类型进行聚合计算;基于所述遍历条件集合对待查询的边的方向进行聚合计算;根据聚合结果生成所述多个聚合集合。
可选地,基于所述聚合集合生成所述多个数据库查询命令,包括:提取每一个聚合集合;基于所述聚合集合中的遍历条件和边的属性生成数据库查询命令。
可选地,基于所述数据库查询命令对所述图数据库进行查询以生成所述多个子图,包括:基于所述数据库查询命令由所述图数据库中查询生成所述关系数据集合;基于所述多个关系数据集合生成所述多个子图;将所述多个子图存储在缓存层。
可选地,在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图,包括:多个图特征计算服务端基于所述多个待计算的特征进行并发计算;基于所述并发计算提取预先存储的所述多个子图。
可选地,对所述多个子图之中的边的关系进行收集和整理以生成多个特征,包括:遍历每个子图中边序号和其对应的关系;在所述多个子图遍历之后,基于边序号对边的度数、类型、方向进行收集和整理,以生成所述多个特征。
根据本公开的一方面,提出一种图数据库的特征生成装置,该装置包括:列表模块,用于基于图特征生成命令获取特征列表;特征模块,用于基于所述特征列表提取多个待计算的特征;提取模块,用于在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;计算模块,用于对所述多个子图之中的边的关系进行收集和整理以生成多个特征。
可选地,还包括:数据模块,用于获取图数据库的图特征列表;命令模块,用于基于所述图特征列表通过聚合方式生成多个数据库查询命令;子图模块,用于基于所述数据库查询命令对所述图数据库进行查询以生成所述多个子图。
可选地,所述数据模块,还用于图特征计算服务端获取图数据库的图特征列表。
可选地,所述命令模块,包括:条件单元,用于基于所述图特征列表确定遍历条件集合;聚合单元,用于基于所述遍历条件集合对待查询的边的属性进行聚合,生成多个聚合集合;命令单元,用于基于所述聚合集合生成所述多个数据库查询命令。
可选地,所述条件单元,还用于解析所述图特征列表中的每一个特征;基于解析后的特征确定遍历条件集合。
可选地,所述聚合单元,还用于基于所述遍历条件集合对待查询的边的度数进行聚合计算;基于所述遍历条件集合对待查询的边的类型进行聚合计算;基于所述遍历条件集合对待查询的边的方向进行聚合计算;根据聚合结果生成所述多个聚合集合。
可选地,所述命令单元,还用于提取每一个聚合集合;基于所述聚合集合中的遍历条件和边的属性生成数据库查询命令。
可选地,所述子图模块,包括:集合单元,用于基于所述数据库查询命令由所述图数据库中查询生成所述关系数据集合;子图单元,用于基于所述多个关系数据集合生成所述多个子图;存储单元,用于将所述多个子图存储在缓存层。
可选地,所述提取模块,包括:并发单元,用于多个图特征计算服务端基于所述多个待计算的特征进行并发计算;基于所述并发计算提取预先存储的所述多个子图。
可选地,所述计算模块,还用于遍历每个子图中边序号和其对应的关系;在所述多个子图遍历之后,基于边序号对边的度数、类型、方向进行收集和整理,以生成所述多个特征。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的图数据库的特征生成方法、装置、电子设备及计算机可读介质,基于图特征生成命令获取特征列表;基于所述特征列表提取多个待计算的特征;在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;对所述多个子图之中的边的关系进行收集和整理以生成多个特征的方式,能够显著提升图特征的计算性能,同时,也大幅减少计算时图数据库的压力。并且在所需计算的图特征数量的增加,也不会显著增加计算耗时。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种图数据库的特征生成方法及装置的系统框图。
图2是根据一示例性实施例示出的一种图数据库的特征生成方法的流程图。
图3是根据一示例性实施例示出的一种图数据库的特征生成方法的示意图。
图4是根据另一示例性实施例示出的一种图数据库的特征生成方法的流程图。
图5是根据另一示例性实施例示出的一种图数据库的特征生成方法的流程图。
图6是根据另一示例性实施例示出的一种图数据库的特征生成装置的框图。
图7是根据另一示例性实施例示出的一种图数据库的特征生成装置的框图。
图8是根据一示例性实施例示出的一种电子设备的框图。
图9是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
图1是根据一示例性实施例示出的一种图数据库的特征生成方法及装置的系统框图。
如图1所示,系统架构10可以包括图特征计算服务端101、102、103,网络104和图数据库服务器105。网络104用以在图特征计算服务端101、102、103和图数据库服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用图特征计算服务端101、102、103通过网络104与图数据库服务器105交互,以接收或发送图数据库查询消息等。图特征计算服务端101、102、103上可以安装有各种查询客户端应用。
图特征计算服务端101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
图数据库服务器105可以是提供各种服务的服务器,例如对用户利用图特征计算服务端101、102、103提交的数据库顶点特征查询请求提供支持的后台管理服务器。后台管理服务器可以对接收到的顶点特征查询请求进行分析等处理,并将处理结果反馈给管理员和/或图特征计算服务端101、102、103。
图特征计算服务端101、102、103可例如基于图特征生成命令获取特征列表;图特征计算服务端101、102、103可例如基于所述特征列表提取多个待计算的特征;图特征计算服务端101、102、103可例如在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;图特征计算服务端101、102、103可例如对所述多个子图之中的边的关系进行收集和整理以生成多个特征。
图数据库服务器105可例如获取图数据库的图特征列表;图数据库服务器105可例如基于所述图特征列表通过聚合方式生成多个数据库查询命令;图数据库服务器105可例如基于所述数据库查询命令对所述图数据库进行查询以生成所述多个子图。
图数据库服务器105可以是一个实体的服务器,还可例如为多个服务器组成,图数据库服务器105也可为图数据库集群。需要说明的是,本公开实施例所提供的图数据库的特征生成方法可以由图数据库服务器105和/或图特征计算服务端101、102、103执行,相应地,图数据库的特征生成装置可以设置于图数据库服务器105和/或图特征计算服务端101、102、103中。
图2是根据一示例性实施例示出的一种图数据库的特征生成方法的流程图。图数据库的特征生成方法20至少包括步骤S202至S208。
如图2所示,在S202中,基于图特征生成命令获取特征列表。可根据实际待计算的应用场景确定特征列表,特征列表中包括多个节点和待计算的特征。
在本申请中,图数据库可为关系型数据库,图数据库中可存储有各种关系网络,比如社交网络的用户好友关系,用户的通话记录,用户的GPS数据,都可以抽象成一个个“图”,互联网产品的用户基数动辄千万或者亿的级别,每一个用户可以看做图中的一个节点,用户和用户之间的好友关系,通话关系,互动关系,共现关系等都可以抽象成节点和节点之前的边,而关系的强度可以抽象成边的权重。比如基于用户的通话记录抽象的关系图中,一个电话号码对应图的节点,两个号码之间有过通话记录,那么对应的节点之间就存在一条边,而通话的时长和通话的频次都可以抽象成边的权重。
在图数据库中,节点相关特征要结合具体场景来分析,关系图往往是从真实的场景中抽象出来的,比如电信通讯网络可以抽象成一个有向带权图,节点对应手机号码,而边对应手机号之前的通讯情况,边的权重,可以是通话时长,通话频率等。在电信通讯网络中,至少还可以抽象出以下特征:比如过去一个月的通话天数,持续通话时长,以及通话时间的分布。在金融反欺诈业务中,团伙作案很普遍,体现在关系图中往往欺诈用户在同一个联通分量或者群组中,可例如将节点所在群组中黑样本比例,节点一度邻居中黑样本的比例,节点二度邻居中黑样本的比例等都可以用来做为反欺诈模型的特征。
在S204中,基于所述特征列表提取多个待计算的特征。提出待计算的节点标识和待计算的特征,待计算的特征可为:该节点所有的二度邻居,该节点和其他节点之间的边的权重排序前10名等等。
在S206中,在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图。可例如,多个图特征计算服务端基于所述多个待计算的特征进行并发计算;基于所述并发计算提取预先存储的所述多个子图。并发计算(Concurrent computing,或译为并发处理、共时计算),是一种程序计算的形式,在系统中,至少有两个以上的计算在同时运作,计算结果可能同时发生。用来实现并发系统(Concurrent system)的编程语言与各种算法,统称为并发计算。
如图3所示,在图数据库中,存在一个虚拟的子图缓存层,图数据库集群中存储关系图中各个节点和节点之间的关系,通过预先计算得到的多个子图被存储在子图缓存层,在接收到图特征生成命令后,多个图特征计算服务端并发的由子图缓存层中读取预存的多个子图。
其中,所述多个子图的生成和存储过程将在图4对应的实施例中详细描述。
在S208中,对所述多个子图之中的边的关系进行收集和整理以生成多个特征。可例如,遍历每个子图中边序号和其对应的关系;在所述多个子图遍历之后,基于边序号对边的度数、类型、方向进行收集和整理,以生成所述多个特征。
根据本公开的图数据库的特征生成方法,基于图特征生成命令获取特征列表;基于所述特征列表提取多个待计算的特征;在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;对所述多个子图之中的边的关系进行收集和整理以生成多个特征的方式,能够显著提升图特征的计算性能,同时,也大幅减少计算时图数据库的压力。并且在所需计算的图特征数量的增加,也不会显著增加计算耗时。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图4是根据另一示例性实施例示出的一种图数据库的特征生成方法的流程图。图4所示的流程40是对“多个子图的生成和存储过程”的详细描述。
如图4所示,在S402中,获取图数据库的图特征列表。图特征计算服务端获取图数据库的图特征列表。
在S404中,基于所述图特征列表通过聚合方式生成多个数据库查询命令。包括:基于所述图特征列表确定遍历条件集合;基于所述遍历条件集合对待查询的边的属性进行聚合,生成多个聚合集合;基于所述聚合集合生成所述多个数据库查询命令。
其中,基于所述图特征列表确定遍历条件集合,包括:解析所述图特征列表中的每一个特征;基于解析后的特征确定遍历条件集合。
其中,基于所述遍历条件集合对待查询的边的属性进行聚合,生成多个聚合集合,包括:基于所述遍历条件集合对待查询的边的度数进行聚合计算;基于所述遍历条件集合对待查询的边的类型进行聚合计算;基于所述遍历条件集合对待查询的边的方向进行聚合计算;根据聚合结果生成所述多个聚合集合。
其中,基于所述聚合集合生成所述多个数据库查询命令,包括:提取每一个聚合集合;基于所述聚合集合中的遍历条件和边的属性生成数据库查询命令。
其中,聚合表示了组件对象和聚合对象之间的Part-of联系,这是一种较强形式的关联关系。聚合是从最低粒度的事实表中衍生出来的预先计算的汇总。这些汇总数据形成了一组独立的聚合事实表。可以把一个跨越任何维度的特定汇总结构建成一个聚合事实表。无论何时当需要在查询、分析中展示与原始数据不同级别的数据都会发生聚合。可具体的,可通过聚合函数执行计算。
在S406中,基于所述数据库查询命令对所述图数据库进行查询以生成所述多个子图。包括:基于所述数据库查询命令由所述图数据库中查询生成所述关系数据集合;基于所述多个关系数据集合生成所述多个子图;将所述多个子图存储在缓存层。
图5是根据另一示例性实施例示出的一种图数据库的特征生成方法的流程图。图5所示的流程50是本申请全过程的详细描述。
如图5所示,在S501中,获取需要计算的图特征列表。可例如为graph feature 1;graph feature 2;……graph feature N。
在S502中,将待计算的图特征列表提交至图特征计算服务端。
在S503中,图特征计算服务会解析每一个特征,从而知道每一个特征所需的遍历条件,然后根据所查询关系的度数以及边的类型、方向进行聚合,将聚合后的结果转成图数据库查询语言。
在S504中,使用图数据查询语言到图数据库中查询出相关数据。
在S505中,将查询出来的相关数据缓存至子图缓存层。
在S506中,图特征计算服务会并发计算每一个图特征,当遇到所需的数据时,可直接到子图缓存层中取即可。
在S507中,将并发计算的结果收集并整理。
在S508中,返回最终的计算结果列表。计算结果可按照图特征列表中的节点进行存储,生成多个子图,可例如为graph feature 1:value1;graph feature 2:value2;……graph feature N:valueN。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图6是根据一示例性实施例示出的一种图数据库的特征生成装置的框图。如图6所示,图数据库的特征生成装置60包括:列表模块602,特征模块604,提取模块606,计算模块608。
列表模块602用于基于图特征生成命令获取特征列表;
特征模块604用于基于所述特征列表提取多个待计算的特征;
提取模块606用于在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;所述提取模块606包括:并发单元,用于多个图特征计算服务端基于所述多个待计算的特征进行并发计算;基于所述并发计算提取预先存储的所述多个子图。
计算模块608用于对所述多个子图之中的边的关系进行收集和整理以生成多个特征。所述计算模块608还用于遍历每个子图中边序号和其对应的关系;在所述多个子图遍历之后,基于边序号对边的度数、类型、方向进行收集和整理,以生成所述多个特征。
图7是根据一示例性实施例示出的一种图数据库的特征生成装置的框图。如图7所示,图数据库的特征生成装置70包括:数据模块702,命令模块704,子图模块706。
数据模块702用于获取图数据库的图特征列表;所述数据模块702还用于图特征计算服务端获取图数据库的图特征列表。
命令模块704用于基于所述图特征列表通过聚合方式生成多个数据库查询命令;所述命令模块704包括:条件单元,用于基于所述图特征列表确定遍历条件集合;所述条件单元,还用于解析所述图特征列表中的每一个特征;基于解析后的特征确定遍历条件集合。所述聚合单元,还用于基于所述遍历条件集合对待查询的边的度数进行聚合计算;基于所述遍历条件集合对待查询的边的类型进行聚合计算;基于所述遍历条件集合对待查询的边的方向进行聚合计算;根据聚合结果生成所述多个聚合集合。聚合单元,用于基于所述遍历条件集合对待查询的边的属性进行聚合,生成多个聚合集合;命令单元,用于基于所述聚合集合生成所述多个数据库查询命令。所述命令单元,还用于提取每一个聚合集合;基于所述聚合集合中的遍历条件和边的属性生成数据库查询命令。
子图模块706用于基于所述数据库查询命令对所述图数据库进行查询以生成所述多个子图。所述子图模块706包括:集合单元,用于基于所述数据库查询命令由所述图数据库中查询生成所述关系数据集合;子图单元,用于基于所述多个关系数据集合生成所述多个子图;存储单元,用于将所述多个子图存储在缓存层。
根据本公开的图数据库的特征生成装置,基于图特征生成命令获取特征列表;基于所述特征列表提取多个待计算的特征;在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;对所述多个子图之中的边的关系进行收集和整理以生成多个特征的方式,能够显著提升图特征的计算性能,同时,也大幅减少计算时图数据库的压力。并且在所需计算的图特征数量的增加,也不会显著增加计算耗时。
图8是根据一示例性实施例示出的一种电子设备的框图。
下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:至少一个处理单元810、至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书中的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图2,图4,图5中所示的步骤。
所述存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
所述存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备800’(例如键盘、指向设备、蓝牙设备等)通信,使得用户能与该电子设备800交互的设备通信,和/或该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器860可以通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图9所示,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:基于图特征生成命令获取特征列表;基于所述特征列表提取多个待计算的特征;在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;对所述多个子图之中的边的关系进行收集和整理以生成多个特征。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (22)
1.一种图数据库的特征生成方法,其特征在于,包括:
基于图特征生成命令获取特征列表;
基于所述特征列表提取多个待计算的特征;
在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;
对所述多个子图之中的边的关系进行收集和整理以生成多个特征。
2.如权利要求1所述的方法,其特征在于,还包括:
获取图数据库的图特征列表;
基于所述图特征列表通过聚合方式生成多个数据库查询命令;
基于所述数据库查询命令对所述图数据库进行查询以生成所述多个子图。
3.如权利要求2所述的方法,其特征在于,获取图数据库的图特征列表,包括:
图特征计算服务端获取图数据库的图特征列表。
4.如权利要求2所述的方法,其特征在于,基于所述图特征列表通过聚合方式生成多个数据库查询命令,包括:
基于所述图特征列表确定遍历条件集合;
基于所述遍历条件集合对待查询的边的属性进行聚合,生成多个聚合集合;
基于所述聚合集合生成所述多个数据库查询命令。
5.如权利要求4所述的方法,其特征在于,基于所述图特征列表确定遍历条件集合,包括:
解析所述图特征列表中的每一个特征;
基于解析后的特征确定遍历条件集合。
6.如权利要求4所述的方法,其特征在于,基于所述遍历条件集合对待查询的边的属性进行聚合,生成多个聚合集合,包括:
基于所述遍历条件集合对待查询的边的度数进行聚合计算;
基于所述遍历条件集合对待查询的边的类型进行聚合计算;
基于所述遍历条件集合对待查询的边的方向进行聚合计算;
根据聚合结果生成所述多个聚合集合。
7.如权利要求4所述的方法,其特征在于,基于所述聚合集合生成所述多个数据库查询命令,包括:
提取每一个聚合集合;
基于所述聚合集合中的遍历条件和边的属性生成数据库查询命令。
8.如权利要求2所述的方法,其特征在于,基于所述数据库查询命令对所述图数据库进行查询以生成所述多个子图,包括:
基于所述数据库查询命令由所述图数据库中查询生成所述关系数据集合;
基于所述多个关系数据集合生成所述多个子图;
将所述多个子图存储在缓存层。
9.如权利要求1所述的方法,其特征在于,在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图,包括:
多个图特征计算服务端基于所述多个待计算的特征进行并发计算;
基于所述并发计算提取预先存储的所述多个子图。
10.如权利要求1所述的方法,其特征在于,对所述多个子图之中的边的关系进行收集和整理以生成多个特征,包括:
遍历每个子图中边序号和其对应的关系;
在所述多个子图遍历之后,基于边序号对边的度数、类型、方向进行收集和整理,以生成所述多个特征。
11.一种图数据库的特征生成装置,其特征在于,包括:
列表模块,用于基于图特征生成命令获取特征列表;
特征模块,用于基于所述特征列表提取多个待计算的特征;
提取模块,用于在图数据库的缓存层中基于所述多个待计算的特征提取预先存储的多个子图;
计算模块,用于对所述多个子图之中的边的关系进行收集和整理以生成多个特征。
12.如权利要求11所述的装置,其特征在于,还包括:
数据模块,用于获取图数据库的图特征列表;
命令模块,用于基于所述图特征列表通过聚合方式生成多个数据库查询命令;
子图模块,用于基于所述数据库查询命令对所述图数据库进行查询以生成所述多个子图。
13.如权利要求12所述的装置,其特征在于,所述数据模块,还用于
图特征计算服务端获取图数据库的图特征列表。
14.如权利要求12所述的装置,其特征在于,所述命令模块,包括:
条件单元,用于基于所述图特征列表确定遍历条件集合;
聚合单元,用于基于所述遍历条件集合对待查询的边的属性进行聚合,生成多个聚合集合;
命令单元,用于基于所述聚合集合生成所述多个数据库查询命令。
15.如权利要求14所述的装置,其特征在于,所述条件单元,还用于
解析所述图特征列表中的每一个特征;基于解析后的特征确定遍历条件集合。
16.如权利要求14所述的装置,其特征在于,所述聚合单元,还用于
基于所述遍历条件集合对待查询的边的度数进行聚合计算;基于所述遍历条件集合对待查询的边的类型进行聚合计算;基于所述遍历条件集合对待查询的边的方向进行聚合计算;根据聚合结果生成所述多个聚合集合。
17.如权利要求14所述的装置,其特征在于,所述命令单元,还用于
提取每一个聚合集合;基于所述聚合集合中的遍历条件和边的属性生成数据库查询命令。
18.如权利要求12所述的装置,其特征在于,所述子图模块,包括:
集合单元,用于基于所述数据库查询命令由所述图数据库中查询生成所述关系数据集合;
子图单元,用于基于所述多个关系数据集合生成所述多个子图;
存储单元,用于将所述多个子图存储在缓存层。
19.如权利要求11所述的装置,其特征在于,所述提取模块,包括:
并发单元,用于多个图特征计算服务端基于所述多个待计算的特征进行并发计算;基于所述并发计算提取预先存储的所述多个子图。
20.如权利要求11所述的装置,其特征在于,所述计算模块,还用于
遍历每个子图中边序号和其对应的关系;在所述多个子图遍历之后,基于边序号对边的度数、类型、方向进行收集和整理,以生成所述多个特征。
21.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
22.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457492.7A CN113297426A (zh) | 2021-04-27 | 2021-04-27 | 图数据库的特征生成方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457492.7A CN113297426A (zh) | 2021-04-27 | 2021-04-27 | 图数据库的特征生成方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113297426A true CN113297426A (zh) | 2021-08-24 |
Family
ID=77320206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110457492.7A Pending CN113297426A (zh) | 2021-04-27 | 2021-04-27 | 图数据库的特征生成方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297426A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308620A1 (en) * | 2016-04-21 | 2017-10-26 | Futurewei Technologies, Inc. | Making graph pattern queries bounded in big graphs |
US20180357278A1 (en) * | 2017-06-09 | 2018-12-13 | Linkedin Corporation | Processing aggregate queries in a graph database |
CN110168533A (zh) * | 2016-12-15 | 2019-08-23 | 微软技术许可有限责任公司 | 对子图的缓存以及将缓存的子图集成到图查询结果中 |
CN111046237A (zh) * | 2018-10-10 | 2020-04-21 | 北京京东金融科技控股有限公司 | 用户行为数据处理方法、装置、电子设备及可读介质 |
US10713252B1 (en) * | 2016-08-29 | 2020-07-14 | EMC IP Holding Company LLC | Methods, systems, and computer readable mediums for performing an aggregated free-form query |
CN111666346A (zh) * | 2019-03-06 | 2020-09-15 | 京东数字科技控股有限公司 | 信息归并方法、交易查询方法、装置、计算机及存储介质 |
CN112352234A (zh) * | 2018-06-15 | 2021-02-09 | 华为技术有限公司 | 用于处理并发属性图查询的系统 |
CN112699134A (zh) * | 2021-03-25 | 2021-04-23 | 北京智源人工智能研究院 | 基于图剖分的分布式图数据库的存储与查询方法 |
-
2021
- 2021-04-27 CN CN202110457492.7A patent/CN113297426A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308620A1 (en) * | 2016-04-21 | 2017-10-26 | Futurewei Technologies, Inc. | Making graph pattern queries bounded in big graphs |
US10713252B1 (en) * | 2016-08-29 | 2020-07-14 | EMC IP Holding Company LLC | Methods, systems, and computer readable mediums for performing an aggregated free-form query |
CN110168533A (zh) * | 2016-12-15 | 2019-08-23 | 微软技术许可有限责任公司 | 对子图的缓存以及将缓存的子图集成到图查询结果中 |
US20180357278A1 (en) * | 2017-06-09 | 2018-12-13 | Linkedin Corporation | Processing aggregate queries in a graph database |
CN112352234A (zh) * | 2018-06-15 | 2021-02-09 | 华为技术有限公司 | 用于处理并发属性图查询的系统 |
CN111046237A (zh) * | 2018-10-10 | 2020-04-21 | 北京京东金融科技控股有限公司 | 用户行为数据处理方法、装置、电子设备及可读介质 |
CN111666346A (zh) * | 2019-03-06 | 2020-09-15 | 京东数字科技控股有限公司 | 信息归并方法、交易查询方法、装置、计算机及存储介质 |
CN112699134A (zh) * | 2021-03-25 | 2021-04-23 | 北京智源人工智能研究院 | 基于图剖分的分布式图数据库的存储与查询方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034988B (zh) | 一种会计分录生成方法和装置 | |
CN111427971B (zh) | 用于计算机系统的业务建模方法、装置、系统和介质 | |
CN111046237B (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
CN109933514B (zh) | 一种数据测试方法和装置 | |
CA2927580C (en) | Method and system for document data extraction template management | |
CN113298354B (zh) | 业务衍生指标的自动生成方法、装置及电子设备 | |
CN111125266A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112017062B (zh) | 基于客群细分的资源额度分配方法、装置及电子设备 | |
CN111414410A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN112347147A (zh) | 基于用户关联关系的信息推送方法、装置及电子设备 | |
CN116594683A (zh) | 一种代码注释信息生成方法、装置、设备及存储介质 | |
CN116244387A (zh) | 实体关系构建方法、装置、电子设备及存储介质 | |
WO2022111148A1 (en) | Metadata indexing for information management | |
CN110737673B (zh) | 一种数据处理的方法及系统 | |
CN109684198B (zh) | 待测试数据获取方法、装置、介质、电子设备 | |
EP4216076B1 (en) | Method and apparatus of processing an observation information, electronic device and storage medium | |
CN112035366A (zh) | 一种测试案例生成方法、装置及设备 | |
CN114528448B (zh) | 一种全球外贸客户客户画像精准分析系统 | |
CN113297426A (zh) | 图数据库的特征生成方法、装置及电子设备 | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 | |
CN115733787A (zh) | 一种网络识别方法、装置、服务器及存储介质 | |
CN114169004B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
US11841857B2 (en) | Query efficiency using merged columns | |
CN112685388B (zh) | 数据模型表构建方法、装置、电子设备和计算机可读介质 | |
CN117390023A (zh) | 数据合计方法、数据合计装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room 1109, No. 4, Lane 800, Tongpu Road, Putuo District, Shanghai, 200062 Applicant after: Shanghai Qiyue Information Technology Co.,Ltd. Address before: Room a2-8914, 58 Fumin Branch Road, Hengsha Township, Chongming District, Shanghai, 201500 Applicant before: Shanghai Qiyue Information Technology Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information |