CN111259090B - 关系数据的图生成方法、装置、电子设备和存储介质 - Google Patents
关系数据的图生成方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111259090B CN111259090B CN202010078981.7A CN202010078981A CN111259090B CN 111259090 B CN111259090 B CN 111259090B CN 202010078981 A CN202010078981 A CN 202010078981A CN 111259090 B CN111259090 B CN 111259090B
- Authority
- CN
- China
- Prior art keywords
- entity
- relationship
- aggregation
- graph
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000002776 aggregation Effects 0.000 claims abstract description 167
- 238000004220 aggregation Methods 0.000 claims abstract description 167
- 230000015654 memory Effects 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 17
- 230000004931 aggregating effect Effects 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 12
- 238000006116 polymerization reaction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004992 fission Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了关系数据的图生成方法、装置、电子设备和存储介质,涉及大数据领域。具体实现方案为:获取关系数据,并根据关系数据建立关系图,其中,关系图包括多个实体点和实体点之间的关系边;对关系图进行点聚合和/或边聚合以更新关系图。该方法通过对关系图进行点聚合和/或边聚合,缩小了关系图的规模,减少了关系图存储所用空间、减少了计算开销。
Description
技术领域
本申请涉及计算机技术领域,具体涉及大数据技术领域,尤其涉及一种关系数据的图生成方法、装置、电子设备和存储介质。
背景技术
面对大量的数据(PB级)建立关系网络才能发挥数据更大的价值。目前,主要是基于分布式图存储关系网络,将相关联的实体间均建立索引连接。但是,随着数据的增加,关系图的规模也会随之变大、所需的存储空间也较大。
发明内容
本申请提出一种关系数据的图生成方法、装置、电子设备和存储介质,用于解决相关技术中,基于分布式图存储关系网络的方式,存在关系图规模较大、所需存储空间也较大的问题。
本申请一方面实施例提出了一种关系数据的图生成方法,包括:
获取关系数据,并根据所述关系数据建立关系图,其中,所述关系图包括多个实体点和实体点之间的关系边;以及
对所述关系图进行点聚合和/或边聚合以更新所述关系图。
本申请实施例的关系数据的图生成方法,通过首先获取关系数据,并根据关系数据建立关系图,其中,关系图包括多个实体点和实体点之间的关系边,然后对关系图进行点聚合和/或边聚合以更新关系图。由此,通过对关系图进行点聚合和/或边聚合,缩小了关系图的规模,减少了关系图存储所用空间、减少了计算开销。
本申请另一方面实施例提出了一种关系数据的图生成装置,包括:
第一获取模块,用于获取关系数据,并根据所述关系数据建立关系图,其中,所述关系图包括多个实体点和实体点之间的关系边;以及
聚合模块,用于对所述关系图进行点聚合和/或边聚合以更新所述关系图。
本申请实施例的关系数据的图生成装置,通过获取关系数据,并根据关系数据建立关系图,其中,关系图包括多个实体点和实体点之间的关系边,对关系图进行点聚合和/或边聚合以更新关系图。由此,通过对关系图进行点聚合和/或边聚合,缩小了关系图的规模,减少了关系图存储所用空间、减少了计算开销。
本申请另一方面实施例提出了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的关系数据的图生成方法。
本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的关系数据的图生成方法。
上述申请中的实施例具有如下有益效果:上述通过对关系图进行点聚合和/或边聚合以更新关系图。因为采用对关系图进行点聚合和/或边聚合的技术手段,所以克服了相关技术中,基于分布式图存储关系网络的方式,存在关系图规模较大、所需存储空间也较大的问题,进而达到缩小了关系图的规模,减少了关系图存储所用空间、减少了计算开销的技术效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的一种关系数据的图生成方法的流程示意图;
图2为本申请实施例提供的另一种关系数据的图生成方法的流程示意图;
图3为本申请实施例提供的另一种关系数据的图生成方法的流程示意图;
图4为本申请实施例提供的一种边聚合的示意图;
图5为本申请实施例提供的另一种关系数据的图生成方法的流程示意图;
图6为本申请实施例提供的一种点聚合的示意图;
图7为本申请实施例提供的另一种关系数据的图生成方法的流程示意图;
图8为本申请实施例提供的一种点分裂的示意图;
图9为本申请实施例提供的另一种关系数据的图生成方法的流程示意图;
图10为本申请实施例提供的一种建立关系图的示意图;
图11为本申请实施例提供的一种关系数据的图生成装置的结构示意图;
图12为根据本申请实施例的关系数据的图生成方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的关系数据的图生成方法、装置、电子设备和存储介质。
本申请实施例,针对相关技术中,基于分布式图存储关系网络的方式,存在关系图规模较大、所需存储空间也较大的问题,提出一种关系数据的图生成方法。
本申请实施例的关系数据的图生成方法,通过对关系图进行点聚合和/或边聚合,缩小了关系图的规模,减少了关系图存储所用空间、减少了计算开销。
图1为本申请实施例提供的一种关系数据的图生成方法的流程示意图。
本申请实施例的关系数据的图生成方法,可由本申请实施例提供的关系数据的图生成装置执行,该装置可配置于电子设备中,以通过对关系图进行点聚合和/或边聚合,实现缩小关系图的规模,减少了关系图存储所用空间、减少了计算开销。
如图1所示,该关系数据的图生成方法包括:
步骤101,获取关系数据,并根据关系数据建立关系图,其中,关系图包括多个实体点和实体点之间的关系边。
本实施例中,关系数据可以是结构化的表单类数据,比如k-v数据结构、关系型数据结构等类型的数据。在获取关系数据后,从数据结构中抽取实体以及实体之间的关系,从而建立关系图。
具体地,将实体定义为关系图中的“点”,实体点与实体点之间用线连接,该连线用于表示实体点与实体点之间的关系,称为关系边,即将关系定义为关系图中的“边”。可见,关系图由多个实体点以及实体点之间的关系边组成。
步骤102,对关系图进行点聚合和/或边聚合以更新关系图。
在实际应用中,随着用户数据的不断积累,关系图的规模会急剧膨胀,会带来一系列的问题,比如,会占用较大的存储空间、容易出现部分实体关联大量的其他实体,一旦命中会导致计算阻塞、亿级别数据间的连表操作,会造成巨大的开销,性能很慢等。
基于此,本实施例中,在获取关系图中,对关系图中进行点聚合,或者边聚合,或者点聚合和边聚合,以更新关系图,缩小关系图的规模。
其中,点聚合是指将关系图中的多个实体点进行合并,比如可以将实体点属性类似的点进行合并。在进行点聚合后,根据点聚合前的关系边,重新确定聚合后得到的实体点与其他实体点的关系边,由此更新关系图。当实体点合并时,关系边的数量也会发生变化,从而减少关系图中实体点和关系边的数量,使得关系图的规模变小。
边聚合是指将实体点与实体点之间的多条关系边合并,比如,将实体点之间的属于同一时间段的关系边合并为一条,以减小关系图中关系边的数量,也会使得关系图的规模变小。
需要说明的是,在进行聚合时,可以进行点聚合或者边聚合,也可以点聚合和边聚合都进行。
本申请实施例的关系数据的图生成方法,通过获取关系数据,并根据关系数据建立关系图,其中,关系图包括多个实体点和实体点之间的关系边,对关系图进行点聚合和/或边聚合以更新关系图。由此,通过对关系图进行点聚合和/或边聚合,缩小了关系图的规模,减少了关系图存储所用空间、减少了计算开销。
在进行边聚合时,可以根据关系边的属性和属性类型进行聚合。下面结合图2进行说明,图2为本申请实施例提供的另一种关系数据的图生成方法的流程示意图。
如图2所示,上述对关系图进行边聚合,包括:
步骤201,获取两个相邻实体点之间的多条关系边。
在实际应用中,两个实体点之间可能存在多个关系边。比如,“人-地”定位关系,人在某地有过多次定位,因此存在多个定位关系。
本实施例中,获取两个相邻实体之间的多条关系边,这里的相邻是指关系图中直接相连的两个实体点。
步骤202,获取多条关系边的属性值和属性类型,并根据属性类型获取聚合条件。
在获取多个关系边后,获取多条关系边的属性值和属性类型。比如,实体点P1和实体点S1之间有三条关系边t1,t2,t3,关系边的时间数据分别为t1.time,t2.time,t3.time。可见,关系边t1,t2,t3的属性值分别为t1.time,t2.time,t3.time,属性类型为时间。
在获取属性类型后,根据属性类型确定聚合条件,其中,聚合条件与属性类型相关。比如,属性类型为时间,聚合条件可以是以天为单位。
步骤203,根据多条关系边的属性值和聚合条件对多条关系边进行聚合。
在确定聚合条件后,可将属性值满足聚合条件的关系边进行聚合,边聚合后得到一条或多条关系边,其中,聚合后的关系边的数量小于聚合前两实体点之间的关系边的数量。
在实际应用中,关系边的属性值可能是量化的数值,在本申请的一个实施例中,聚合条件包括聚合区间,聚合区间为数值区间,在根据多条关系边的属性值和聚合条件,对多条关系边进行聚合时,可采用图3所示的方法,图3为本申请实施例提供的另一种关系数据的图生成方法的流程示意图。
如图3所示,上述根据多条关系边的属性值和聚合条件对多条关系边进行聚合,包括:
步骤301,获取多条关系边之中的任意两条关系边。
本实施例中,以两条关系边为单位进行聚合,具体地,可从多条关系边中随机选择任意两条关系边。
步骤302,判断任意两条关系边的属性值是否同属于聚合区间。
在获取任意两条关系边后,判断这两条关系边的属性值是否同属于聚合区间。其中,聚合区间为数值区间。比如,属性类型为时间,聚合区间为10点到22点。
步骤303,如果任意两条关系边的属性值同属于聚合区间,则将任意两条关系边进行聚合。
本实施例中,如果任意两条关系边的属性值同属于聚合区间,那么可以将任意两条关系边聚合为一条关系边。如果任意两条关系边的属性值不同属于聚合区间,那么不进行聚合。
在将任意条件关系进行聚合判断之后,可再从剩余的关系中选择两条关系进行判断,如果同属于聚合区间,可将两条关系边进行聚合。
可以理解的是,也可以将获取的多条关系边的属性值与聚合区间进行比较,确定属性值在聚合区间内的关系边,将这些关系边聚合为一条关系边。
下面结合图4进行说明,图4为本申请实施例提供的一种边聚合的示意图。如图4所示:聚合前实体点P1和实体点s1之间有三条边t1,t2,t3,边的时间数据分别为t1,t2,t3。确定聚合条件为时间,聚合区间为H,并且Hi<t1,t2,t3<Hi+1,即三条关系。聚合后P1和点s1之间只有一条边T1,其属性包含了T1:t1,t2,t3。
利用上述方法,将实体点P1与s2之间的两条关系边聚合为一条T2,T2的属性包含了T2:t4,t5;将实体点P2与s3之间的两条关系边聚合为一条关系边T3,其属性包含了T3:t6;将实体点P2与s5之间的两条关系边聚合为一条关系边。
以基站采集数据为例边聚合的过程是:如果一个人在同一个地点有多条采集数据,也就是人与采集设备之间有多条边,那么将相近时间段的边聚合为一条边,可以很大程度的缩减关系图的规模。比如,以天为时间跨度的话,也就是一天之内,一个人被同一个设备采集,他们之间只建一条关系边。
本申请实施例中,在根据关系边的属性值和聚合区间进行聚合时,可通过判断两条关系边的属性值是否同属于聚合区间,同属于聚合区间时,将两条关系进行聚合,实现了缩小关系图的规模。
图5为本申请实施例提供的另一种关系数据的图生成方法的流程示意图。
如图5所示,上述对关系图进行点聚合,包括:
步骤401,获取各个实体点的属性。
实体有很多特性,每一个特性称为属性。比如,学生(实体)有学号、姓名、年龄、性别等属性。比如,某个地点有坐标属性。本实施例中,可以根据关系数据获取关系图中每个实体点的属性。
步骤402,根据各个实体点的属性进行聚合。
本实施例中,可以将属性相似的实体点进行聚合,得到一个实体点,具体地,对于属性相似的实体点,可以对相似属性进行归一化操作,将归一化后属性相同的实体点,进行合并。在根据各实体点的属性对实体点进行聚合后,可根据聚合前各实体点与其他实体点之间的关系,确定聚合后得到的实体点与其他实体点之间的关系边。
本申请实施例中,根据各实体点的属性进行点聚合,由此,可以减少关系图中实体点和关系边的数量,从而缩小关系图的规模。
上述根据各个实体点的属性进行聚合时,作为一种可能的实现方式,根据实体点是否属于同一个聚合区域进行点聚合,其中,聚合区域表示地理范围,这里的实体点的属性指实体点的位置。
具体地,根据各个实体点的属性,判断各个实体点是否属于同一聚合区域。如果属于同一聚合区域,则将同属于一个聚合区域的实体进行聚合,聚合为一个实体点。
比如,“人-地”定位关系,可以将地点相近的坐标点归一化为网格,“人-地”关系变为“人-网格”关系,如一个人在某个范围内(如20米)的多条定位关系边,都指向这个网格(20*20),多条关系边变为一条。这里,20*20的地理范围为聚合区域。
下面结合图6进行说明,图6为本申请实施例提供的一种点聚合的示意图。图6中,点聚合前P1和s1间存在一条边T1,P1和s2间存在一条边T2。设置聚合属性为距离,聚合区域为D,由于实体点s1与s2之间的距离distance(s1,s2)<D,那么实体点s1与s2进行聚合,将实体点s1和s2合并为实体点S1,两条关系边合并为ST1,其属性包含了ST1(s1:t1,t2,t3)(s2:t4,t5)。同理,将实体点s3、s4、s5进行聚合得到实体点S2。
其中,聚合前实体点s3连接实体点P1,聚合后变为S2连接P1,关系边也变成了ST2(s3:t6),括号里面s3和t6分别表示原来的起点和关系边。同样地,聚合前实体点s3、s4、s5连接实体点P2,聚合后变为S3连接P2,关系边变为ST3(s3:t1,t2)(s4:t5)(s5:t5)。
以基站采集数据为例点聚合的过程是:由于采集数据一般存成大量长尾,郊区地段数据比较稀少。因此,可以进一步将设备点按坐标网格点进行聚合。比如将10*10的网格聚合为20*20,也就是一个人在400平方米范围内的被多个设备采集到,人与大网格之间只建一条边,效果可以在边聚合的基础上进一步缩减1/2。
在实际应用中,可能存在相似或者相同的实体点,基于此,作为另一种可能的实现方式,可根据实体点之间的相似度,对实体点进行聚合。
具体地,获取各个实体点之中任意两个实体点的属性,根据任意两个实体点的属性判断任意两个实体点之间的相似度。在计算相似度时,可以将实体点的属性映射为向量,根据向量计算相似度。如果任意两实体点的相似度大于预设阈值,则将任意两个实体点合并。当然,也可以计算两个以上实体点之间的相似度,确定相似度大于预设阈值的多个实体点,即确定相似的多个实体点,将这些实体点进行合并。
比如,实体点“上海”,与实体点“沪”,其实指的是同一地方,只是表述不同,则将这两个实体点进行合并。
或者,也可以根据预先建立的实体点相似或相同列表,确定两个或多个实体点是否为相似或相同实体点,如果属于,则将相似或相同的实体点进行合并。
在实际应用中,随着用户数据的不断积累,关系图的规模会急剧膨胀,容易出现部分实体点关联大量的其他实体点,即出现大节点,如果关系图中存在大节点,一旦命中会导致计算阻塞。基于此,在本申请的一个实施例中,可以对大节点进行点裂变,以降低大节点的数量。下面结合图7进行说明,图7为本申请实施例提供的另一种关系数据的图生成方法的流程示意图。
如图7所示,该关系数据的图生成方法还可包括:
步骤501,获取第一实体点与其他多个实体点之间的多个关系边。
本实施例中,根据建立的关系图,获取第一实体点与其他多个实体点之间的多个关系边。也就是说,获取第一实体点的所有关系边。
其中,第一实体点是指与大量实体点关联的实体点,即大节点,也即待分裂的点。具体地,可以将其关联的实体点数量超过预设数量的实体点作为第一实体点。比如,实体点A关联的实体点数量超过预设阈值50,则实体点A为待分裂的点。
步骤502,根据多条关系边的属性值,将第一实体点分裂为多个第二实体点。
本实施例中,可根据多条关系边的属性值,确定属性值的类别,根据属性值的类别,将第一实体点分裂为对应的多个第二实体点。其中,裂变后的第二实体点的数量可与属性值的类别数量相同。
比如,获取第一实体点B与其他实体点的8条关系边,其中,有2条关系边的属性值为a,3条关系边的属性值为b,3条关系边的属性值为c,则第一实体点B可以分裂为3个第二实体点。
步骤503,根据第二实体点和多个关系边的属性值,更新关系图。
在获取第二实体点后,根据第二实体点和多个关系边的属性值,确定其他实体点与第二实体点的关系边,从而更新关系图。
下面结合图8进行说明,图8为本申请实施例提供的一种点分裂的示意图。图8中,获取实体点S2与其他实体点P1、P2、P3、P4、P5、P6、P7之间的关系边,从图8中可以看出关系边的属性值有ST1、ST2、ST3三种,那么可以将ST1对应分裂为三个实体点T1S2、T2S2、T3S2。
之后,根据分裂后的实体点T1S2、T2S2、T13S2以及关系边的属性,确定其他多个实体点与分类后的实体点之间的关系边。图8中,点分裂前S2与实体点P1之间有两条关系边ST1、ST2,那么将实体点P1与分裂后的实体点T1S2相连,关系边为ST1,将实体点P1与分裂后的实体点T2S2相连,关系边为ST2,也即原来的连接关系S2<-[ST1]->P1更新为T1S2<-[ST1]->P1,S2<-[ST2]->P1更新为T2S2<-[ST2]->P1;点分类前S2与实体点P7之间有1条关系边ST3,那么将实体点P7与分裂后的实体点T3S2相连,关系边为ST3,即原来的连接关系S2<-[ST3]->P7更新为T3S2<-[ST1]->P7。
以基站采集数据为例点分裂的过程是:随着时间积累,热门地点形成新的超级节点,将密度高的点按时间分裂(比如以天)。那么,在整体边数量不变,点数量少量增加的情况下,基本消除大节点。
本申请实施例的关系数据的图生成方法,还可通过获取第一实体点与其他多个实体点之间的多个关系边,根据多条关系边的属性,将第一实体点分裂为多个第二实体点,根据第二实体点和多个关系边的属性值,更新关系图。由此,通过点分裂,消除关系图中的大节点,降低关系图出现计算阻塞的可能性。
在实际应用中,关系数据可能来源不同,那么就会存在结构不一致的情况,而且地域不同关系数据结构也可能不同。基于此,在本申请的一个实施例中,可采用图9的方式建立关系图。图9为本申请实施例提供的另一种关系数据的图生成方法的流程示意图。
如图9所示,上述根据关系数据建立关系图,包括:
步骤601,通过字段标注的配置方式,进行边序列的归一化。
本实施例中,对于表单类、日志类多源数据,可通过字段标注的配置方式,进行边序列的归一化,以解决多元数据结构不一致的问题。
这里的标注主要是标定表格和图的对应关系,标定原来某张表、某个字段,对应图里面的什么类型(是哪类点的属性字段,或是关系边的属性字段),即建议表格中各字段到关系图中点和边的对应关系,然后以此来进行归一化。
步骤602,根据归一化的边序列,进行实体点及其属性、关系边及其属性的提取。
本实施例中,基于归一化的边序列,实体点及其属性、关系边及其属性的提取。也就是说,从边序列中抽取出实体点和实体点的属性,实体点与实体点之间的关系边,以及关系边的属性。
步骤603,根据实体点及其属性、关系边及其属性,构建关系图。
在获取实体点及其属性、关系边及其属性,可以根据抽取的实体点,以及实体点与实体点的之间的关系边,建立关系图。
下面结合图10进行说明,图10为本申请实施例提供的一种建立关系图的示意图。图10中,通过配置化的ETL工具(ETL是Extract-Transform-Load的缩写),将表格结构的数据归一化为边序列,其中,归一化后的srcId表示起点(实体点)的唯一标识;srcP表示起点的属性P即property;dstId表示终点(实体点)的唯一标识;dstP表示终点的属性;Rel表示连接边的类别即关系边的类别;RelP:关系边上面挂接的属性。然后,对边序列进行抽取,得到实体:E-label、Id、Prop,以及关系边:Sid、Did、R-label、Prop。
其中,E-label表示实体的分类表示,Id是这个实体的唯一标识,Prop表示实体点或边上附带的属性。例如,定义师生关系,属于老师的E-Label=teacher,Id可以为具体某位老师的身份证;属于学生的E-Label=student,Id可以为学生的身份证;具体的E-Label=teacher这类实体有自己的一系列属性Prop,如教授科目,工龄;E-Label=student这类实体的属性Prop,如年级,班级等。另外,Sid表示起点的标识,Did表示终点的标识,R-label关系的类别,如师生关系、夫妻关系、同学关系等。
然后,将抽取得到的实体点及其属性,以及关系边及其属性输出存储到图数据库(Graph-DB)中,得到关系图。
本申请实施例中,针对关系数据多源异构,各地域数据规模不一的情况等,提供了一体化的关系图构建方法,通过平台化构建的模式,降低实施成本。
为了实现上述实施例,本申请实施例还提出一种装置。图11为本申请实施例提供的一种关系数据的图生成装置的结构示意图。
如图11所示,该关系数据的图生成装置700包括:第一获取模块710、聚合模块720。
第一获取模块710,用于获取关系数据,并根据关系数据建立关系图,其中,关系图包括多个实体点和实体点之间的关系边;以及
聚合模块720,用于对关系图进行点聚合和/或边聚合以更新关系图。
在本申请实施例一种可能的实现方式中,上述聚合模块720,可包括:
第一获取单元,用于获取两个相邻实体点之间的多条关系边;
第二获取单元,用于获取多条关系边的属性值和属性类型,并根据属性类型获取聚合条件;
第一聚合单元,用于根据多条关系边的属性值和聚合条件对多条关系边进行聚合。
在本申请实施例一种可能的实现方式中,聚合条件包括聚合区间,聚合区间为数值区间,上述第一聚合单元,具体用于:
获取多条关系边之中的任意两条关系边;
判断任意两条关系边的属性值是否同属于聚合区间;以及
如果同属于聚合区间,则将任意两条关系边进行聚合。
在本申请实施例一种可能的实现方式中,上述聚合模块720,可包括:
第三获取单元,用于获取各个实体点的属性;以及
第二聚合单元,用于根据各个实体点的属性进行聚合。
在本申请实施例一种可能的实现方式中,第二聚合单元,具体用于:
根据各个实体点的属性,判断各个实体点是否属于同一个聚合区域,聚合区域表示地理范围;
如果属于同一个聚合区域,则将同属于一个聚合区域的实体点进行聚合。
在本申请实施例一种可能的实现方式中,该装置还可包括:
第二获取模块,用于获取各个实体点之中任意两个实体点的属性;
判断模块,用于根据任意两个实体点的属性判断任意两个实体点之间的相似度;
合并模块,用于当相似度大于预设阈值时,将任意两个实体点合并。
在本申请实施例一种可能的实现方式中,该装置还可包括:
第三获取模块,用于获取第一实体点与其他多个实体点之间的多个关系边;
确定模块,用于根据多条关系边的属性值,将第一实体点分裂为多个第二实体点;
更新模块,用于根据第二实体点和多个关系边的属性值,更新关系图。
在本申请实施例一种可能的实现方式中,上述第一获取模块710,具体用于:
通过字段标注的配置方式,进行边序列的归一化;
根据归一化的边序列,进行实体点及其属性、关系边及其属性的提取;
根据实体点及其属性、关系边及其属性,构建关系图。
需要说明的是,前述关系数据的图生成方法实施例的解释说明,也适用于该实施例的关系数据的图生成装置,故在此不再赘述。
本申请实施例的关系数据的图生成装置,通过获取关系数据,并根据关系数据建立关系图,其中,关系图包括多个实体点和实体点之间的关系边,对关系图进行点聚合和/或边聚合以更新关系图。由此,通过对关系图进行点聚合和/或边聚合,缩小了关系图的规模,减少了关系图存储所用空间、减少了计算开销。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图12所示,是根据本申请实施例的关系数据的图生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图12所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的关系数据的图生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的关系数据的图生成方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的关系数据的图生成方法对应的程序指令/模块(例如,附图11所示的第一获取模块710、聚合模块720)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的关系数据的图生成方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据关系数据的图生成电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至关系数据的图生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
关系数据的图生成方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与关系数据的图生成方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过获取关系数据,并根据关系数据建立关系图,其中,关系图包括多个实体点和实体点之间的关系边,对关系图进行点聚合和/或边聚合以更新关系图。由此,通过对关系图进行点聚合和/或边聚合,缩小了关系图的规模,减少了关系图存储所用空间、减少了计算开销。
在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (14)
1.一种关系数据的图生成方法,其特征在于,包括:
获取关系数据,并根据所述关系数据建立关系图,其中,所述关系图包括多个实体点和实体点之间的关系边;以及
对所述关系图进行点聚合和/或边聚合以更新所述关系图;
其中,所述方法还包括:
根据所述关系图,获取第一实体点与其他多个实体点之间的多个关系边,所述第一实体点是指与大量实体点关联的实体点;
根据所述多条关系边的属性值确定所述属性值的类别,根据所述属性值的类别,将所述第一实体点分裂为多个第二实体点,其中,所述第二实体点的数量与所述属性值的类别数量相同;
根据所述第二实体点和所述多个关系边的属性值,确定其他实体点与所述第二实体点的关系边,更新所述关系图;
所述根据所述关系数据建立关系图,包括:
通过字段标注的配置方式,进行边序列的归一化;
从归一化后的边序列中,进行实体点及其属性、关系边及其属性的提取;
根据实体点及其属性、关系边及其属性,构建所述关系图。
2.如权利要求1所述的关系数据的图生成方法,其特征在于,所述对所述关系图进行边聚合,包括:
获取两个相邻实体点之间的多条关系边;
获取所述多条关系边的属性值和属性类型,并根据所述属性类型获取聚合条件;以及
根据所述多条关系边的属性值和所述聚合条件对所述多条关系边进行聚合。
3.如权利要求2所述的关系数据的图生成方法,其特征在于,所述聚合条件包括聚合区间,所述聚合区间为数值区间,所述根据所述多条关系边的属性值和所述聚合条件对所述多条关系边进行聚合,包括:
获取所述多条关系边之中的任意两条关系边;
判断所述任意两条关系边的属性值是否同属于所述聚合区间;以及
如果同属于所述聚合区间,则将所述任意两条关系边进行聚合。
4.如权利要求1所述的关系数据的图生成方法,其特征在于,所述对所述关系图进行点聚合,包括:
获取各个实体点的属性;以及
根据所述各个实体点的属性进行聚合。
5.如权利要求4所述的关系数据的图生成方法,其特征在于,所述根据所述各个实体点的属性进行聚合,包括:
根据所述各个实体点的属性,判断所述各个实体点是否属于同一个聚合区域,所述聚合区域表示地理范围;
如果属于同一个聚合区域,则将同属于一个聚合区域的实体点进行聚合。
6.如权利要求4所述的关系数据的图生成方法,其特征在于,还包括:
获取所述各个实体点之中任意两个实体点的属性;
根据所述任意两个实体点的属性判断所述任意两个实体点之间的相似度;
如果所述相似度大于预设阈值,则将所述任意两个实体点合并。
7.一种关系数据的图生成装置,其特征在于,包括:
第一获取模块,用于获取关系数据,并根据所述关系数据建立关系图,其中,所述关系图包括多个实体点和实体点之间的关系边;以及
聚合模块,用于对所述关系图进行点聚合和/或边聚合以更新所述关系图;
第三获取模块,用于根据所述关系图,获取第一实体与其他多个实体点之间的多个关系边,所述第一实体点是指与大量实体点关联的实体点;
确定模块,用于根据所述多条关系边的属性值确定所述属性值的类别,根据所述属性值的类别,将所述第一实体分别为多个第二实体点,其中,所述第二实体点的数量与所述属性值的类别数量相同;
更新模块,用于根据所述第二实体点和所述多个关系边的属性值,确定其他实体点与所述第二实体点的边关系,更新所述关系图;
其中,所述第一获取模块,具体用于:通过字段标注的配置方式,进行边序列的归一化;从归一化后的边序列中,进行实体点及其属性、关系边及其属性的提取;根据实体点及其属性、关系边及其属性,构建所述关系图。
8.如权利要求7所述的关系数据的图生成装置,其特征在于,所述聚合模块,包括:
第一获取单元,用于获取两个相邻实体点之间的多条关系边;
第二获取单元,用于获取所述多条关系边的属性值和属性类型,并根据所述属性类型获取聚合条件;以及
第一聚合单元,用于根据所述多条关系边的属性值和所述聚合条件对所述多条关系边进行聚合。
9.如权利要求8所述的关系数据的图生成装置,其特征在于,所述聚合条件包括聚合区间,所述聚合区间为数值区间,所述第一聚合单元,具体用于:
获取所述多条关系边之中的任意两条关系边;
判断所述任意两条关系边的属性值是否同属于所述聚合区间;以及
如果同属于所述聚合区间,则将所述任意两条关系边进行聚合。
10.如权利要求7所述的关系数据的图生成装置,其特征在于,所述聚合模块,包括:
第三获取单元,用于获取各个实体点的属性;以及
第二聚合单元,用于根据所述各个实体点的属性进行聚合。
11.如权利要求10所述的关系数据的图生成装置,其特征在于,所述第二聚合单元,具体用于:
根据所述各个实体点的属性,判断所述各个实体点是否属于同一个聚合区域,所述聚合区域表示地理范围;
如果属于同一个聚合区域,则将同属于一个聚合区域的实体点进行聚合。
12.如权利要求10所述的关系数据的图生成装置,其特征在于,还包括:
第二获取模块,用于获取所述各个实体点之中任意两个实体点的属性;
判断模块,用于根据所述任意两个实体点的属性判断所述任意两个实体点之间的相似度;
合并模块,用于当所述相似度大于预设阈值时,将所述任意两个实体点合并。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的关系数据的图生成方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的关系数据的图生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010078981.7A CN111259090B (zh) | 2020-02-03 | 2020-02-03 | 关系数据的图生成方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010078981.7A CN111259090B (zh) | 2020-02-03 | 2020-02-03 | 关系数据的图生成方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259090A CN111259090A (zh) | 2020-06-09 |
CN111259090B true CN111259090B (zh) | 2023-10-24 |
Family
ID=70947125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010078981.7A Active CN111259090B (zh) | 2020-02-03 | 2020-02-03 | 关系数据的图生成方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259090B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782822A (zh) * | 2020-07-21 | 2020-10-16 | 致诚阿福技术发展(北京)有限公司 | 一种关系图谱生成方法及装置 |
CN112071435B (zh) * | 2020-09-09 | 2023-07-18 | 北京百度网讯科技有限公司 | 无向关系至有向关系转换方法、装置、设备以及存储介质 |
CN115061982B (zh) * | 2022-08-15 | 2022-10-25 | 四川科瑞软件有限责任公司 | 基于案件自定义的关系图构建方法、系统、终端及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012166867A1 (en) * | 2011-06-02 | 2012-12-06 | Microsoft Corporation | Map-based methods of visualizing relational databases |
CN110515968A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110543586A (zh) * | 2019-09-04 | 2019-12-06 | 北京百度网讯科技有限公司 | 多重用户身份融合方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107111617B (zh) * | 2014-12-19 | 2021-06-08 | 微软技术许可有限责任公司 | 数据库中的图处理 |
US11341513B2 (en) * | 2018-02-20 | 2022-05-24 | James R Jackson | Systems and methods for generating a relationship among a plurality of datasets to generate a desired attribute value |
-
2020
- 2020-02-03 CN CN202010078981.7A patent/CN111259090B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012166867A1 (en) * | 2011-06-02 | 2012-12-06 | Microsoft Corporation | Map-based methods of visualizing relational databases |
CN110515968A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110543586A (zh) * | 2019-09-04 | 2019-12-06 | 北京百度网讯科技有限公司 | 多重用户身份融合方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
An ICSGC algorithm for carrier assignment in downlink coordinated multi-point with carrier aggregation;Hongliang Bian等;《010 2nd IEEE InternationalConference on Network Infrastructure and Digital Content》;全文 * |
大数据联盟数据聚合服务模式研究;胡艳玲;《中国博士学位论文电子期刊网》;全文 * |
大规模图数据匹配技术综述;于静;刘燕兵;张宇;刘梦雅;谭建龙;郭莉;;计算机研究与发展(第02期);全文 * |
熊炳锟编著.《电路分析导论》.1990, * |
Also Published As
Publication number | Publication date |
---|---|
CN111259090A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259090B (zh) | 关系数据的图生成方法、装置、电子设备和存储介质 | |
US20210201198A1 (en) | Method, electronic device, and storage medium for generating node representations in heterogeneous graph | |
EP3940580A1 (en) | Multi-modal pre-training model acquisition method and apparatus, electrnonic device and storage medium | |
US20240069876A1 (en) | Front-end code generation method and apparatus | |
CN111461343B (zh) | 模型参数更新方法及其相关设备 | |
EP3848816A1 (en) | Method, apparatus, and storage medium for storing determinant text | |
CN114881223B (zh) | 深度学习模型的转换方法、装置、电子设备和存储介质 | |
CN111768096A (zh) | 基于算法模型的评级方法、装置、电子设备及存储介质 | |
US20210191921A1 (en) | Method, apparatus, device and storage medium for data aggregation | |
CN114021156A (zh) | 漏洞自动化聚合的整理方法、装置、设备以及存储介质 | |
CN114816393B (zh) | 信息生成方法、装置、设备以及存储介质 | |
CN103678396A (zh) | 一种基于数据模型的数据备份方法和装置 | |
CN114064925A (zh) | 知识图谱的构建方法、数据查询方法、装置、设备和介质 | |
CN113312560B (zh) | 群组检测方法、装置及电子设备 | |
CN111625612B (zh) | 高精地图的纠偏方法和装置、电子设备和存储介质 | |
CN113469461A (zh) | 生成信息的方法和装置 | |
CN111177479B (zh) | 获取关系网络图中节点的特征向量的方法以及装置 | |
CN116841870A (zh) | 一种测试方法、系统、装置、设备及存储介质 | |
CN114048863A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
US20170161359A1 (en) | Pattern-driven data generator | |
CN113239054A (zh) | 信息生成方法、相关装置及计算机程序产品 | |
CN113691403A (zh) | 拓扑节点配置方法、相关装置及计算机程序产品 | |
CN111506737B (zh) | 图数据处理方法、检索方法、装置及电子设备 | |
CN112817990B (zh) | 数据处理方法、装置、电子设备以及可读存储介质 | |
CN111782752B (zh) | 派送点位置确定方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |