CN105335524B - 一种应用于大规模非规则结构数据的图搜索方法 - Google Patents
一种应用于大规模非规则结构数据的图搜索方法 Download PDFInfo
- Publication number
- CN105335524B CN105335524B CN201510872650.XA CN201510872650A CN105335524B CN 105335524 B CN105335524 B CN 105335524B CN 201510872650 A CN201510872650 A CN 201510872650A CN 105335524 B CN105335524 B CN 105335524B
- Authority
- CN
- China
- Prior art keywords
- point
- label
- original image
- data
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000005496 eutectics Effects 0.000 title claims abstract description 31
- 230000001788 irregular Effects 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000010586 diagram Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000012216 screening Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000005295 random walk Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 5
- 238000005457 optimization Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种应用于大规模非规则结构数据的图搜索方法,包括数据预处理方法和查询执行方法,其中数据预处理方法为:将非规则结构数据进行格式统一,为每个图的原图点构造一近邻标签向量表,构造具有属性点的扩充图;查询执行方法为:在原图数据点中利用一近邻标签筛选与关键点对应的候选匹配点,计算候选匹配点的匹配度并选择局部区域的中心点,在中心点周围划分出局部区域并查询子图和局部图的近似图匹配。该算法在保证搜索准确性的同时,大幅度降低运算复杂度,可以实现可行且有效的大规模非规则结构数据的图搜索。
Description
技术领域
本发明属于图数据管理、图数据挖掘领域,涉及一种应用于大规模非规则结构数据的图搜索方法。
背景技术
图模型是最常见的结构模型之一,由自然形成或人工构造产生,广泛应用于各类关系的描述。其中,点通常用来代表实体,如分子、个人、电子账户等;边通常用来描述两个实体间的具体关系,如分子键、通讯往来等。
社会计算、生物信息学等应用中存在大量非规则结构数据的处理需求,基于图模型的挖掘算法逐步受到人们的关注。其中,一种点用离散化标签标识属性、边用权重值表示点联系紧密程度的非规则结构数据,在社交网络分析、知识发现等领域具有广泛应用,图搜索是实际应用中一项极为重要的需求。例如,给定一个社交网络图,若想了解某种社交子结构存在的情况,可以将此种社交子结构表示为查询子图,在给定的大型社交网络图中找到查询子图的匹配。又例如,生物网络的图模型通常由上万个点和百万条边组成,图搜索可以确定某个分子结构是否出现于搜索的生物网络中,生物学家可以通过图搜索来减少蛋白质结构匹配的实验代价。
对于大规模非规则结构数据的图搜索方法,传统的图数据库信息检索方法可能返回大量查询结果,且查询结果不具有代表性,这是因为没有考虑点的影响力差异;现有方法大多利用索引(Index)结构剪枝,采用回溯算法的基本框架,返回精确匹配结果,这些方法复杂度较高,且只能返回完全与查询子图匹配的图搜索结果,但无法返回与查询子图相似的结果;此外,由于子图匹配本身是一个NP-hard问题,复杂度较高,直接使用图匹配的经典算法无法解决大规模非规则结构数据的图搜索问题。可见传统的图搜索方法已经无法满足日益增长的大规模非规则结构数据的处理需求。
发明内容
为解决现有图搜索方法的复杂度高和效率不能满足需求的问题,本发明提出了一种应用于大规模非规则结构数据的图搜索方法,在保证精度的条件下,降低了算法的复杂度,提高了图搜索的效率。
本发明提出的一种应用于大规模非规则结构数据的图搜索方法,包括数据预处理方法和查询执行方法;
数据预处理方法包括如下步骤:
步骤S11,将非规则结构数据统一为一种图的数据格式作为原图;统一数据格式后的每个图中的点为原图点;
步骤S12,为每个图的原图点构造一近邻标签向量表;
所述为每个图的原图点构造一近邻标签向量表的方法为:依据原图的m个不同的标签,为每个原图点构造一个m位的一近邻标签向量,若原图点存在标签为label_i的邻接点,则该原图点一近邻标签向量中对应的第i位取值为1,否则该位取值为0;
步骤S13,在统一数据格式后的每个图中加入新的点作为属性点,并添加对应的边,形成具有属性点的扩充图;
步骤S14,在扩充图上,使用重启动随机游走算法,以每个属性点为起点,计算属性点到每个原图点的概率。
查询执行方法包括如下步骤:
步骤S21,确定查询子图的关键性节点作为关键点,并在原图点中利用一近邻标签向量表筛选与关键点对应的点作为候选匹配点;
步骤22,计算候选匹配点的匹配度,并根据匹配度大小选择局部区域的中心点;
步骤23,在中心点周围进行局部区域的划分,利用松弛法进行查询子图和局部图的近似图匹配。
优选的,所述扩充图的构建方法为:依据原图的m个不同的标签加入m个属性点,这m个属性点的数据格式与原图点的数据格式完全相同,点序列号递增;以属性点为起点,以相同标签的其它原图点为终点,向原图中添加单向边。
优选的,所述候选匹配点的筛选方法为:
步骤211,在原图点中筛选出所有标签与关键点标签相同的原图点;
步骤212,对关键点的一近邻标签向量取反后与步骤211中筛选出来的原图点的标签向量进行或运算,若结果为全1向量,则将该原图点选为候选匹配点。
优选的,所述候选匹配点的匹配度的计算方法为:计算查询子图中关键点到其它点的概率,并结合步骤S14中的属性点到每个原图点的概率,按照如下公式计算候选匹配点与关键点的匹配度g(q,i),
其中查询子图q中的点的下标用l和k表示,k为查询子图的关键点下标,l为查询子图的非关键点下标;扩充图G'中下标用l_label和i表示,其中i表示候选匹配点的下标,l_label表示q中非关键点l对应的G'中属性点的下标;rl_label,i代表属性点到候选匹配点的R值,rl,k表示查询子图中非关键点l到关键点k的R值。
优选的,所述根据匹配度大小选择局部区域的中心点的方法为:按照候选匹配点与关键点的匹配度递减顺排序,选择前K个点作为局部区域的中心点。
优选的,采用宽度优先遍历的方法进行局部区域的划分,具体为:设定遍历层数和点规模的阈值,以局部区域的中心点为根点进行宽度优先遍历,当点数达到点规模的阈值或层数的阈值或所有点都没有未经遍历的邻接点时,扩展停止,得到该中心点对应的局部区域。
优选的,在局部区域划分的过程中设置有中心点的邻接点的筛选过程,筛选依据为:
中心点的邻接点的标签属于查询子图的关键点的邻接点的标签的一种,则选择该中心点的邻接点加入局部区域,否则不予选择;
将中心点的邻接点的一近邻标签向量与关键点所有邻接点的一近邻标签向量取反后的向量组中各个向量依次做或运算,若存在结果为全1向量,则选择该中心点的邻接点加入局部区域,否则不予选择。
优选的,近似图匹配采用的松弛法为渐非凸渐凹化过程方法。
本发明采用整体线性筛选、局部结构匹配的思路,即利用图的某些信息,对全图进行快速粗定位,筛选重要点作为局部区域的中心点;然后在该局部区域内,利用渐非凸渐凹化算法进行图匹配,将图搜索问题转化为搜索范围的多个局部分别与搜索子图相互匹配的过程,在保证一定精度的条件下,降低算法的复杂度。
附图说明
图1为本发明实施例的整体框架图示;
图2为本发明实施例的大规模非规则结构数据的预处理方法的图示;
图3为本发明实施例的应用于大规模非规则结构数据图搜索的方法的图示。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1所示,本发明的一种应用于大规模非规则结构数据的图搜索方法,包括两大部分:数据预处理部分和查询执行部分。
数据预处理部分主要包含数据规范化、一近邻标签向量构建、扩充图构建以及离线计算R值(R值具体表示为ri,j,表示重启动随机游走中从起始点i到达点j的概率,可以反映两点间联系的紧密程度),即针对大规模非规则结构数据的特点,对数据进行统一格式的存储,并为每个点构造一近邻标签向量表,并根据图搜索的需要,扩充原图数据获得扩充图,在扩充图上为每个点离线计算R值。
查询执行部分的主要思路是利用关键点匹配度确定中心点,并在中心点周围划分局部区域,在每个局部区域利用渐非凸渐凹化过程进行近似图匹配,从而得到图搜索结果。
在我们的方法中,我们采用重启动的随机游走取得的R值来衡量两点关系的紧密程度,较好的利用了边的权重信息,在计算匹配度的同时,考虑了点在图中的重要性差异,利用关键点的匹配度,使得返回查询结果更具代表性;同时由于采用了松弛法进行局部的子图匹配,可以返回近似查询结果;离线计算R值、利用匹配度定位中心点、利用一近邻标签筛选点以及只在局部区域内利用松弛法进行图匹配等方法,降低了算法复杂度,可用于大规模非规则结构数据的图搜索。
如图2所示,本发明数据预处理方法包括如下步骤:
步骤S11,大规模非规则结构数据的规范化:将非规则结构数据统一为一种图的数据格式作为原图;统一数据格式后的每个图中的点为原图点;
实际中,原始数据因应用领域、搜集方式、存储方式的不同而具有多种多样的格式,我们需要对取得的原始数据进行统一规范,将图数据格式统一为一种标准图数据格式后存储。
所述标准图数据格式为:
G#Gid
*Vertices VertiecesNumber
0 LabelofVertices_0
1 LabelofVertices_1
.......
vn-1 LabelofVertices_vn-1
*Edges EdgesNumber
v_i0v_j0WeightofEdges
......
其中“G#Gid”表示开始图信息描述;以“G=-1”表示结束图信息描述;“*VerticesVertiecesNumber”表示开始图中点信息描述,其中“VerticesNumber”是点总数,此外,点信息按行存储,格式为“vid LabelofVertices_vid”,其中“vid”是点的唯一序号,“LabelofVertices_vid是点的标签信息;“*Edges EdgesNumber”表示结束点信息部分,并开始图中边信息描述,边信息按行存储,格式为“v_i v_j WeightofEdges”,其中v_i是起点序号,v_j是终点序号,WeightofEdges是边的权重信息。该标准图数据格式既可以表示无向图,也可以表示有向图。每点具有一个唯一的序号和标签,不同点的标签可以相同,边用起点序号和终点序号描述,具有权重信息,边的权重代表两点间关系的紧密程度。例如,在论文引用网络中,用点表示作者,若两作者曾为共同作者,则两点之间有边相连,边的权重代表两人合作论文的次数,权重越大,代表两人合作次数越多,联系越紧密。权重信息的设定方法与应用领域密切相关,可根据实际应用需求而定。
应用中,用户需要按照上述标准格式处理原始图数据,在进行图搜索时,查询子图也需按照同样的标准数据格式给出,然后才能进行图搜索。例如,对于社交网络数据形成的图数据,我们将其中的个人作为点,根据个人职业的不同,为其分配不同的标签。根据人际关系将对应点相连,在查询时,将需要查询的社交模式也按照相同的数据格式给出,进行图搜索后,返回具有一定代表性的图搜索结果。
步骤S12,构造一近邻标签向量表:为每个图的原图点构造一近邻标签向量表;
在图搜索时,需要根据一近邻信息,进行点筛选。为了提高筛选效率,在数据预处理时,提前构造一近邻标签向量表。构造一近邻标签向量的方法为:已知原图有m个不同的标签(label_1,label_2,...label_m),则每个原图点具有一个m位的一近邻标签向量,若该点存在标签为label_i的邻接点,则该原图点一近邻标签向量中对应位设为1,否则该位设为0。假如图中所有点共有5种标签,分别为A、B、C、D、E,某点有四个邻接点,邻接点标签分别为A、A、B、C,则该点的一近邻标签向量为[11100]。在进行图搜索时,查询子图也需按照同样的方法构造一近邻标签向量。
步骤S13,加入属性点扩充原图:在统一数据格式后的每个图中加入新的点作为属性点,并添加对应的边,形成具有属性点的扩充图;
图搜索时,需要根据查询子图的关键点与图数据中各个点的匹配度的来确定局部区域的中心点,为了计算匹配度,将原始图扩充为具有属性点的扩充图,即在原图中加入属性点,并添加对应边。
扩充原图的具体方法为:已知原图有m个不同的标签(label_1,label_2,...label_m),则向原始图中加入m个属性点,这m个属性点的数据格式与原图点的数据格式完全相同,点序列号递增;以属性点为起点,以相同标签的其它原图点为终点,向原图中添加单向边,边的数据格式也与原图边的数据格式完全相同,边的权重值均设为1。
这样一个由普通点和属性点组成的扩充图就构造好了,属性点不对应任何实体,因此属性点并不参与实际的子图匹配,只参与配度计算,筛选出具有一定的代表性的关键点的匹配点。
步骤S14,离线计算属性点到各原图点的R值:在扩充图上,使用重启动随机游走算法,以每个属性点为起点,计算属性点到每个原图点的概率。
在步骤S13形成的扩充图上,分别从m个属性点出发,使用重启动随机游走,计算该属性点到每个原图点的概率值R。R的计算采用迭代方法,迭代次数T可以根据计算精度的要求人为设定。R的计算如公式(1)所示:
其中为按列规一化之后的权重矩阵;为起始向量,第i个元素为1,其余为零,代表从i点出发,向其他各点随机游走;为排序向量,rij为从i点出发到达j的R值,迭代结束时代表从i点出发到达j点的概率;c为重启动随机游走算法的重启动参数,表示以(1-c)的概率回到起始点,以c的概率继续随机游走。
在迭代开始,目标从起点游走到该点的邻接点,到达各邻接点的概率与边的权重成正比。同时,在迭代的每一步,都有(1-c)的概率重新回到起始点。迭代的终止条件是达到最大迭代次数T,或的L2范数小于临界值ξ。最终得到的为从i点出发到图中其他各点的R值,也就是ri,j组成的向量。在实际应用中由于属性点到原图点的边是单向且权重相等,因此在计算属性点到原图点的R值时,在迭代的第一步,目标从属性点运动到各同属性点的R值是相等的。
因为R值包含了图的全局结构信息,相比于传统的图距离(例如最短路径、最大流),R值包含了两点之间多层次关系。关于R值的计算,除了传统的迭代方法,还有多种快速算法可以选择,可以提高R值计算的效率。因此R值的计算方法可按照数据规模、应用领域和实际应用需求进行选择。
按照上述方法,利用扩充图,离线计算出所有属性点到每一个原图点的R值,并将其存储,作为关键点对应匹配点的匹配度计算的依据之一。
如图3所示,查询执行方法包括如下步骤:
步骤S21,筛选查询子图关键点的候选匹配点:确定查询子图的关键性节点作为关键点,并在原图点中利用一近邻标签向量表筛选与关键点对应的结点作为候选匹配点;
这里我们默认已经得到与数据图相同标准格式的查询子图,查询子图各个边具有相同的权重1,且子图规模远小于数据图,我们的目标是从数据图中找到与查询子图近似的子图,且查询结果具有一定的代表性,在本算法中主要是指关键点的匹配点是具有一定代表性的点。该步骤主要包括确定关键查询子图的关键点和利用一近邻标签向量筛选。
首先需要确定查询子图的关键点,即该点与查询子图的其他点相比更加重要,更需要关注其匹配结果的代表性。在实际应用中,关键点可以有多种确定方式:可以根据子图自身的结构信息确定关键点,例如可以将查询子图中度最大的点作为查询子图的关键点;也可以根据实际需求,结合专业信息等,指定某点为关键点。在确定好关键点之后,用基于迭代的重启动随机游走算法计算查询子图中关键点到其他点的R值,因为查询子图的规模通常较小,在线计算R值的时间很短。
显然,候选匹配点的标签必须与关键点相同,除此此外,我们利用一近邻标签向量表来初步筛选查询子图关键的候选匹配点,具体方法是:
步骤211,在原图点中筛选出所有标签与关键点标签相同的原图点;
步骤212,对关键点的一近邻标签向量取反后与步骤211中筛选出来的原图点的标签向量分别进行或运算,若结果为全1向量,则将该原图点选为候选匹配点。
步骤22,计算候选匹配点的匹配度:计算候选匹配点的匹配度,并根据匹配度大小选择局部区域的中心点;
通常情况下,经过筛选后得到的候选匹配点的规模依然很大,因此我们计算所有候选匹配点与关键点的匹配度g(q,i)。
候选匹配点的匹配度的计算方法为:计算查询子图中关键点到其它结点的概率,并结合步骤S14中的属性点到每个原图点的概率,按照公式(2)计算候选匹配点与关键点的匹配度,
其中查询子图q中的结点的下标用l和k表示,k为查询子图的关键点下标,l为查询子图的非关键点下标;扩充图G'中下标用l_label和i表示,其中i表示候选匹配点的下标,l_label表示q中非关键点l对应的G'中属性点的下标;rl_label,i代表属性点到候选匹配点的R值,rl,k表示查询子图中非关键点l到关键点k的R值。
我们认为在查询子图中,与关键点关系越紧密的点越重要,对于这样的非关键点,需要给对应项较大的影响权重,所以每个非关键点l对应的乘积项具有的rl,k系数。
由于数据图的属性点到各个点的R值即rl_label,i已经在数据预处理阶段离线计算完毕,而且由于查询子图由于规模很小,在线计算R值需要的时间很短,因此每个点的匹配度计算实际上只需要进行简单的相乘运算,非常快捷。按照上述方法,我们可以获得所有候选匹配点与关键点的匹配度,并按照匹配度从大到小的顺序排列,取其前K个点作为步骤23中局部区域的中心点,其中K的数值可以根据使用需求确定,也可以根据搜索结果进行相应调整。
步骤23,局部区域近似图匹配:在中心点周围进行局部区域的划分,利用松弛法进行查询子图和局部图的近似图匹配。
局部区域近似图匹配主要包括局部区域的划分和近似图匹配两个部分。
在步骤22中,我们计算了所有候选匹配点的匹配度大小,并将其中匹配度较大的K个点设定为局部区域的中心点,接下来需要在这些中心点周围按照一定的规则划分出K个局部区域,并将下一步近似图匹配的范围限定在这K个局部区域内。
在本实施例中,局部区域划分采用宽度优先遍历的方法:设定遍历层数的阈值L和结点规模的阈值Kmax,以局部区域的中心点作为根节点,进行宽度优先遍历。当点数增加到点规模阈值Kmax或层数到达阈值L或所有点都没有未经遍历的邻接点时,扩展停止,得到该中心点对应的局部区域。
此外,在局部区域划分的过程中设置有中心点的邻接点的筛选过程。查询子图的关键点的邻接点的重要性要高于其他非关键点,可以根据关键点的邻接点对中心点的邻接点进行筛选。因此,在划分局部区域时加入筛选过程,即划入局部区域的中心点的邻接点必须满足以下条件:
(1)该邻接点的点标签必须是查询子图的关键点的邻接点的标签的一种。具体方法为:将该点的标签信息表示为向量形式,若标签为label_k,则向量的第k位为1,其余位为0,例如图中所有点共有5种标签,分别为A、B、C、D、E,该点标签为A,则点标签向量为(10000)。将关键点的一近邻标签向量与该点标签向量进行或运算,若结果等于关键点的一近邻标签向量,则选择该中心点的邻接点加入局部区域,否则不予选择。
(2)将关键点所有邻接点的一近邻标签向量提出来,得到s个一近邻标签向量(不同邻接点可能具有相同的一近邻标签向量),分别取反后组成向量组[X1,X2,...Xs],将中心点的邻接点的一近邻标签向量与向量组[X1,X2,...Xs]中的各个向量依次做或运算,若存在结果为全1向量,则选择该中心点的邻接点加入局部区域,否则不予选择。
按照上述方法,我们可以得到K个局部区域,接下来在局部区域内进行近似图匹配。若查询子图给出边的权重信息,则可以直接在对应的局部区域进行近似图匹配;若查询子图并未给出边的权重信息,则默认边的权重相同设为1,在局部区域内进行近似图匹配之前,需要将局部区域中的边的权重都设为1。
假设查询子图的点个数为M,在点数为N的局部区域内,问题转化为图匹配问题,可用公式(3)所示组合优化的形式给出:
目标函数分为两个部分,tr(KP TX)表示点标签差异,tr(A1-XA2XT)T(A1-XA2XT)表示边及结构差异。其中,A1∈RM×M表示查询子图的邻接矩阵,A2∈RN×N表示局部图的邻接矩阵;X是待求的分配矩阵,其形式为置换矩阵,α为调节标签信息和结构信息的权重系数。Kp∈RM ×N,描述两图点标签信息的差异情况。例如,查询子图q中点i与局部区域中点j的标签信息相同,则Kp(i,j)=0;否则Kp(i,j)=1。需要注意的是,Kp的定义相对于整个图匹配问题是独立的部分,因此可以根据应用领域中标签的实际差异情况,定义不同的标签差异衡量方法。
解决上述组合优化问题采用渐非凸渐凹化过程。渐非凸渐凹化过程是一种可用于解决一般组合图优化问题的确定性退火方法,它以一种简单的方式严格实现了一种凹凸松弛,且不需要显性构建凹凸函数,解决了很多松弛方法中的凹凸函数难以构建甚至无法构建的问题。该算法在图匹配、二次指派等问题上取得的精度远高于其他常用的松弛方法。该算法的存储复杂度为O(N2),计算复杂度为O(N3)。使用该方法在点规模相对较小的局部区域进行近似图匹配是可行且精确的。
在K个局部区域内,将查询子图与每一个局部图进行图匹配,返回K个图匹配结果,可以根据目标函数的值衡量查询子图与局部图的匹配程度。实际使用时,也可以根据需要,对匹配程度进行一定的限制,即只返回匹配程度高于设定值的查询结果。
综上,本发明引进的大规模非规则结构数据的图搜索方法,大大降低运算复杂度,具有一定的有效性和应用价值。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种应用于大规模非规则结构数据的图搜索方法,其特征在于,包括数据预处理方法和查询执行方法;
数据预处理方法包括如下步骤:
步骤S11,将非规则结构数据统一为一种图的数据格式作为原图;统一数据格式后的每个图中的点为原图点;
步骤S12,为每个图的原图点构造一近邻标签向量表;
所述为每个图的原图点构造一近邻标签向量表的方法为:依据原图的m个不同的标签,为每个原图点构造一个m位的一近邻标签向量,若原图点存在标签为label_i的邻接点,则该原图点一近邻标签向量中对应的第i位取值为1,否则该位取值为0;
步骤S13,在统一数据格式后的每个图中加入新的点作为属性点,并添加对应的边,形成具有属性点的扩充图;
步骤S14,在扩充图上,使用重启动随机游走算法,以每个属性点为起点,计算属性点到每个原图点的概率;
查询执行方法包括如下步骤:
步骤S21,确定查询子图的关键性节点作为关键点,并在原图点中利用一近邻标签向量表筛选与关键点对应的点作为候选匹配点;
步骤22,计算候选匹配点的匹配度,并根据匹配度大小选择局部区域的中心点;
步骤23,在中心点周围进行局部区域的划分,利用松弛法进行查询子图和局部图的近似图匹配。
2.如权利要求1所述的一种应用于大规模非规则结构数据的图搜索方法,其特征在于,所述扩充图的构建方法为:依据原图的m个不同的标签加入m个属性点,这m个属性点的数据格式与原图点的数据格式完全相同,点序列号递增;以属性点为起点,以相同标签的其它原图点为终点,向原图中添加单向边。
3.如权利要求1所述的一种应用于大规模非规则结构数据的图搜索方法,其特征在于,所述候选匹配点的筛选方法为:
步骤211,在原图点中筛选出所有标签与关键点标签相同的原图点;
步骤212,对关键点的一近邻标签向量取反后与步骤211中筛选出来的原图点的标签向量进行或运算,若结果为全1向量,则将该原图点选为候选匹配点。
4.如权利要求1-3中任一项所述的一种应用于大规模非规则结构数据的图搜索方法,其特征在于,所述候选匹配点的匹配度的计算方法为:计算查询子图中关键点到其它点的概率,并结合步骤S14中的属性点到每个原图点的概率,按照如下公式计算候选匹配点与关键点的匹配度g(q,i),
其中查询子图q中的点的下标用l和k表示,k为查询子图的关键点下标,l为查询子图的非关键点下标;扩充图G'中下标用l_label和i表示,其中i表示候选匹配点的下标,l_label表示q中非关键点l对应的G'中属性点的下标;rl_label,i代表属性点到候选匹配点的R值,rl,k表示查询子图中非关键点l到关键点k的R值。
5.如权利要求4所述的一种应用于大规模非规则结构数据的图搜索方法,其特征在于,所述根据匹配度大小选择局部区域的中心点的方法为:按照候选匹配点与关键点的匹配度递减顺排序,选择前K个点作为局部区域的中心点。
6.如权利要求5所述的一种应用于大规模非规则结构数据的图搜索方法,其特征在于,采用宽度优先遍历的方法进行局部区域的划分,具体为:设定遍历层数和点规模的阈值,以局部区域的中心点为根点进行宽度优先遍历,当点数达到点规模的阈值或层数的阈值或所有点都没有未经遍历的邻接点时,扩展停止,得到该中心点对应的局部区域。
7.如权利要求6所述的一种应用于大规模非规则结构数据的图搜索方法,其特征在于,在局部区域划分的过程中设置有中心点的邻接点的筛选过程,筛选依据为:
中心点的邻接点的标签属于查询子图的关键点的邻接点的标签的一种,则选择该中心点的邻接点加入局部区域,否则不予选择;
将中心点的邻接点的一近邻标签向量与关键点所有邻接点的一近邻标签向量取反后的向量组中各个向量依次做或运算,若存在结果为全1向量,则选择该中心点的邻接点加入局部区域,否则不予选择。
8.如权利要求7所述的一种应用于大规模非规则结构数据的图搜索方法,其特征在于,近似图匹配采用的松弛法为渐非凸渐凹化过程方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510872650.XA CN105335524B (zh) | 2015-11-27 | 2015-11-27 | 一种应用于大规模非规则结构数据的图搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510872650.XA CN105335524B (zh) | 2015-11-27 | 2015-11-27 | 一种应用于大规模非规则结构数据的图搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105335524A CN105335524A (zh) | 2016-02-17 |
CN105335524B true CN105335524B (zh) | 2019-09-24 |
Family
ID=55286051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510872650.XA Active CN105335524B (zh) | 2015-11-27 | 2015-11-27 | 一种应用于大规模非规则结构数据的图搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105335524B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107369168B (zh) * | 2017-06-07 | 2021-04-02 | 安徽师范大学 | 一种大污染背景下配准点的提纯方法 |
CN107451210B (zh) * | 2017-07-13 | 2020-11-20 | 北京航空航天大学 | 一种基于查询松弛结果增强的图匹配查询方法 |
CN108804599B (zh) * | 2018-05-29 | 2022-01-04 | 浙江大学 | 一种相似交易模式的快速查找方法 |
CN109993756B (zh) * | 2019-04-09 | 2022-04-15 | 中康龙马(北京)医疗健康科技有限公司 | 一种基于图模型与连续逐步优化的通用医学图像分割方法 |
CN110888930A (zh) * | 2019-12-23 | 2020-03-17 | 武汉大学 | 基于知识图谱的金融知识查询服务接口设计与实现方法 |
CN111881767B (zh) * | 2020-07-03 | 2023-11-03 | 深圳力维智联技术有限公司 | 高维特征的处理方法、装置、设备及计算机可读存储介质 |
CN114070426B (zh) * | 2021-11-15 | 2024-04-19 | 上海创远仪器技术股份有限公司 | 针对mimo信道模拟器的异常校准数据进行剔除处理的方法、装置、处理器及其存储介质 |
CN114418773A (zh) * | 2022-03-30 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 策略组合的优化方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102508917A (zh) * | 2011-11-21 | 2012-06-20 | 洪涛 | 部分特征图像的多维度目标快速鲁棒检索定位方法 |
CN103207879A (zh) * | 2012-01-17 | 2013-07-17 | 阿里巴巴集团控股有限公司 | 图像索引的生成方法及设备 |
CN104166657A (zh) * | 2013-05-17 | 2014-11-26 | 北京百度网讯科技有限公司 | 电子地图搜索方法以及服务器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521267B (zh) * | 2011-11-21 | 2014-01-22 | 沈文策 | 站内信息搜索方法和搜索系统 |
CN104899292A (zh) * | 2015-06-08 | 2015-09-09 | 哈尔滨工程大学 | 一种面向属性图集的频繁近似子图挖掘方法 |
-
2015
- 2015-11-27 CN CN201510872650.XA patent/CN105335524B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102508917A (zh) * | 2011-11-21 | 2012-06-20 | 洪涛 | 部分特征图像的多维度目标快速鲁棒检索定位方法 |
CN103207879A (zh) * | 2012-01-17 | 2013-07-17 | 阿里巴巴集团控股有限公司 | 图像索引的生成方法及设备 |
CN104166657A (zh) * | 2013-05-17 | 2014-11-26 | 北京百度网讯科技有限公司 | 电子地图搜索方法以及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN105335524A (zh) | 2016-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105335524B (zh) | 一种应用于大规模非规则结构数据的图搜索方法 | |
Yin et al. | Group-wise itinerary planning in temporary mobile social network | |
CN106779859A (zh) | 一种移动终端产品实时销量预测方法 | |
Qiao et al. | TraPlan: An effective three-in-one trajectory-prediction model in transportation networks | |
Olsen et al. | Efficient top-k closeness centrality search | |
Chen et al. | A generic framework for constraint-driven data selection in mobile crowd photographing | |
CN107784598A (zh) | 一种网络社区发现方法 | |
KR100923723B1 (ko) | 도로 네트워크 공간에서 이동객체의 유사 궤적 클러스터링방법 | |
CN102915347A (zh) | 一种分布式数据流聚类方法及系统 | |
Hung et al. | Mining trajectory profiles for discovering user communities | |
CN106462620A (zh) | 巨型网络上的距离查询 | |
CN109992786A (zh) | 一种语义敏感的rdf知识图谱近似查询方法 | |
CN107766406A (zh) | 一种采用时间优先搜索的轨迹相似性连接查询方法 | |
Bagci et al. | Random walk based context-aware activity recommendation for location based social networks | |
Zanghi et al. | Strategies for online inference of model-based clustering in large and growing networks | |
CN108765180A (zh) | 基于影响力与种子扩展的重叠社区发现方法 | |
CN105447595A (zh) | 一种基于谱聚类算法的景点路线推荐方法 | |
CN113987105A (zh) | 基于滑动窗口的标签感知图形流草图构建方法及应用 | |
CN102819611B (zh) | 一种复杂网络局部社区挖掘方法 | |
CN106202515A (zh) | 一种基于排序学习的移动应用推荐方法及其推荐系统 | |
CN106126681B (zh) | 一种增量式流式数据聚类方法及系统 | |
Yang et al. | Recommending profitable taxi travel routes based on big taxi trajectories data | |
CN112507047B (zh) | 一种基于兴趣点偏好的最优有序路径查询方法 | |
CN108712278A (zh) | 一种基于集成学习的网络社区发现方法 | |
CN108108407A (zh) | 基于时空轨迹的群体运动移动簇模式排序方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |