CN107451210A - 一种基于查询松弛结果增强的图匹配查询方法 - Google Patents
一种基于查询松弛结果增强的图匹配查询方法 Download PDFInfo
- Publication number
- CN107451210A CN107451210A CN201710569486.4A CN201710569486A CN107451210A CN 107451210 A CN107451210 A CN 107451210A CN 201710569486 A CN201710569486 A CN 201710569486A CN 107451210 A CN107451210 A CN 107451210A
- Authority
- CN
- China
- Prior art keywords
- query
- graph
- relaxation
- matching
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000002708 enhancing effect Effects 0.000 title abstract 2
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 17
- 239000006185 dispersion Substances 0.000 claims abstract description 13
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 6
- 238000004088 simulation Methods 0.000 claims description 25
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 2
- 230000008520 organization Effects 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims 1
- 238000007405 data analysis Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 229910010888 LiIn Inorganic materials 0.000 description 1
- 229960001948 caffeine Drugs 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- RYYVLZVUVIJVGH-UHFFFAOYSA-N trimethylxanthine Natural products CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于查询松弛结果增强的图匹配查询方法。本发明通过将查询模式图进行属性标签松弛从而查询得到更多图匹配结果。本发明的方法可以生成最优k个基于结构排序或差异结构排序的松弛方法下的查询松弛,对于结构排序,利用用于解决最优k个组合优化问题的Lawler过程生成排序最好的k个松弛查询图;对于差异结构排序,采用最大分散问题的解决方法来生成k个差异松弛查询图;然后执行同时处理多个图匹配查询的批处理优化处理,来同时回答k个松弛查询图的结果,在处理过程中能够最大化共享k个查询图的处理量,从而达到高效处理的技术效果。
Description
技术领域
本发明属于图查询领域,具体涉及一种社交网络中基于查询松弛结果增强的图匹配查询方法。
背景技术
相较于传统的关系数据和XML数据,图数据具有更强的表达能力,其既能够表达数据、又可以表达数据之间的联系,被广泛应用于社交网络领域。在社交网络图G(V,E,f)中,可以把人看作图的顶点V,人之间的关系(如合作关系)看作图的边E,人的技能专长等特征用标签函数f表示。图的广泛应用自然而然促进图查询技术(从图中查询信息)的广泛应用。
图查询分为很多种类,如点查询、路径查询、图匹配查询等,其中关于图匹配查询的研究工作近年来越来越多。图匹配查询即给定一个查询模式图Q(VQ,EQ,fQ)和一个数据图G(V,E,f),在数据图G中查找满足查询图Q中拓扑结构和属性节点约束的子图。在社交网络图上的团队推荐查询中,用户可以通过构建查询图Q(VQ,EQ,fQ)来搜索得到一个团队,使得所有队员(VQ)既能够满足所有业务需求(fQ)并且能够紧密合作(EQ)。传统的图匹配查询是基于子图同构语义而定义的,然而其语义是NP完全并且由于限制条件太多经常导致难以查询得到有意义的图匹配结果。因此出现两种放松语义限制来增加图匹配结果的方法:一种方法是采用基于图模拟的图匹配语义放松子图同构语义中要求查询图和匹配图拓补结构完全相同的严格约束;另一方法是在图匹配查询过程中利用语义分类知识,即一个属性标签可以匹配与其语义相关的属性标签,来放松查询图节点与数据图中匹配节点之间属性标签匹配需要完全相同的严格约束,如语义子图同构查询。
现有技术中,即使较小规模的查询图仍然无法在图数据中找到匹配的结果。针对这种情况,我们提出了采用语义图模拟的图匹配查询方法,该方法结合了图模拟和查询标签语义相关匹配两个优化方向的优势,进而在查询时能得到更多匹配结果。
然而,虽然语义图模拟查询方法可以为较小规模的查询图在真实数据集中查询得到比现有传统图查询方法更多的匹配结果,但是在大多数情况下语义图模拟查询方法在数据图中仍然找不到任何匹配结果。具体实验过程及数据如下所示。在通用的两个真实知识库数据集DBpedia和YAGO中,分别抽取出数据图和语义分类知识图,而后随机生成节点数目从2到10变化的查询图,并在数据图中进行语义图模拟查询。在数据图中能得到非空结果的查询图占所有生成的相同节点数目的查询图的比例统计如下:
节点个数 | 2 | 4 | 6 | 8 | 10 |
DBpedia | 90% | 18% | 0% | 0% | 0% |
YAGO | 54% | 2% | 0% | 0% | 0% |
有18%的4个节点的查询图可以在DBpedia数据集上查询得到结果,只有2%的4个节点的查询图可以在YAGO数据集上查询得到结果;没有任何大于等于6个节点的查询图能够在DBpedia或YAGO上查询得到结果。当分别在两个数据集上执行查询约束条件更加严格的子图同构,语义子图同构以及图模拟匹配查询时,能够查询得到结果的查询图百分比远远低于表格中所示数值。
通过进一步详细分析查询结果为空的查询图,以及检查数据图中的数据内容,发现数据图中实际存在大量能够与查询图匹配的有意义节点,但是他们均不能被现有技术中的图模拟、语义分类以及语义图模拟相结合的查询方法搜索出来。
查询松弛技术即是为了解决在查询过程中查询结果过少问题而提出的,其是当用户输入的查询由于约束条件太多导致查询结果较少或为空集时,查询引擎能够自动生成松弛的查询输入,进而可以从数据集中查询得到更多有意义的结果。查询松弛相关技术的应用使得查询引擎的易用性明显增强,在关系数据,XML等领域有相关研究,然而在图匹配查询的领域中还处于空白状态。图匹配查询要求匹配图与查询图是通过各种子图结构匹配约束条件相匹配,由于子图结构查询约束条件较强,容易导致查询结果较少或空集,难以根据用户的输入找到用户满意的结果。然而,因为查询松弛技术的关键因素是如何生成松弛查询图以及如何为松弛查询图进行排序,以及如何快速高效的为生成的最优的一组松弛查询图在数据图中找到匹配结果,而这些问题高度依赖于查询方法的特征,因此查询方法的不同导致现有的查询松弛技术无法应用于图匹配查询过程中。为了解决社交网络中属性标签间存在语义从属关系,社交搜索无法在数据图中查询得到查询图中指定的属性约束的图匹配结果,本发明提出图匹配查询松弛方法将查询图中的属性标签松弛至松弛距离范围内较高级的属性标签再进行搜索,从而具有较高级属性标签及其子孙属性标签的数据节点均可以被查询得到作为查询结果,从而增加图匹配查询结果。
发明内容
本发明提出了一个社交网络中基于查询松弛的图匹配查询方法。社交网络中,用户通过构建查询模式图从数据图中查询得到满足一定结构和属性约束的图匹配查询结果。然而传统图匹配查询方法面临查询结果过少的问题。本发明通过将查询模式图进行属性标签松弛从而查询得到更多图匹配结果,然而对于一个查询图,生成的松弛查询图可以有无穷多个,所以本发明采用结构排序和差异结构排序两种查询松弛排序方法生成用户指定的k个在相应排序方法下最优的松弛查询图,两者综合考虑了查询图,数据图,以及利用了语义分类信息生成使得有意义的潜在查询结果更多的松弛查询图。本发明的方法可以生成最优k个基于结构排序或差异结构排序的松弛方法下的查询松弛,对于结构排序,本发明利用用于解决最优k个组合优化问题的Lawler过程生成排序最好的k个松弛查询图;对于差异结构排序,本发明采用最大分散问题的解决方法来生成k个差异松弛查询图。然后执行同时处理多个图匹配查询的批处理优化处理,来同时回答k个松弛查询图的结果,在处理过程中能够最大化共享k个查询图的处理量,从而达到高效处理的技术效果。最后为松弛查询结果提供溯源解释,即解释结果为何能由查询图Q松弛而产生的松弛查询图在数据图G中查询得到
附图说明
图1为本发明中基于查询松弛技术的图匹配查询方法的流程图;
图2为本发明中得到最优k个查询松弛的处理步骤;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出的社交网络中的基于查询松弛技术的图匹配查询方法,其总体流程如图1所示。第一步,制定松弛排序方法并生成相应排序方法下最优k个基于结构排序或差异结构排序的查询松弛,对于结构排序方法,本发明利用用于解决最优k个组合优化问题的Lawler过程生成排序最好的k个松弛查询图;对于差异结构排序方法,本发明将此问题归约到最大分散问题,进而利用最大分散问题的解决方法来生成k个差异松弛查询图。第二步,将在第一步中得到的排序最优的k个松弛查询图同时在数据图上执行基于批处理优化技术的语义图模拟图匹配查询,分别得到每个松弛查询图的查询结果。第三步,为第二步在结构排序或差异结构排序方法下生成的松弛查询图在数据图上查询得到的图匹配查询结果提供溯源解释,所述k为用户指定的正整数。
本发明中,数据图G(V,E,f)和所述查询图Q(VQ,EQ,fQ)是由节点与边构成的有向图,表达实体和实体之间的链接关系,所述语义关系图T(VT,ET,fT)是由节点与边构成的带根节点的树形图,其表达属性标签之间的语义从属关系。
在社交网络图G上的团队推荐查询中,用户可以通过构建查询图Q来搜索得到一个团队,使得所有队员(VQ)既能够满足所有业务需求(fQ)并且能够紧密合作(EQ)。
其中,用户指定的业务需求可以通过查询图Q的标签fQ来表示,而这些业务需求标签之间通常存在语义从属的关系,比如“数据分析”技能包括“数据挖掘”和“数据库”等技能,“人工智能”技能包括“机器学习”和“自然语言处理”等技能。这些技能标签之间的从属关系可以利用树形图T(VT,ET,fT)来表示,比如“数据分析”、“数据挖掘”、“人工智能”、“机器学习”等标签都是T的节点VT,他们之间的从属关系是T的边ET,比如“数据分析”在语义图T中是“数据库”的父亲节点。
l的标签松弛为δ=l→l′,其中,l为一个标签,l′是l在语义图T中的祖先节点。社交搜索中若无法查询得到专业技能为“数据库”的专业人员,可以将属性标签“数据库”松弛至祖先节点比如松弛距离为1的父亲节点“数据分析”技能再进行搜索,那么标签为“数据分析”和“数据挖掘”技能的专业人员均可以被查询得到作为结果,增加了图匹配查询结果。
Q的查询松弛Δ是一个标签松弛集合,即查询图中出现的所有属性标签的标签松弛组成的集合,并且满足两个条件,所述满足的条件1是对于每个标签松弛δ=l→l′,l是Q中的标签并且l′到l间的距离小于μ,即distT(l′,l)≤μ,μ是正整数,所述满足的条件2是对于Δ中任意两个标签松弛l1→l1′和l2→l2′中,l1≠l2。本发明用表示相应松弛查询图,即根据Δ中的所有标签松弛,将Q中原有标签替换为松弛后的标签。
本发明用μ来约束查询图Q中标签的松弛距离,使得松弛后的查询图表达的查询意图与原始查询图Q表达的查询意图的差异可以控制在可接受范围内。
对于查询图Q(VQ,EQ,fQ)的一个标签松弛δ=l→l′,松弛比率γQ(δ)定义如下
其中,rankQ(u)表示查询图Q中能通过有向路径到达节点u的所有节点个数,表示在考虑语义图模拟查询方法特征以及查询图的结构特征下,节点u的标签在松弛后对整体查询图的查询结果数目造成的影响。ρ(x)=ex是一个用于正规化distT(l′,l)的单调递增函数。
越大的distT(l′,l)值表示Q中节点u更容易在G中通过语义图模拟查询找到匹配节点,其效果又被rankQ(u)值加强。松弛比率综合考虑了Q的结构特征,T的语义信息以及语义图模拟的查询特征来衡量Δ的松弛作用。
查询图Q(VQ,EQ,fQ)和数据图G(V,E,f)中,一个标签松弛δ=l→l′的信息比率为
|cand(G,T)(l)|/|cand(G,T)(l′)|
其中,cand(G,T)(l)是G中所有标签为l及其子孙标签的节点,即f(v)∈descT(l)。标签在数据图中的候选匹配节点数目来衡量δ的松弛效果。越小的值表示松弛查询图更容易在数据图中找到匹配节点。
结构排序公式Γ(Q,Δ)为
其中,Δ是查询松弛,Γ(Q,Δ)是一个双目标优化函数,一方面目标生成具有高质量的松弛查询图即松弛查询结果不能与原始查询结果相差太多;另一方面需要查询得到更多原始查询图无法找到但可以查询到的有意义的结果。越小的Γ(Q,Δ)可以找到质量越好的松弛查询图并且找到更多查询结果。
表示所有的松弛距离为μ以内的查询松弛。最优k个查询松弛问题即是从中找出一个k个查询松弛的集合,μ和k是常数,使得
最优k个查询松弛问题是从所有松弛距离为μ以内的查询松弛图中找到最优的k个松弛查询。
本发明进一步采用差异结构排序松弛方法,使得k个松弛查询图不仅在能够查询得到更多有意义结果且接近原始查询图的前提下,能够在查询结果里提供更多信息,即k个差异松弛查询图之间有较大差异,能够在数据图中查询得到更多的不同的图匹配查询结果。
差异率来衡量两个查询松弛的差异程度。对于任意两个Q的查询松弛Δ1和Δ2,Δ1和Δ2的相似距离ΘQ(Δ1,Δ2)为
其中,L(Q)表示查询图Q中出现的所有标签。所以相似距离ΘQ(Δ1,Δ2)衡量Q的松弛查询图之间重叠的标签个数,其保证生成的属性标签松弛后的k个差异松弛查询图两两之间属性尽量少重合,从而k个差异松弛查询图在数据图中查询得到更多的不同的图匹配查询结果。
差异结构排序公式为
其中,集合S为k个查询松弛Δ1,...,Δk的集合,λ∈[0,1]是用户输入的参数,用于平衡控制查询松弛的松弛程度和差异程度,是Γ(Q,Δ)的正规函数。
表示所有的松弛距离为μ以内的查询松弛。最优k个差异查询松弛问题即是从中找出一个k个差异查询松弛的集合,使得
最优k个差异查询松弛问题是从所有松弛距离μ以内的查询松弛中找到最优的k个差异查询松弛。通过差异结构排序,得到的k个差异松弛查询图既能够查询得到更多有意义的查询结果,与原始查询图接近,也能够使得k个差异松弛查询图之间有较大差异,进而使得图匹配查询结果能够涵盖更多信息。
本发明中得到最优k个查询松弛的处理步骤如图2所示。
S1,为查询图Q的节点中出现的每一个标签li生成一系列常数μ松弛距离范围内的标签松弛Li,由所有Li构成的标签松弛列表的集合为而后调用生成最优结构排序查询松弛方法得到在范围内的最优查询松弛Δ1,然后将最优查询松弛Δ1和作为二元组一起压入堆栈中,所述堆栈为查询松弛和标签松弛列表集合组成的二元组构成的堆栈,进入S2;
S2,判断堆栈是否为空或者已经生成k个查询松弛,如果判断为是,则返回LTR作为最优k个结构排序查询松弛结果,如果判断为否,则进入S3;
S3,从堆栈中弹出栈顶查询松弛ΔK和其空间将ΔK放进结果列表LTR中,作为第|LTR|优的查询松弛,|LTR|指结果列表LTR中存储的元素个数,进入S4;
S4,根据ΔK和生成的可行解子空间进入S5;
S5,在每个子空间中采用最优结构排序查询松弛方法生成可行解空间中的最优查询松弛Δi,将Δi和作为二元组一起压入堆栈中,进入S2;
在生成最优结构排序查询松弛方法中,给定查询图Q,数据图G,和标签松弛列表的集合m为正整数,该方法从每个列表Li中选取值最小的δ,组合作为当前可行解空间中最优的查询松弛。
在生成最优差异查询松弛中,本发明利用最大分散问题的解决方法来生成最优k个差异查询松弛。最大分散问题是从一个有权重完全图Gc中查找一个由k个节点集合构成的生成子图G′c,并且这个子图边上的权重之和是所有可能的k节点生成子图中最大的。本发明如何将最优k个差异查询松弛问题归约到最大分散问题进行解决的实施例如下所述。
给定查询图Q,数据图G,语义图T,常数μ和k,构建最大分散问题的权重完全图Gc。其中,每个Q的常数μ距离内的查询松弛Δ都对应于Gc中的一个节点uΔ,而且对于Gc中任意两个节点和其连接边的权重w(e)为
其中,U是Q的常数μ距离内所有查询松弛的集合。至此,由于w(e)>0,所以规约方法构建的权重图Gc是最大分散问题的一个实例。可以看出一个由Gc中k个节点构成的节点集合Vk对应于Q的k个查询松弛。
Sk是Vk对应的Q的k个查询松弛,由Vk构成的生成图所有边的权重和Wk为
其中,如果Vk是最大分散问题的权重图Gc的最优解,那么Wk在Gc中所有可能的k节点生成子图中的权重值最大。因此,是最优k个差异查询松弛问题中Q的所有可能k个查询松弛集合中的最小值。
本发明中,如果最大分散问题的解决方法能够得出该问题的准确结果(节点集合),那么该节点集合对应的Q的k个查询松弛就是最优k个差异查询松弛集合。
在获得松弛查询图在G中的图匹配结果时,最直接的方法是将这k个松弛查询图一个接一个在G上获得图匹配结果。然而,这k个松弛查询图具有完全相同的拓补结构,以及松弛查询图相互之间有很多相同标签,本发明基于批处理优化技术的高效图匹配查询方法来同时获得最优k个松弛查询图的匹配结果。该方法考虑语义图模拟的特征,最大化共享k个松弛查询图之间的重叠部分。批处理查找k个松弛查询图的图匹配的主要步骤为:
批处理图匹配查询包括:步骤1,构建最小匹配树该树状结构旨在将k个查询松弛按两两共享处理和层次迭代方式组织起来;步骤2,有界增量语义图模拟处理,按照最小匹配树的组织结构以共享处理方式得到k个松弛查询图的匹配结果
最小匹配树构建中查询图Q的k个查询松弛Δ1,...,Δk的最小匹配树是由k个查询松弛构成的一个层状结构,其结构包括:(1)的每个节点都是一个查询松弛。(2)有k个叶子节点(第0层),每个叶子节点都对应于k个查询松弛Δ1,...,Δk中的一个。(3)第i+1层的节点是第层查询松弛的最小匹配。所述查询松弛Δ1,...,Δn的匹配是指一个个查询松弛的集合P使得(i)第i+1层的每一个查询松弛是第i层两个查询松弛Δp和Δq(p,q∈[1,n])的联合查询松弛,i为正整数,Δ′j是将Δp和Δq中所有的标签松弛合并使得如果有两个标签松弛作用于同一个标签,那么该标签被松弛至语义图中层次更高的标签,并且(ii)满足条件如果j≠j′,那么Δ′j和Δ′j′对应于两个不同的查询松弛。
如果n个查询松弛集合S=Δ1,...,Δn的匹配P是最小匹配,那么下式在所有匹配中是最小的。
其中,Δi∈Δ′(i=1,2)表示Δ′合并Δ1和Δ2,cand(G,T)(l)表示G中所有标签为及其子孙标签的节点,即f(v)∈descT(l)。
最小匹配P将查询松弛集合S中的查询松弛两两配对,使得可以先得到P中松弛查询图在G中的图匹配结果,而后再由该结果恢复得到S中松弛查询图的结果,从而可以实现两两松弛查询图之间的共享处理。另外,最小匹配树可以进一步将这些最小匹配集合内的共享处理以层次关系迭代组织起来,从而最大化共享处理以达到全局处理量最小。
有界增量语义图模拟处理:在构建完毕最小匹配树后,批处理图匹配查询方法沿着从根节点到叶节点,获得所有松弛查询图在G中的图匹配结果。对于中每一个节点u,批处理方法通过重复利用u的父节点pre(u)中的松弛查询图已得到的匹配结果来增量得到u中的松弛查询图的图匹配结果,最终得出中所有叶节点对应的松弛查询图的图匹配结果。
在得到最优k个松弛查询图在G中的图匹配结果后,进行溯源解释松弛查询图查询结果,即分析出G中某些节点在查询图Q松弛为Q′后能够被查询得到,以及由Q到Q′的标签松弛中哪些是得到这些匹配节点所必须的。
最小松弛溯源解释:给定查询图Q,数据图G,语义图T,查询松弛Δ,在数据图G中的图匹配查询结果中的一个节点v,v和Δ的一个溯源解释εΔ(v)是Δ的一个子集,使得v属于可以看出,εΔ(v)利用Δ的子集解释了为什么v在中。v和Δ的最溯源小解释是v和Δ的所有溯源解释中元素数目最小的溯源解释,所以是Δ中的必需部分使得节点v可以被查询得出。
松弛溯源解释问题:给定查询图Q,数据图G,语义图T,k个查询松弛Δ1,...,Δk以及他们在数据图G中的图匹配查询结果常数i∈[1,k],以及中节点v,松弛溯源解释问题即为得到v和Δi的最小松弛溯源解释
松弛溯源解释问题通过找到查询松弛中的必要部分,来向用户解释为什么一个松弛查询图的图匹配结果中指定节点能够被查询得到的原因。根据最优k个查询松弛和最优k个差异查询松弛问题生成的两种查询松弛集合,本发明采用两种手段来分别进行两种问题下的松弛溯源解释。
针对最优k个查询松弛溯源解释方法:我们发现在结构排序下生成的k个松弛查询图在数据图中查询得到的图匹配结果中,v和Δ的最小溯源解释一定属于k个查询松弛中的某个查询松弛。因此只要线性扫描一遍k个松弛查询图在数据图G中的k个图匹配查询结果,即可找到Δi是v和Δ的最小溯源解释当且仅当v属于并且Δi中元素数目最小。这种方法是最优处理方法,因为该方法仅仅扫描一遍所有输入即可找到输出结果。
针对最优k个差异查询松弛溯源解释方法:不同于最优k个查询松弛的溯源解释方法,线性扫描无法解释在差异结构排序下生成的k个松弛查询图在数据图中查询得到的图匹配结果。因此本发明采用一种参数处理方法,即用户给定一个参数M,该参数可以平衡处理得到溯源解释的准确度以及处理时间,用户输入的参数数值越大,那么处理得到的溯源解释越准确,相应处理时间也会增加。该方法进行v和Δi的最小溯源解释,其过程分为以下两步。步骤1:从k个查询松弛中找到元素数目最小的查询松弛Δj(j∈[1,k]),使得(a)并且(b)步骤2:按cand(G,T)(l′)降序依次测试Δj中的标签松弛δ=l→l′,依次验证v是否属于如果验证为是则从Δj中去掉δ,所述cand(G,T)(l′)是G中所有标签为l′及其子孙标签的节点,如果验证为否,则不对Δj进行操作,如果Δj\{δ}不属于k个查询松弛之一,则调用语义图模拟查询方法得到图匹配结果并进行计数,当测试完Δj中所有剩余的标签松弛或者已经处理达到M次语义图模拟查询处理,则返回Δj作为v和Δi的溯源解释,M为正整数。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种社交网络中基于查询松弛技术的图匹配查询方法,包括:第一步,制定松弛排序方法并生成相应排序方法下最优k个松弛查询图,所述k为用户指定的正整数;第二步,将在第一步中得到的排序最优的k个松弛查询图同时在数据图上执行基于批处理优化的语义图模拟图匹配查询,分别得到每个松弛查询图的查询结果;第三步,针对第二步排序下生成的松弛查询图在数据图上查询得到的图匹配查询结果提供溯源解释。
2.如权利要求1所述的方法,其特征在于,得到所述最优k个查询松弛的手段包括基于结构排序或差异结构排序,对于结构排序,利用用于解决最优k个组合优化问题的Lawler过程生成排序最优的k个松弛查询图;对于差异结构排序,利用最大分散问题的解决方法生成最优的k个差异松弛查询图。
3.如权利要求1所述的方法,其特征在于,所述批处理优化的语义图模拟图匹配查询为进行多个图匹配查询的批处理优化,同时回答k个松弛查询图的结果,最大化共享k个查询图的处理量。
4.如权利要求2所述的方法,其特征在于,生成最优k个查询松弛的所述结构排序的步骤包括,S1,为查询图Q的节点中出现的每一个属性标签li生成一系列常数μ松弛距离范围内的标签松弛列表Li,所述属性标签li之间存在语义从属关系,当社交搜索中无法在数据图中查询得到查询图中指定的属性约束的图匹配结果时,将属性标签松弛至松弛距离范围内较高级的属性标签再进行搜索,从而具有较高级属性标签及其子孙属性标签的数据节点均可以被查询得到作为查询结果,增加了图匹配查询结果,由所有Li构成的标签松弛列表的集合为而后调用生成最优结构排序查询松弛方法得到在范围内的最优查询松弛Δ1,所述查询松弛Δ为查询图中所有属性标签及其松弛后的属性标签组成的集合,然后将最优查询松弛Δ1和作为二元组一起压入堆栈中,所述堆栈为查询松弛和标签松弛列表组成的二元组构成的堆栈,进入S2;
S2,判断堆栈是否为空或者已经生成k个查询松弛,如果判断为是,则返回LTR作为最优k个结构排序查询松弛结果,如果判断为否,则进入S3;
S3,从堆栈中弹出栈顶查询松弛ΔK和其空间将ΔK放进结果列表LTR中,作为第|LTR|优的查询松弛,|LTR|指结果列表LTR中存储的元素个数,进入S4;
S4,根据ΔK和调用Lawler过程得到的子空间,进入S5;
S5,在得到的每个子空间中采用最优结构排序查询松弛方法生成最优查询松弛Δi,将Δi和子空间作为二元组一起压入堆栈中,进入S2。
5.如权利要求4所述的方法,其特征在于,在最优结构排序查询松弛方法中,从每个列表Li中选取值最小的标签松弛δ,组合作为当前可行解空间中最优的查询松弛Δ,所述δ为标签松弛δ=l→l′,所述γQ(δ)为松弛比率,所述为通过处理标签在数据图中的候选匹配节点数目来衡量δ的松弛效果,越小的值表示松弛查询图更容易在数据图中找到匹配节点。
6.如权利要求2所述的方法,其特征在于,生成最优k个查询松弛的所述差异结构排序中,构建最大分散问题的权重完全图Gc,每个查询图Q的常数μ距离范围内的查询松弛Δ都对应于Gc中的一个节点uΔ,对于任意两个节点和其连接边的权重w(e)为其中,Δ是一个查询松弛,Q为查询图,U是Q的常数μ松弛距离内所有查询松弛的集合,ΘQ(Δ1,Δ2)为Δ1和Δ2的相似距离,用于衡量两个查询松弛之间松弛后属性标签的重合程度,其保证生成的属性标签松弛后的k个松弛查询图两两之间属性尽量少重合,从而k个松弛查询图在数据图中查询得到更多的不同的图匹配查询结果,是Γ(Q,Δ)的正规函数,所述Γ(Q,Δ)是结构排序的度量函数,λ∈[0,1]是用户输入的平衡参数,用于平衡控制松弛程度和差异程度,由Gc中k个节点构成的节点集合Vk构成的生成图所有边的权重和Wk为其中,Sk是Vk对应的Q的k个查询松弛,采用最大分散问题的解决方法可以得到Wk的最大值,即可以得到是Q的所有可能k个查询松弛集合中差异结构排序的度量函数的最小值,从而得到节点集合Vk,其对应的Q的k个查询松弛即为最优k个差异查询松弛集合。
7.如权利要求1所述的方法,其特征在于,所述基于批处理优化的语义图模拟图匹配查询的过程包括,构建最小匹配树,该树状结构将k个查询松弛按两两共享处理和层次迭代方式组织起来,并进行有界增量语义图模拟处理,有界增量语义图模拟处理基于所述最小匹配树的组织结构按共享处理方式自顶向下增量处理得到k个松弛查询图的匹配结果。
8.如权利要求1所述的方法,其特征在于,在所述溯源解释中,对于结构排序下生成的k个松弛查询图在数据图中查询得到的图匹配结果,线性扫描一遍k个松弛查询图在数据图中的k个图匹配查询结果;对于差异结构排序中生成的k个松弛查询图在数据图中查询得到的图匹配结果,为图匹配结果中匹配节点v提供溯源解释,采用参数设定方式,从k个查询松弛中找到元素数目最小的查询松弛Δj,使得并且所述i,j∈[1,k],Q为查询图,G为数据图,v为节点,为Q和Δ的松弛查询图,按cand(G,T)(l′)降序依次测试Δj中的标签松弛δ=l→l′,依次验证v是否属于如果验证为是,则从Δj中去掉δ,所述cand(G,T)(l′)是G中所有标签为l′及其子孙标签的节点,如果Δj\{δ}不属于k个查询松弛之一,则调用语义图模拟查询方法得到图匹配结果并进行累加计数,当测试完Δj中所有剩余的标签松弛或者已经处理达到M次语义图模拟查询处理,则返回Δj作为v和Δi的溯源解释。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710569486.4A CN107451210B (zh) | 2017-07-13 | 2017-07-13 | 一种基于查询松弛结果增强的图匹配查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710569486.4A CN107451210B (zh) | 2017-07-13 | 2017-07-13 | 一种基于查询松弛结果增强的图匹配查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107451210A true CN107451210A (zh) | 2017-12-08 |
CN107451210B CN107451210B (zh) | 2020-11-20 |
Family
ID=60488632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710569486.4A Active CN107451210B (zh) | 2017-07-13 | 2017-07-13 | 一种基于查询松弛结果增强的图匹配查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451210B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335120A (zh) * | 2018-03-07 | 2018-07-27 | 物数(上海)信息科技有限公司 | 基于区块链的资产溯源方法、装置、电子设备、存储介质 |
CN109492111A (zh) * | 2018-09-19 | 2019-03-19 | 平安科技(深圳)有限公司 | 最短路径查询方法、系统、计算机设备和存储介质 |
CN112559807A (zh) * | 2020-12-03 | 2021-03-26 | 浙江邦盛科技有限公司 | 一种基于多源点并行探索的图模式匹配方法 |
CN113254718A (zh) * | 2020-02-13 | 2021-08-13 | 南京大学 | 一种图数据上的语义关联搜索的查询松弛方法 |
CN113626678A (zh) * | 2020-05-06 | 2021-11-09 | 北京大学 | 基于动态次优最小生成树的知识图谱数据挖掘与推荐方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043866A (zh) * | 2011-01-25 | 2011-05-04 | 苏州普达新信息技术有限公司 | 基于表单特征的松弛搜索与优化排序方法 |
US8005817B1 (en) * | 2005-11-30 | 2011-08-23 | At&T Intellectual Property Ii, L.P. | System and method for providing structure and content scoring for XML |
CN105335524A (zh) * | 2015-11-27 | 2016-02-17 | 中国科学院自动化研究所 | 一种应用于大规模非规则结构数据的图搜索算法 |
CN105975488A (zh) * | 2016-04-25 | 2016-09-28 | 哈尔滨工程大学 | 一种关系数据库中基于主题类簇单元的关键词查询方法 |
CN106055653A (zh) * | 2016-06-01 | 2016-10-26 | 深圳市唯特视科技有限公司 | 基于图像语义注释的视频浓缩对象检索方法 |
-
2017
- 2017-07-13 CN CN201710569486.4A patent/CN107451210B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8005817B1 (en) * | 2005-11-30 | 2011-08-23 | At&T Intellectual Property Ii, L.P. | System and method for providing structure and content scoring for XML |
CN102043866A (zh) * | 2011-01-25 | 2011-05-04 | 苏州普达新信息技术有限公司 | 基于表单特征的松弛搜索与优化排序方法 |
CN105335524A (zh) * | 2015-11-27 | 2016-02-17 | 中国科学院自动化研究所 | 一种应用于大规模非规则结构数据的图搜索算法 |
CN105975488A (zh) * | 2016-04-25 | 2016-09-28 | 哈尔滨工程大学 | 一种关系数据库中基于主题类簇单元的关键词查询方法 |
CN106055653A (zh) * | 2016-06-01 | 2016-10-26 | 深圳市唯特视科技有限公司 | 基于图像语义注释的视频浓缩对象检索方法 |
Non-Patent Citations (2)
Title |
---|
欧伟杰 等: "基于概念松弛的高效Web服务查询方法", 《计算机学报》 * |
马帅 等: "大数据时代的图搜索技术", 《信息通信技术》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335120A (zh) * | 2018-03-07 | 2018-07-27 | 物数(上海)信息科技有限公司 | 基于区块链的资产溯源方法、装置、电子设备、存储介质 |
CN109492111A (zh) * | 2018-09-19 | 2019-03-19 | 平安科技(深圳)有限公司 | 最短路径查询方法、系统、计算机设备和存储介质 |
CN113254718A (zh) * | 2020-02-13 | 2021-08-13 | 南京大学 | 一种图数据上的语义关联搜索的查询松弛方法 |
CN113254718B (zh) * | 2020-02-13 | 2023-08-29 | 南京大学 | 一种图数据上的语义关联搜索的查询松弛方法 |
CN113626678A (zh) * | 2020-05-06 | 2021-11-09 | 北京大学 | 基于动态次优最小生成树的知识图谱数据挖掘与推荐方法 |
CN112559807A (zh) * | 2020-12-03 | 2021-03-26 | 浙江邦盛科技有限公司 | 一种基于多源点并行探索的图模式匹配方法 |
CN112559807B (zh) * | 2020-12-03 | 2022-06-21 | 浙江邦盛科技股份有限公司 | 一种基于多源点并行探索的图模式匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107451210B (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451210B (zh) | 一种基于查询松弛结果增强的图匹配查询方法 | |
Singh | Scalability and sparsity issues in recommender datasets: a survey | |
Tsitsulin et al. | Verse: Versatile graph embeddings from similarity measures | |
Shen et al. | Causally regularized learning with agnostic data selection bias | |
WO2019015246A1 (zh) | 图像特征获取 | |
CN104657744B (zh) | 一种基于非确定主动学习的多分类器训练方法及分类方法 | |
Olteanu et al. | On-line relational and multiple relational SOM | |
Ye et al. | Variable selection via penalized neural network: a drop-out-one loss approach | |
Liu et al. | Hierarchical adaptive pooling by capturing high-order dependency for graph representation learning | |
Seret et al. | A new knowledge-based constrained clustering approach: Theory and application in direct marketing | |
Nayyeri et al. | Soft marginal transe for scholarly knowledge graph completion | |
Chen et al. | DPM-IEDA: dual probabilistic model assisted interactive estimation of distribution algorithm for personalized search | |
CN112905906B (zh) | 一种融合局部协同与特征交叉的推荐方法及系统 | |
Tomasini et al. | A study on the relationship between internal and external validity indices applied to partitioning and density-based clustering algorithms | |
Bahrami et al. | Automatic image annotation using an evolutionary algorithm (IAGA) | |
CN107423759B (zh) | 低维逐次投影寻踪聚类模型综合评价方法、装置及应用 | |
Qayyum et al. | A survey on machine learning based requirement prioritization techniques | |
Han et al. | A generalization of recurrent neural networks for graph embedding | |
Kostovska et al. | Explainable model-specific algorithm selection for multi-label classification | |
Grando et al. | Computing vertex centrality measures in massive real networks with a neural learning model | |
Russell et al. | upclass: An R Package for Updating Model-Based Classification Rules | |
Ibrahim et al. | Recommender systems: algorithms, evaluation and limitations | |
Liu et al. | HyperS2V: A Framework for Structural Representation of Nodes in Hyper Networks | |
Ameen et al. | Graph Attention Network for Movie Recommendation. | |
Tao et al. | Improved conditional dependency networks for multi-label classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |