CN109408527B - 一种基于向量空间的rdf结构化查询自动构建方法 - Google Patents

一种基于向量空间的rdf结构化查询自动构建方法 Download PDF

Info

Publication number
CN109408527B
CN109408527B CN201811197729.7A CN201811197729A CN109408527B CN 109408527 B CN109408527 B CN 109408527B CN 201811197729 A CN201811197729 A CN 201811197729A CN 109408527 B CN109408527 B CN 109408527B
Authority
CN
China
Prior art keywords
rdf
node
graph
nodes
edges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811197729.7A
Other languages
English (en)
Other versions
CN109408527A (zh
Inventor
王瑞杰
刘均
王萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY
Original Assignee
GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY filed Critical GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY
Priority to CN201811197729.7A priority Critical patent/CN109408527B/zh
Publication of CN109408527A publication Critical patent/CN109408527A/zh
Application granted granted Critical
Publication of CN109408527B publication Critical patent/CN109408527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于向量空间的RDF结构化查询自动构建方法,利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示;在给定通过自然语言问题表达的查询意图后,提取问题中的实体、关系短语,并将它们在RDF图中匹配得到候选匹配节点、边;然后,利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构;最后利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询。通过对RDF图向量表示的利用,查询构建的效率得到了大大提高;同时可以避免在确定结构过程中对实体与关系短语进行精确的匹配,提高了匹配的召回率;在最后的查询生成过程中,翻译机制也保证了所生成查询与RDF图的一致性。

Description

一种基于向量空间的RDF结构化查询自动构建方法
技术领域
本发明属于基于RDF数据自动回答自然语言问题技术领域,具体涉及一种基于向量空间的RDF结构化查询自动构建方法。
背景技术
RDF全称为资源描述框架(Resource Description Framework),是国际互联网协会(W3C)推荐的一种发布、分享和连接互联网上各类数据资源的标准规范。近年来,越来越多的大规模RDF图数据,例如DBpedia和Wikidata,被发布在了互联网上。大规模RDF图中包含了丰富的信息。目前,对RDF图进行查询的主要方法是使用结构化的查询语言,例如SPARQL和GraphQL。然而,结构化查询语言的语法规则较为复杂,且在使用时要求用户对RDF图的结构与模式有着精确的认识。这大大阻碍了普通用户对RDF数据的利用,也不利于RDF数据的发展。因此,怎样将用户使用自然语言表达的查询意图自动地转换为可以直接在RDF图中进行查询的结构化查询成为了近年来的研究热点。
现有存在问题如下:
1)首先其针对的是用户输入的关键字,而在很多情况下关键字并不能清楚地表达用户的查询意图,例如:如果用户想查询“奥巴马的妻子的母校是什么?”,那么如果只输入关键词“奥巴马”、“妻子”、“母校”的话,就无法确定用户是想查询“奥巴马的母校”还是“妻子的母校”。而本专利针对的是自然语言问题,因此适用范围更加广范,查询结果更加精确;
2)上述专利是基于传统图论的方法搜索子图并生成SPARQL查询的,如果应用于规模巨大的RDF图,其效率将会变得非常低。而本专利是基于离线过程中学习得到的向量表示进行的,结构化查询的构建主要是数值运算过程,因此效率更高。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于向量空间的RDF结构化查询自动构建方法,以离线过程中学习得到的RDF图的向量表示为基础,通过数值运算的方式高效准确地根据输入的自然语言问题构建结构化查询。
本发明采用以下技术方案:
一种基于向量空间的RDF结构化查询自动构建方法,首先利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示;然后给定通过自然语言问题表达的查询意图后,提取问题中的实体、关系短语,并在RDF图中匹配得到候选匹配节点、边;再利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构;最后利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询。
具体的,利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示具体包括以下步骤:
S101、设
Figure BDA0001829223700000021
为RDF图中节点的集合,ε为RDF图中边的集合;一条RDF三元组为(vh,e,vt),其中,
Figure BDA0001829223700000022
即头节点vh由边e指向尾节点vt,一个RDF图
Figure BDA0001829223700000023
是RDF三元组的有限集合;
S102、对于RDF图
Figure BDA0001829223700000024
中的一个节点
Figure BDA0001829223700000025
其局部子图为三元组集合如下:
Figure BDA0001829223700000026
对于RDF图中的一个边e∈ε,其局部子图为:
Figure BDA0001829223700000027
S103、对于RDF图中的一个实体节点
Figure BDA0001829223700000028
其概括局部子图如下:
Figure BDA0001829223700000029
其中,vc'为实体节点v'e所对应的类别节点;
S104、对于RDF图中的每一个节点v与边e,利用其概括局部子图学习其在连续向量空间中的向量表示,即v与e;该学习过程在离线阶段完成,学习得到的向量表示在后续在线的RDF结构化查询构建中直接使用。
进一步的,步骤S103中,对于RDF图中的一个类别节点
Figure BDA0001829223700000031
其概括局部子图为:
Figure BDA0001829223700000032
其中,vc为实体节点ve所对应的类别节点;
对于RDF图中的一个边e∈ε,其概括局部子图为:
Figure BDA0001829223700000033
其中,vc,vc'为实体节点ve,ve'所对应的类别节点。
进一步的,步骤S104中,在分别给定节点v与边e的概括局部子图
Figure BDA0001829223700000034
Figure BDA0001829223700000035
的条件下,定义得到节点v与边e的条件概率,通过最大化RDF图中所有节点与边的联合概率,学习得到RDF图的向量表示;
节点v的条件概率如下:
Figure BDA0001829223700000036
其中,
Figure BDA0001829223700000037
是一个用于度量节点v′与概括局部子图
Figure BDA0001829223700000038
之间相互关系的函数;
RDF图中节点的向量表示通过最大化以下联合概率得到:
Figure BDA0001829223700000039
边e的条件概率如下:
Figure BDA00018292237000000310
其中,
Figure BDA00018292237000000311
是一个用于度量节点e′与概括局部子图
Figure BDA00018292237000000312
之间相互关系的函数;
RDF图中边的向量表示通过最大化以下联合概率得到:
Figure BDA0001829223700000041
同时考虑节点与边的联合概率,通过最大化目标函数得到RDF图的向量表示如下:
O=λvOveOe
其中,λv与λe为权值系数。
具体的,提取问题中的实体、关系短语,并在RDF图中匹配得到候选匹配节点、边的步骤如下:
S201、给定表达查询意图的自然语言问题Q,提取实体短语{ent1,ent2,...,entn}与关系短语{rel1,rel2,...,relm};
S202、将每一个实体/关系短语映射到RDF图中,得到其候选匹配节点/边的集合。
进一步的,步骤S202中,对于实体短语ent1,其候选匹配节点的集合表示为
Figure BDA0001829223700000042
对于关系短语rel1,其候选匹配节边的集合表示为
Figure BDA0001829223700000043
问题Q所有的候选匹配节点/边集合表示为
Figure BDA0001829223700000044
Figure BDA0001829223700000045
具体的,利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构包括以下步骤:
S301、利用学习得到的RDF向量表示计算每个候选匹配节点集合Cv以及候选匹配边集合Ce的向量表示;
S302、将每个候选匹配节点集合与候选匹配边集合分别看作一个节点与一个边,构建所有可能的目标查询的结构表示;
S303、基于翻译机制,计算每个结构矩阵的损失值如下:
Figure BDA0001829223700000046
如果结构矩阵MS'的损失值f3(MS')最小,则结构矩阵MS'表示最优的目标查询结构。
进一步的,步骤S302中,给定候选匹配节点/边集合
Figure BDA0001829223700000047
Figure BDA0001829223700000048
以结构矩阵来表示一种结构如下:
Figure BDA0001829223700000051
对于MS中的每个元素mi,j,如果mi,j=k,则表示候选匹配节点集合
Figure BDA0001829223700000052
通过候选匹配边集合
Figure BDA0001829223700000053
连接到了候选匹配节点集合
Figure BDA0001829223700000054
如果mi,j=0,则
Figure BDA0001829223700000055
Figure BDA0001829223700000056
之间不存在边;
结构矩阵满足条件如下:
如果i=j,则mi,j=0;如果mi,j>0,则mj,i=0;MS中非零元素的数量为m;对于一个整数α,如果0<α<n+1,则
Figure BDA0001829223700000057
对于一个整数β,如果0<β<m+1,MS中存在元素mi,j=β。
具体的,利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询包括以下步骤:
S401、基于计算得到的最优结构,通过从每个候选匹配节点/边集合中选取一个节点/边可以构建多个可能的结构化查询表示QR
S402、对于每个可能的结构化查询表示,在此计算其损失值f4(QR);
S403、损失值最小的结构化查询表示为最优的,将其中的类别节点替换为变量,并将变量通过表示类别的边指向原本的类别节点,得到自然语言问题所对应的RDF结构化查询。
进一步的,多个可能的结构化查询表示QR表示如下:
Figure BDA0001829223700000058
损失值f4(QR)表示如下:
Figure BDA0001829223700000059
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于向量空间的RDF结构化查询自动构建方法,首先在线下将大规模RDF图映射到向量空间中,目的在于获得RDF图中节点与边的向量表示,从而可以在结构化查询的构建过程中以更高效的数值计算代替传统的图算法。线上过程中,在给定由自然语言问题表达的查询意图后,本发明首先对自然语言问题中的实体短语与关系短语进行匹配,目的在于获得目标结构化查询的构成节点与边;然后,将每个短语的匹配结果表示为一个向量并计算目标查询的结构,提高了确定结构过程的效率;最后,基于计算得到的最优结构,利用翻译机制生成目标结构化查询;这一过程保证了最优候选匹配节点与边的选择是全局最优的,同时通过数值计算也缩短了产生最终结构化查询的时间消耗。
进一步的,在RDF图向量表示的学习过程中考虑概括局部信息,使得同一个实体或关系短语所对应的候选匹配节点或边在向量空间中较为接近,同时保留了翻译机制。
进一步的,首先定义RDF图中节点与边的局部子图,在此基础上定义概括局部子图,为RDF图向量表示的学习提供概括局部信息。
进一步的,通过最大化RDF图中所有节点与边的联合概率,学习得到RDF图的向量表示,学习到的向量表示将应用在结构化查询的构建过程中。
进一步的,在RDF图中对自然语言问题中的实体与关系短语进行匹配,得到候选匹配节点与边。
进一步的,将每个实体与关系短语对应的候选匹配节点与边表示为一个向量,然后利用翻译机制计算目标结构化查询的结构,避免了在确定结构中进行精确的短语匹配,大大提高了效率与召回率。
进一步的,在确定目标查询的结构后,利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询。该过程主要为数值计算,效率高,且产生的结果为全局最优。同时,翻译机制保证了产生的结构化查询与RDF图的一致性。
综上所述,本发明能够解决如何基于自然语言问题所表达的查询意图自动生成RDF结构化查询的问题。其结构化查询的在线构建过程是基于在离线过程中学习到的RDF图的向量表示。一方面,查询构建的效率得到了大大提高;另一方面,本发明避免了在确定结构过程中对实体与关系短语进行精确的匹配,提高了匹配的召回率;最后,本发明基于翻译机制生成最终查询,保证了所生成查询与RDF图的一致性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实例中所述方法的框架图;
图2为本发明实例中所述RDF结构化查询生成的线上过程示意图;
图3为本发明实例中所述最优匹配节点、边选择与目标查询生成过程。
具体实施方式
本发明提供了一种基于向量空间的RDF结构化查询自动构建方法,首先利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示;然后给定通过自然语言问题表达的查询意图后,首先提取问题中的实体、关系短语,并将它们在RDF图中匹配得到候选匹配节点、边;再利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构;最后利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询。
请参阅图1,本发明一种基于向量空间的RDF结构化查询自动构建方法,包括以下步骤:
S1、定义RDF图中节点与边的局部子图,基于此分析得到节点与边的概括局部子图,利用概括局部子图表达的信息将RDF图映射到连续低维向量空间中,生成RDF图中节点与边的向量表示;
S101、设
Figure BDA0001829223700000071
为RDF图中节点的集合,ε为RDF图中边的集合;一条RDF三元组为(vh,e,vt),其中,
Figure BDA0001829223700000081
即头节点vh由边e指向尾节点vt,一个RDF图
Figure BDA0001829223700000082
是RDF三元组的有限集合;
本申请将RDF图中的节点分为两类,即实体节点与类型节点,每个实体节点
Figure BDA0001829223700000083
代表了一个确定的实体,而每个类别节点
Figure BDA0001829223700000084
代表了一类实体节点所属的类别。
S102、对于RDF图
Figure BDA0001829223700000085
中的一个节点
Figure BDA0001829223700000086
其局部子图为三元组集合如下:
Figure BDA0001829223700000087
对于RDF图中的一个边e∈ε,其局部子图为
Figure BDA0001829223700000088
S103、对于RDF图中的一个实体节点
Figure BDA0001829223700000089
其概括局部子图如下:
Figure BDA00018292237000000810
其中,vc'为实体节点v'e所对应的类别节点;
对于RDF图中的一个类别节点
Figure BDA00018292237000000811
其概括局部子图为:
Figure BDA00018292237000000812
其中,vc为实体节点ve所对应的类别节点;
对于RDF图中的一个边e∈ε,其概括局部子图为:
Figure BDA00018292237000000813
其中,vc,vc'为实体节点ve,ve'所对应的类别节点。
S104、对于RDF图中的每一个节点v与边e,利用其概括局部子图学习其在连续向量空间中的向量表示,即v与e;该学习过程在离线阶段完成,学习得到的向量表示在后续在线的RDF结构化查询构建中可以直接使用无需更多的更改,本步骤具体过程如下:
对于同一个实体/关系短语所对应的候选匹配节点/边来说,它们的概括局部子图通常包含了相似的信息;在分别给定节点v与边e的概括局部子图
Figure BDA00018292237000000814
Figure BDA00018292237000000815
的条件下,定义得到节点v与边e的条件概率,通过最大化RDF图中所有节点与边的联合概率,学习得到RDF图的向量表示。
节点v的条件概率如下:
Figure BDA0001829223700000091
式中,
Figure BDA0001829223700000092
是一个用于度量节点v′与概括局部子图
Figure BDA0001829223700000093
之间相互关系的函数,定义如下:
Figure BDA0001829223700000094
式中,
Figure BDA0001829223700000095
Figure BDA0001829223700000096
中三元组的个数;
RDF图中节点的向量表示可以通过最大化以下联合概率得到:
Figure BDA0001829223700000097
边e的条件概率如下:
Figure BDA0001829223700000098
式中,
Figure BDA0001829223700000099
是一个用于度量节点e′与概括局部子图
Figure BDA00018292237000000910
之间相互关系的函数,定义如下:
Figure BDA00018292237000000911
式中,
Figure BDA00018292237000000912
Figure BDA00018292237000000913
中三元组的个数;
RDF图中边的向量表示可以通过最大化以下联合概率得到:
Figure BDA00018292237000000914
同时考虑节点与边的联合概率,通过最大化一下目标函数得到RDF图的向量表示:
O=λvOveOe
式中,λv与λe为权值系数。
考虑到RDF图的规模巨大,直接计算以上联合概率将是费时甚至不切实际的,在此可以基于负采样进行估算。
以节点v的条件概率为例,可通过以下公式估算:
Figure BDA0001829223700000101
式中,n为负例的数量,σ(·)为sigmoid函数,v'为从负例节点集合
Figure BDA0001829223700000102
中抽样得到的负例节点,且对于任意
Figure BDA0001829223700000103
要求
Figure BDA0001829223700000104
S2、给定由自然语言问题表达的查询意图,对该自然语言问题进行分析,提取自然语言问题中的实体短语和关系短语;然后,在RDF图中对实体短语和关系短语进行匹配,得到每个实体短语可能对应的节点以及每个关系短语可能对应的边,即候选匹配节点与候选匹配边,如图2所示;
S201、给定表达查询意图的自然语言问题Q,首先从中提取实体短语{ent1,ent2,...,entn}与关系短语{rel1,rel2,...,relm};
每个实体短语将对应于结构化查询中的一个节点或变量,而每个关系短语将对应于结构化查询中的一条边;
S202、将每一个实体/关系短语映射到RDF图中,得到其候选匹配节点/边的集合;
对于实体短语ent1其候选匹配节点的集合表示为
Figure BDA0001829223700000105
对于关系短语rel1,其候选匹配节边的集合表示为
Figure BDA0001829223700000106
问题Q所有的候选匹配节点/边集合可以表示为
Figure BDA0001829223700000107
Figure BDA0001829223700000108
S3、利用RDF图在连续向量空间中的表示,将每个实体/关系短语所对应的多个候选匹配节点/边表示为一个连续向量。然后利用翻译机制,计算得到目标RDF结构化查询的最优结构,如图2所示;
S301、利用学习得到的RDF向量表示计算每个候选匹配节点集合Cv以及候选匹配边集合Ce的向量表示,如下所示:
Figure BDA0001829223700000111
Figure BDA0001829223700000112
S302、将每个候选匹配节点集合与候选匹配边集合分别看作一个节点与一个边,构建所有可能的目标查询的结构表示;
给定候选匹配节点/边集合
Figure BDA0001829223700000113
Figure BDA0001829223700000114
在此以结构矩阵来表示一种结构,如下所示:
Figure BDA0001829223700000115
对于MS中的每个元素mi,j,如果mi,j=k,则表示候选匹配节点集合
Figure BDA0001829223700000116
通过候选匹配边集合
Figure BDA0001829223700000117
连接到了候选匹配节点集合
Figure BDA0001829223700000118
而如果mi,j=0,则
Figure BDA0001829223700000119
Figure BDA00018292237000001110
之间不存在边。
结构矩阵应满足以下条件:
1)如果i=j,则mi,j=0;
2)如果mi,j>0,则mj,i=0
3)MS中非零元素的数量为m;
4)对于一个整数α,如果0<α<n+1,则
Figure BDA00018292237000001111
5)对于一个整数β,如果0<β<m+1,MS中存在元素mi,j=β;
S303、基于翻译机制,计算每个结构矩阵的损失值,如下所示:
Figure BDA00018292237000001112
对于结构矩阵MS',如果其损失值f3(MS')最小,则MS'即表示了最优的目标查询结构。
S4、基于计算得到的最优结构以及翻译机制,在向量空间中计算得到每个实体/关系短语所对应的最优匹配节点/边;再将最优匹配节点中的类型节点替换为变量后生成目标RDF结构化查询,如图3所示。
S401、基于计算得到的最优结构,通过从每个候选匹配节点/边集合中选取一个节点/边可以构建多个可能的结构化查询表示,表示如下:
Figure BDA0001829223700000121
S402、对于每个可能的结构化查询表示,在此计算其损失值,如下:
Figure BDA0001829223700000122
S403、损失值最小的结构化查询表示即为最优的,将其中的类别节点替换为变量,并将变量通过表示类别的边指向原本的类别节点,即可以得到自然语言问题所对应的RDF结构化查询。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (7)

1.一种基于向量空间的RDF结构化查询自动构建方法,其特征在于,首先利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示;然后给定通过自然语言问题表达的查询意图后,提取问题中的实体、关系短语,并在RDF图中匹配得到候选匹配节点、边;再利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构;最后利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询;
利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示具体包括以下步骤:
S101、设
Figure FDA0002720647300000011
为RDF图中节点的集合,ε为RDF图中边的集合;一条RDF三元组为(vh,e,vt),其中,
Figure FDA0002720647300000012
即头节点vh由边e指向尾节点vt,一个RDF图
Figure FDA0002720647300000013
是RDF三元组的有限集合;
S102、对于RDF图
Figure FDA0002720647300000014
中的一个节点
Figure FDA0002720647300000015
其局部子图为三元组集合如下:
Figure FDA0002720647300000016
对于RDF图中的一个边e∈ε,其局部子图为:
Figure FDA0002720647300000017
S103、对于RDF图中的一个实体节点
Figure FDA0002720647300000018
其概括局部子图如下:
Figure FDA0002720647300000019
其中,vc'为实体节点v'e所对应的类别节点;
S104、对于RDF图中的每一个节点v与边e,利用其概括局部子图学习其在连续向量空间中的向量表示,即v与e;该学习过程在离线阶段完成,学习得到的向量表示在后续在线的RDF结构化查询构建中直接使用;
利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询包括以下步骤:
S401、基于计算得到的最优结构,通过从每个候选匹配节点/边集合中选取一个节点/边可以构建多个可能的结构化查询表示QR
S402、对于每个可能的结构化查询表示,在此计算其损失值f4(QR);
S403、损失值最小的结构化查询表示为最优的,将其中的类别节点替换为变量,并将变量通过表示类别的边指向原本的类别节点,得到自然语言问题所对应的RDF结构化查询,多个可能的结构化查询表示QR表示如下:
Figure FDA0002720647300000021
损失值f4(QR)表示如下:
Figure FDA0002720647300000022
2.根据权利要求1所述的基于向量空间的RDF结构化查询自动构建方法,其特征在于,步骤S103中,对于RDF图中的一个类别节点
Figure FDA0002720647300000023
其概括局部子图为:
Figure FDA0002720647300000024
其中,vc为实体节点ve所对应的类别节点;
对于RDF图中的一个边e∈ε,其概括局部子图为:
Figure FDA0002720647300000025
其中,vc,vc'为实体节点ve,ve'所对应的类别节点。
3.根据权利要求2所述的基于向量空间的RDF结构化查询自动构建方法,其特征在于,步骤S104中,在分别给定节点v与边e的概括局部子图
Figure FDA0002720647300000026
Figure FDA0002720647300000027
的条件下,定义得到节点v与边e的条件概率,通过最大化RDF图中所有节点与边的联合概率,学习得到RDF图的向量表示;
节点v的条件概率如下:
Figure FDA0002720647300000031
其中,
Figure FDA0002720647300000032
是一个用于度量节点v′与概括局部子图
Figure FDA0002720647300000033
之间相互关系的函数;
RDF图中节点的向量表示通过最大化以下联合概率得到:
Figure FDA0002720647300000034
边e的条件概率如下:
Figure FDA0002720647300000035
其中,
Figure FDA0002720647300000036
是一个用于度量节点e′与概括局部子图
Figure FDA0002720647300000037
之间相互关系的函数;
RDF图中边的向量表示通过最大化以下联合概率得到:
Figure FDA0002720647300000038
同时考虑节点与边的联合概率,通过最大化目标函数得到RDF图的向量表示如下:
O=λvOveOe
其中,λv与λe为权值系数。
4.根据权利要求1所述的基于向量空间的RDF结构化查询自动构建方法,其特征在于,提取问题中的实体、关系短语,并在RDF图中匹配得到候选匹配节点、边的步骤如下:
S201、给定表达查询意图的自然语言问题Q,提取实体短语{ent1,ent2,...,entn}与关系短语{rel1,rel2,...,relm};
S202、将每一个实体/关系短语映射到RDF图中,得到其候选匹配节点/边的集合。
5.根据权利要求4所述的基于向量空间的RDF结构化查询自动构建方法,其特征在于,步骤S202中,对于实体短语ent1,其候选匹配节点的集合表示为
Figure FDA0002720647300000039
对于关系短语rel1,其候选匹配节边的集合表示为
Figure FDA00027206473000000310
问题Q所有的候选匹配节点/边集合表示为
Figure FDA00027206473000000311
Figure FDA0002720647300000041
6.根据权利要求1所述的基于向量空间的RDF结构化查询自动构建方法,其特征在于,利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构包括以下步骤:
S301、利用学习得到的RDF向量表示计算每个候选匹配节点集合Cv以及候选匹配边集合Ce的向量表示;
S302、将每个候选匹配节点集合与候选匹配边集合分别看作一个节点与一个边,构建所有可能的目标查询的结构表示;
S303、基于翻译机制,计算每个结构矩阵的损失值如下:
Figure FDA0002720647300000042
如果结构矩阵MS'的损失值f3(MS')最小,则结构矩阵MS'表示最优的目标查询结构。
7.根据权利要求6所述的基于向量空间的RDF结构化查询自动构建方法,其特征在于,步骤S302中,给定候选匹配节点/边集合
Figure FDA0002720647300000043
Figure FDA0002720647300000044
以结构矩阵来表示一种结构如下:
Figure FDA0002720647300000045
对于MS中的每个元素mi,j,如果mi,j=k,则表示候选匹配节点集合
Figure FDA0002720647300000046
通过候选匹配边集合
Figure FDA0002720647300000047
连接到了候选匹配节点集合
Figure FDA0002720647300000048
如果mi,j=0,则
Figure FDA0002720647300000049
Figure FDA00027206473000000410
之间不存在边;
结构矩阵满足条件如下:
如果i=j,则mi,j=0;如果mi,j>0,则mj,i=0;MS中非零元素的数量为m;对于一个整数α,如果0<α<n+1,则
Figure FDA00027206473000000411
对于一个整数β,如果0<β<m+1,MS中存在元素mi,j=β。
CN201811197729.7A 2018-10-15 2018-10-15 一种基于向量空间的rdf结构化查询自动构建方法 Active CN109408527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811197729.7A CN109408527B (zh) 2018-10-15 2018-10-15 一种基于向量空间的rdf结构化查询自动构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811197729.7A CN109408527B (zh) 2018-10-15 2018-10-15 一种基于向量空间的rdf结构化查询自动构建方法

Publications (2)

Publication Number Publication Date
CN109408527A CN109408527A (zh) 2019-03-01
CN109408527B true CN109408527B (zh) 2020-12-01

Family

ID=65467239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811197729.7A Active CN109408527B (zh) 2018-10-15 2018-10-15 一种基于向量空间的rdf结构化查询自动构建方法

Country Status (1)

Country Link
CN (1) CN109408527B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304213B (zh) * 2023-03-20 2024-03-19 中国地质大学(武汉) 基于图神经网络的rdf图数据库子图匹配查询优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156431A (zh) * 2014-08-08 2014-11-19 西安交通大学 一种基于实体图社团结构的rdf关键词查询方法
CN107193882A (zh) * 2017-04-27 2017-09-22 东南大学 RDF数据上基于图匹配的why‑not查询回答方法
CN108052547A (zh) * 2017-11-27 2018-05-18 华中科技大学 基于问句和知识图结构分析的自然语言问答方法及系统
CN108153736A (zh) * 2017-12-28 2018-06-12 南开大学 一种基于向量空间模型的关系词映射方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235637B2 (en) * 2015-08-28 2019-03-19 Salesforce.Com, Inc. Generating feature vectors from RDF graphs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156431A (zh) * 2014-08-08 2014-11-19 西安交通大学 一种基于实体图社团结构的rdf关键词查询方法
CN107193882A (zh) * 2017-04-27 2017-09-22 东南大学 RDF数据上基于图匹配的why‑not查询回答方法
CN108052547A (zh) * 2017-11-27 2018-05-18 华中科技大学 基于问句和知识图结构分析的自然语言问答方法及系统
CN108153736A (zh) * 2017-12-28 2018-06-12 南开大学 一种基于向量空间模型的关系词映射方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
个性化搜索引擎;张亮等;《计算机工程》;20060930;第32卷(第18期);第202-205页 *

Also Published As

Publication number Publication date
CN109408527A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
Wu et al. Distributed linguistic representations in decision making: Taxonomy, key elements and applications, and challenges in data science and explainable artificial intelligence
Deng et al. Attention-based BiLSTM fused CNN with gating mechanism model for Chinese long text classification
CN113010547B (zh) 一种基于图神经网络的数据库查询优化方法及系统
CN111274267A (zh) 一种数据库查询方法、装置及计算机可读取存储介质
WO2023272748A1 (zh) 一种面向学术精准推荐的异质科研信息集成方法及系统
CN115438197B (zh) 一种基于双层异质图的事理知识图谱关系补全方法及系统
Xia et al. Iterative rule-guided reasoning over sparse knowledge graphs with deep reinforcement learning
CN115511119A (zh) 基于知识图谱和贝叶斯的供热系统智能诊断方法及系统
Koo et al. A semantic framework for enabling model integration for biorefining
CN109408527B (zh) 一种基于向量空间的rdf结构化查询自动构建方法
Liu et al. Cross-media intelligent perception and retrieval analysis application technology based on deep learning education
Ding et al. A Knowledge-Enriched and Span-Based Network for Joint Entity and Relation Extraction.
Wu et al. A novel topic clustering algorithm based on graph neural network for question topic diversity
Khanam et al. A Web Service Discovery Scheme Based on Structural and Semantic Similarity.
Wei et al. Joint semantic embedding with structural knowledge and entity description for knowledge representation learning
CN116450827A (zh) 一种基于大规模语言模型的事件模板归纳方法和系统
WO2022271369A1 (en) Training of an object linking model
Wu et al. Text-enhanced knowledge graph representation model in hyperbolic space
Huang et al. A chinese named entity recognition method for small-scale dataset based on lexicon and unlabeled data
Shen et al. SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation
Wang et al. A review of entity alignment based on graph convolutional neural network
Huang et al. Design knowledge graph-aided conceptual product design approach based on joint entity and relation extraction
Gonçalves et al. $\Upsilon $-DB: A system for data-driven hypothesis management and analytics
Li et al. Joint inter-word and inter-sentence multi-relation modeling for summary-based recommender system
Xue et al. Sensor ontology metamatching with heterogeneity measures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant