CN109408527B - 一种基于向量空间的rdf结构化查询自动构建方法 - Google Patents
一种基于向量空间的rdf结构化查询自动构建方法 Download PDFInfo
- Publication number
- CN109408527B CN109408527B CN201811197729.7A CN201811197729A CN109408527B CN 109408527 B CN109408527 B CN 109408527B CN 201811197729 A CN201811197729 A CN 201811197729A CN 109408527 B CN109408527 B CN 109408527B
- Authority
- CN
- China
- Prior art keywords
- rdf
- node
- graph
- nodes
- edges
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000013598 vector Substances 0.000 title claims abstract description 85
- 238000010276 construction Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000013519 translation Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 241001235534 Graphis <ascomycete fungus> Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于向量空间的RDF结构化查询自动构建方法,利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示;在给定通过自然语言问题表达的查询意图后,提取问题中的实体、关系短语,并将它们在RDF图中匹配得到候选匹配节点、边;然后,利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构;最后利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询。通过对RDF图向量表示的利用,查询构建的效率得到了大大提高;同时可以避免在确定结构过程中对实体与关系短语进行精确的匹配,提高了匹配的召回率;在最后的查询生成过程中,翻译机制也保证了所生成查询与RDF图的一致性。
Description
技术领域
本发明属于基于RDF数据自动回答自然语言问题技术领域,具体涉及一种基于向量空间的RDF结构化查询自动构建方法。
背景技术
RDF全称为资源描述框架(Resource Description Framework),是国际互联网协会(W3C)推荐的一种发布、分享和连接互联网上各类数据资源的标准规范。近年来,越来越多的大规模RDF图数据,例如DBpedia和Wikidata,被发布在了互联网上。大规模RDF图中包含了丰富的信息。目前,对RDF图进行查询的主要方法是使用结构化的查询语言,例如SPARQL和GraphQL。然而,结构化查询语言的语法规则较为复杂,且在使用时要求用户对RDF图的结构与模式有着精确的认识。这大大阻碍了普通用户对RDF数据的利用,也不利于RDF数据的发展。因此,怎样将用户使用自然语言表达的查询意图自动地转换为可以直接在RDF图中进行查询的结构化查询成为了近年来的研究热点。
现有存在问题如下:
1)首先其针对的是用户输入的关键字,而在很多情况下关键字并不能清楚地表达用户的查询意图,例如:如果用户想查询“奥巴马的妻子的母校是什么?”,那么如果只输入关键词“奥巴马”、“妻子”、“母校”的话,就无法确定用户是想查询“奥巴马的母校”还是“妻子的母校”。而本专利针对的是自然语言问题,因此适用范围更加广范,查询结果更加精确;
2)上述专利是基于传统图论的方法搜索子图并生成SPARQL查询的,如果应用于规模巨大的RDF图,其效率将会变得非常低。而本专利是基于离线过程中学习得到的向量表示进行的,结构化查询的构建主要是数值运算过程,因此效率更高。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于向量空间的RDF结构化查询自动构建方法,以离线过程中学习得到的RDF图的向量表示为基础,通过数值运算的方式高效准确地根据输入的自然语言问题构建结构化查询。
本发明采用以下技术方案:
一种基于向量空间的RDF结构化查询自动构建方法,首先利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示;然后给定通过自然语言问题表达的查询意图后,提取问题中的实体、关系短语,并在RDF图中匹配得到候选匹配节点、边;再利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构;最后利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询。
具体的,利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示具体包括以下步骤:
对于RDF图中的一个边e∈ε,其局部子图为:
其中,vc'为实体节点v'e所对应的类别节点;
S104、对于RDF图中的每一个节点v与边e,利用其概括局部子图学习其在连续向量空间中的向量表示,即v与e;该学习过程在离线阶段完成,学习得到的向量表示在后续在线的RDF结构化查询构建中直接使用。
其中,vc为实体节点ve所对应的类别节点;
对于RDF图中的一个边e∈ε,其概括局部子图为:
其中,vc,vc'为实体节点ve,ve'所对应的类别节点。
节点v的条件概率如下:
RDF图中节点的向量表示通过最大化以下联合概率得到:
边e的条件概率如下:
RDF图中边的向量表示通过最大化以下联合概率得到:
同时考虑节点与边的联合概率,通过最大化目标函数得到RDF图的向量表示如下:
O=λvOv+λeOe
其中,λv与λe为权值系数。
具体的,提取问题中的实体、关系短语,并在RDF图中匹配得到候选匹配节点、边的步骤如下:
S201、给定表达查询意图的自然语言问题Q,提取实体短语{ent1,ent2,...,entn}与关系短语{rel1,rel2,...,relm};
S202、将每一个实体/关系短语映射到RDF图中,得到其候选匹配节点/边的集合。
具体的,利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构包括以下步骤:
S301、利用学习得到的RDF向量表示计算每个候选匹配节点集合Cv以及候选匹配边集合Ce的向量表示;
S302、将每个候选匹配节点集合与候选匹配边集合分别看作一个节点与一个边,构建所有可能的目标查询的结构表示;
S303、基于翻译机制,计算每个结构矩阵的损失值如下:
如果结构矩阵MS'的损失值f3(MS')最小,则结构矩阵MS'表示最优的目标查询结构。
结构矩阵满足条件如下:
具体的,利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询包括以下步骤:
S401、基于计算得到的最优结构,通过从每个候选匹配节点/边集合中选取一个节点/边可以构建多个可能的结构化查询表示QR;
S402、对于每个可能的结构化查询表示,在此计算其损失值f4(QR);
S403、损失值最小的结构化查询表示为最优的,将其中的类别节点替换为变量,并将变量通过表示类别的边指向原本的类别节点,得到自然语言问题所对应的RDF结构化查询。
进一步的,多个可能的结构化查询表示QR表示如下:
损失值f4(QR)表示如下:
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于向量空间的RDF结构化查询自动构建方法,首先在线下将大规模RDF图映射到向量空间中,目的在于获得RDF图中节点与边的向量表示,从而可以在结构化查询的构建过程中以更高效的数值计算代替传统的图算法。线上过程中,在给定由自然语言问题表达的查询意图后,本发明首先对自然语言问题中的实体短语与关系短语进行匹配,目的在于获得目标结构化查询的构成节点与边;然后,将每个短语的匹配结果表示为一个向量并计算目标查询的结构,提高了确定结构过程的效率;最后,基于计算得到的最优结构,利用翻译机制生成目标结构化查询;这一过程保证了最优候选匹配节点与边的选择是全局最优的,同时通过数值计算也缩短了产生最终结构化查询的时间消耗。
进一步的,在RDF图向量表示的学习过程中考虑概括局部信息,使得同一个实体或关系短语所对应的候选匹配节点或边在向量空间中较为接近,同时保留了翻译机制。
进一步的,首先定义RDF图中节点与边的局部子图,在此基础上定义概括局部子图,为RDF图向量表示的学习提供概括局部信息。
进一步的,通过最大化RDF图中所有节点与边的联合概率,学习得到RDF图的向量表示,学习到的向量表示将应用在结构化查询的构建过程中。
进一步的,在RDF图中对自然语言问题中的实体与关系短语进行匹配,得到候选匹配节点与边。
进一步的,将每个实体与关系短语对应的候选匹配节点与边表示为一个向量,然后利用翻译机制计算目标结构化查询的结构,避免了在确定结构中进行精确的短语匹配,大大提高了效率与召回率。
进一步的,在确定目标查询的结构后,利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询。该过程主要为数值计算,效率高,且产生的结果为全局最优。同时,翻译机制保证了产生的结构化查询与RDF图的一致性。
综上所述,本发明能够解决如何基于自然语言问题所表达的查询意图自动生成RDF结构化查询的问题。其结构化查询的在线构建过程是基于在离线过程中学习到的RDF图的向量表示。一方面,查询构建的效率得到了大大提高;另一方面,本发明避免了在确定结构过程中对实体与关系短语进行精确的匹配,提高了匹配的召回率;最后,本发明基于翻译机制生成最终查询,保证了所生成查询与RDF图的一致性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实例中所述方法的框架图;
图2为本发明实例中所述RDF结构化查询生成的线上过程示意图;
图3为本发明实例中所述最优匹配节点、边选择与目标查询生成过程。
具体实施方式
本发明提供了一种基于向量空间的RDF结构化查询自动构建方法,首先利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示;然后给定通过自然语言问题表达的查询意图后,首先提取问题中的实体、关系短语,并将它们在RDF图中匹配得到候选匹配节点、边;再利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构;最后利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询。
请参阅图1,本发明一种基于向量空间的RDF结构化查询自动构建方法,包括以下步骤:
S1、定义RDF图中节点与边的局部子图,基于此分析得到节点与边的概括局部子图,利用概括局部子图表达的信息将RDF图映射到连续低维向量空间中,生成RDF图中节点与边的向量表示;
其中,vc'为实体节点v'e所对应的类别节点;
其中,vc为实体节点ve所对应的类别节点;
对于RDF图中的一个边e∈ε,其概括局部子图为:
其中,vc,vc'为实体节点ve,ve'所对应的类别节点。
S104、对于RDF图中的每一个节点v与边e,利用其概括局部子图学习其在连续向量空间中的向量表示,即v与e;该学习过程在离线阶段完成,学习得到的向量表示在后续在线的RDF结构化查询构建中可以直接使用无需更多的更改,本步骤具体过程如下:
对于同一个实体/关系短语所对应的候选匹配节点/边来说,它们的概括局部子图通常包含了相似的信息;在分别给定节点v与边e的概括局部子图与的条件下,定义得到节点v与边e的条件概率,通过最大化RDF图中所有节点与边的联合概率,学习得到RDF图的向量表示。
节点v的条件概率如下:
RDF图中节点的向量表示可以通过最大化以下联合概率得到:
边e的条件概率如下:
RDF图中边的向量表示可以通过最大化以下联合概率得到:
同时考虑节点与边的联合概率,通过最大化一下目标函数得到RDF图的向量表示:
O=λvOv+λeOe
式中,λv与λe为权值系数。
考虑到RDF图的规模巨大,直接计算以上联合概率将是费时甚至不切实际的,在此可以基于负采样进行估算。
以节点v的条件概率为例,可通过以下公式估算:
S2、给定由自然语言问题表达的查询意图,对该自然语言问题进行分析,提取自然语言问题中的实体短语和关系短语;然后,在RDF图中对实体短语和关系短语进行匹配,得到每个实体短语可能对应的节点以及每个关系短语可能对应的边,即候选匹配节点与候选匹配边,如图2所示;
S201、给定表达查询意图的自然语言问题Q,首先从中提取实体短语{ent1,ent2,...,entn}与关系短语{rel1,rel2,...,relm};
每个实体短语将对应于结构化查询中的一个节点或变量,而每个关系短语将对应于结构化查询中的一条边;
S202、将每一个实体/关系短语映射到RDF图中,得到其候选匹配节点/边的集合;
S3、利用RDF图在连续向量空间中的表示,将每个实体/关系短语所对应的多个候选匹配节点/边表示为一个连续向量。然后利用翻译机制,计算得到目标RDF结构化查询的最优结构,如图2所示;
S301、利用学习得到的RDF向量表示计算每个候选匹配节点集合Cv以及候选匹配边集合Ce的向量表示,如下所示:
S302、将每个候选匹配节点集合与候选匹配边集合分别看作一个节点与一个边,构建所有可能的目标查询的结构表示;
结构矩阵应满足以下条件:
1)如果i=j,则mi,j=0;
2)如果mi,j>0,则mj,i=0
3)MS中非零元素的数量为m;
5)对于一个整数β,如果0<β<m+1,MS中存在元素mi,j=β;
S303、基于翻译机制,计算每个结构矩阵的损失值,如下所示:
对于结构矩阵MS',如果其损失值f3(MS')最小,则MS'即表示了最优的目标查询结构。
S4、基于计算得到的最优结构以及翻译机制,在向量空间中计算得到每个实体/关系短语所对应的最优匹配节点/边;再将最优匹配节点中的类型节点替换为变量后生成目标RDF结构化查询,如图3所示。
S401、基于计算得到的最优结构,通过从每个候选匹配节点/边集合中选取一个节点/边可以构建多个可能的结构化查询表示,表示如下:
S402、对于每个可能的结构化查询表示,在此计算其损失值,如下:
S403、损失值最小的结构化查询表示即为最优的,将其中的类别节点替换为变量,并将变量通过表示类别的边指向原本的类别节点,即可以得到自然语言问题所对应的RDF结构化查询。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (7)
1.一种基于向量空间的RDF结构化查询自动构建方法,其特征在于,首先利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示;然后给定通过自然语言问题表达的查询意图后,提取问题中的实体、关系短语,并在RDF图中匹配得到候选匹配节点、边;再利用RDF图的向量表示将候选匹配节点、边的集合表示为向量并计算最优查询结构;最后利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询;
利用概括局部子图将RDF图映射到连续向量空间中,学习RDF图中每个节点与边的向量表示具体包括以下步骤:
对于RDF图中的一个边e∈ε,其局部子图为:
其中,vc'为实体节点v'e所对应的类别节点;
S104、对于RDF图中的每一个节点v与边e,利用其概括局部子图学习其在连续向量空间中的向量表示,即v与e;该学习过程在离线阶段完成,学习得到的向量表示在后续在线的RDF结构化查询构建中直接使用;
利用翻译机制选取每个候选集合中的最优匹配节点、边并生成目标结构化查询包括以下步骤:
S401、基于计算得到的最优结构,通过从每个候选匹配节点/边集合中选取一个节点/边可以构建多个可能的结构化查询表示QR;
S402、对于每个可能的结构化查询表示,在此计算其损失值f4(QR);
S403、损失值最小的结构化查询表示为最优的,将其中的类别节点替换为变量,并将变量通过表示类别的边指向原本的类别节点,得到自然语言问题所对应的RDF结构化查询,多个可能的结构化查询表示QR表示如下:
损失值f4(QR)表示如下:
3.根据权利要求2所述的基于向量空间的RDF结构化查询自动构建方法,其特征在于,步骤S104中,在分别给定节点v与边e的概括局部子图与的条件下,定义得到节点v与边e的条件概率,通过最大化RDF图中所有节点与边的联合概率,学习得到RDF图的向量表示;
节点v的条件概率如下:
RDF图中节点的向量表示通过最大化以下联合概率得到:
边e的条件概率如下:
RDF图中边的向量表示通过最大化以下联合概率得到:
同时考虑节点与边的联合概率,通过最大化目标函数得到RDF图的向量表示如下:
O=λvOv+λeOe
其中,λv与λe为权值系数。
4.根据权利要求1所述的基于向量空间的RDF结构化查询自动构建方法,其特征在于,提取问题中的实体、关系短语,并在RDF图中匹配得到候选匹配节点、边的步骤如下:
S201、给定表达查询意图的自然语言问题Q,提取实体短语{ent1,ent2,...,entn}与关系短语{rel1,rel2,...,relm};
S202、将每一个实体/关系短语映射到RDF图中,得到其候选匹配节点/边的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811197729.7A CN109408527B (zh) | 2018-10-15 | 2018-10-15 | 一种基于向量空间的rdf结构化查询自动构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811197729.7A CN109408527B (zh) | 2018-10-15 | 2018-10-15 | 一种基于向量空间的rdf结构化查询自动构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109408527A CN109408527A (zh) | 2019-03-01 |
CN109408527B true CN109408527B (zh) | 2020-12-01 |
Family
ID=65467239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811197729.7A Expired - Fee Related CN109408527B (zh) | 2018-10-15 | 2018-10-15 | 一种基于向量空间的rdf结构化查询自动构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408527B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304213B (zh) * | 2023-03-20 | 2024-03-19 | 中国地质大学(武汉) | 基于图神经网络的rdf图数据库子图匹配查询优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156431A (zh) * | 2014-08-08 | 2014-11-19 | 西安交通大学 | 一种基于实体图社团结构的rdf关键词查询方法 |
CN107193882A (zh) * | 2017-04-27 | 2017-09-22 | 东南大学 | RDF数据上基于图匹配的why‑not查询回答方法 |
CN108052547A (zh) * | 2017-11-27 | 2018-05-18 | 华中科技大学 | 基于问句和知识图结构分析的自然语言问答方法及系统 |
CN108153736A (zh) * | 2017-12-28 | 2018-06-12 | 南开大学 | 一种基于向量空间模型的关系词映射方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10235637B2 (en) * | 2015-08-28 | 2019-03-19 | Salesforce.Com, Inc. | Generating feature vectors from RDF graphs |
-
2018
- 2018-10-15 CN CN201811197729.7A patent/CN109408527B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156431A (zh) * | 2014-08-08 | 2014-11-19 | 西安交通大学 | 一种基于实体图社团结构的rdf关键词查询方法 |
CN107193882A (zh) * | 2017-04-27 | 2017-09-22 | 东南大学 | RDF数据上基于图匹配的why‑not查询回答方法 |
CN108052547A (zh) * | 2017-11-27 | 2018-05-18 | 华中科技大学 | 基于问句和知识图结构分析的自然语言问答方法及系统 |
CN108153736A (zh) * | 2017-12-28 | 2018-06-12 | 南开大学 | 一种基于向量空间模型的关系词映射方法 |
Non-Patent Citations (1)
Title |
---|
个性化搜索引擎;张亮等;《计算机工程》;20060930;第32卷(第18期);第202-205页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109408527A (zh) | 2019-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Distributed linguistic representations in decision making: Taxonomy, key elements and applications, and challenges in data science and explainable artificial intelligence | |
Deng et al. | Attention-based BiLSTM fused CNN with gating mechanism model for Chinese long text classification | |
CN113010547B (zh) | 一种基于图神经网络的数据库查询优化方法及系统 | |
WO2023272748A1 (zh) | 一种面向学术精准推荐的异质科研信息集成方法及系统 | |
CN111274267A (zh) | 一种数据库查询方法、装置及计算机可读取存储介质 | |
Berko et al. | Application of ontologies and meta-models for dynamic integration of weakly structured data | |
CN115511119A (zh) | 基于知识图谱和贝叶斯的供热系统智能诊断方法及系统 | |
Xia et al. | Iterative rule-guided reasoning over sparse knowledge graphs with deep reinforcement learning | |
Zhao et al. | Improving question answering over incomplete knowledge graphs with relation prediction | |
Liu et al. | Cross-media intelligent perception and retrieval analysis application technology based on deep learning education | |
Du et al. | Graph Neural Network-Based Entity Extraction and Relationship Reasoning in Complex Knowledge Graphs | |
Koo et al. | A semantic framework for enabling model integration for biorefining | |
CN109408527B (zh) | 一种基于向量空间的rdf结构化查询自动构建方法 | |
Ding et al. | A knowledge-enriched and span-based network for joint entity and relation extraction | |
CN115438197A (zh) | 一种基于双层异质图的事理知识图谱关系补全方法及系统 | |
CN114168615A (zh) | 自然语言查询智能变电站scd文件的方法及系统 | |
Shen et al. | SPSQL: Step-by-step parsing based framework for text-to-SQL generation | |
Wang et al. | A review of entity alignment based on graph convolutional neural network | |
Huang et al. | A chinese named entity recognition method for small-scale dataset based on lexicon and unlabeled data | |
CN116450827A (zh) | 一种基于大规模语言模型的事件模板归纳方法和系统 | |
Wang et al. | A knowledge representation learning model based on relation rotation in two-dimensional Minkowski space | |
Gonçalves et al. | $\Upsilon $-DB: A system for data-driven hypothesis management and analytics | |
Jia et al. | Application of graph neural network and feature information enhancement in relation inference of sparse knowledge graph | |
WO2024021334A1 (zh) | 关系抽取方法、计算机设备及程序产品 | |
CN117909492B (zh) | 一种电网非结构化信息抽取方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201201 |
|
CF01 | Termination of patent right due to non-payment of annual fee |