CN115238025A - 一种基于Skyline的知识图谱语义地点检索方法及装置 - Google Patents
一种基于Skyline的知识图谱语义地点检索方法及装置 Download PDFInfo
- Publication number
- CN115238025A CN115238025A CN202210914647.XA CN202210914647A CN115238025A CN 115238025 A CN115238025 A CN 115238025A CN 202210914647 A CN202210914647 A CN 202210914647A CN 115238025 A CN115238025 A CN 115238025A
- Authority
- CN
- China
- Prior art keywords
- place
- semantic
- skyline
- keyword
- places
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000001228 spectrum Methods 0.000 title claims description 3
- 239000013598 vector Substances 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Skyline的知识图谱语义地点检索方法及装置,用户输入用户所在位置,查询关键词,所需返回地点数量k;提取RDF图中地点实体所包含的坐标信息,构建R‑tree索引及地点关键词集,生成词向量集;根据提出的基于Skyline的语义地点检索算法返回Top‑k个地点。本发明提出了使用关键词模糊匹配来替代传统知识图谱空间数据检索方法中的精确匹配方式,能够为用户提供更多潜在的选择;提出了基于Skyline的语义地点检索算法,解决了传统方法中的Top‑k线性排序函数带来的极值问题,实现了空间距离和语义相关度两个维度的平衡,提升了检索效率。
Description
技术领域
本发明属于知识图谱空间数据检索领域,具体涉及一种基于Skyline(天际线)的知识图谱语义地点检索方法及装置。
背景技术
信息检索是人们获取信息的重要方法和手段,相关研究显示,用户在搜索引擎中检索的信息超过28%与地理位置相关,如景点、饭店和城市地址等。传统基于文本关键词的检索方式已经无法满足用户的语义需求,因此基于知识图谱的信息检索应运而生。RDF(Resource Description Framework,资源描述框架)是知识图谱中广泛使用的描述实体之间和实体间关系的数据模型,随着其数据规模的不断增长,其中一些节点引入了空间坐标信息,即RDF数据中包含地理实体,这为语义地点检索提供了新方法。
目前RDF数据检索的主流方法分为以下两种:(1)结构化语言(如SPARQL)查询;(2)关键词检索。结构化语言查询方法限制了普通用户访问RDF数据,更适用于领域专家,而关键词检索技术增加了普通用户的适用性。传统kSP(Top-k Relevant Semantic PlaceRetrieval,Top-k相关语义地点检索)方法可以返回以地点实体为根节点的子树,该子树覆盖所有检索关键词,并通过排名函数选出Top-k个结果。但仍存在以下问题:
(1)kSP检索过程中需要做到每一个关键词的精确匹配,然而,查询关键词与RDF数据关键词集之间往往存在着大量含义接近却表述不同的单词。这导致了kSP查询会错过大量潜在的结果,并最终导致返回结果有限的问题;
(2)kSP所使用的Top-k排序函数将多目标问题转化为单目标优化,对影响因素不敏感,易受权值参数的影响,容易产生极值,导致查询结果不能满足用户需求。
发明内容
发明目的:为了克服上述现有技术的不足,提供一种基于Skyline的地点检索方法及装置,能够平衡空间距离和语义相关度,并且检索效率高。
技术方案:本发明提供一种基于Skyline的知识图谱语义地点检索方法,包括以下步骤:
(1)用户输入查询:用户所在位置,查询关键词,所需返回地点数量k;
(2)提取RDF图中地点实体所包含的坐标信息,构建R-tree索引及地点关键词集,生成词向量集;
(3)根据提出的基于Skyline的语义地点检索算法返回Top-k个地点。
进一步地,步骤(2)所述构建地点关键词集实现过程如下:
从RDF图节点URI中提取节点名称,与节点标签值一起使用“_”符号进行分词;通过去重处理,生成一般关键词集;将地点实体及其子结点的一般关键词集进行拼接去重;形成地点关键词集。
进一步地,步骤(2)所述生成词向量集实现过程如下:
输入地点关键词集与用户查询关键词集;使用Word2vec模型实现对关键词的词向量转换工作;输出词向量集。
进一步地,所述步骤(3)包括以下步骤:
(31)基于用户位置检索R-tree,由近及远返回一系列地点;
(32)计算每个地点与用户所在位置的空间距离;
(33)计算每个地点与查询关键词的语义相关度;
(34)重复步骤(32)和(33),直到遍历完所有地点;
(35)基于Skyline的语义地点检索算筛选出Top-k个地点。
进一步地,所述步骤(33)包括如下步骤:
(331)计算查询关键词集q.ψ与地点关键词集np.ψ之间的语义相似度:对于每个查询关键词ti,计算ti与地点关键词集中的每个关键词kj之间的词义相似度S(ti,kj),并选取最大值;计算最大词义相似度的平均值,作为查询关键词集q.ψ与地点关键词集np.ψ之间的语义相似度S(np);
(332)将词义相似度最大的关键词距离根节点的最短距离进行累加,得到语义地点的松散度L(np);
(333)根据语义相关度计算公式,计算该地点与用户查询的语义相关度:
其中,α为权重参数。
进一步地,所述步骤(35)包括如下步骤:
(351)计算各地点的度值,根据度值对数据进行排序,得到候选集,度值计算公式如下:
其中:
其中,λi,j表示pi在d维数据集中第j维度的度值,pi[j]表示pi的第j维度的数值,μj代表第j维度的均值;
(352)对候选集中的地点运用BNL算法进行Skyline筛选;
(353)根据度值排序选出Top-k个地点。
基于相同的发明构思,本发明还提供一种基于Skyline的知识图谱语义地点检索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据上述的基于Skyline的知识图谱语义地点检索方法。
有益效果:与现有技术相比,本发明的有益效果:
1、本发明针对kSP检索过程中需要做到每一个关键词的精确匹配,没有考虑到实际检索场景中,查询关键词与RDF数据关键词集之间往往存在着大量含义接近却表述不同的单词,导致出现一些符合用户意图的结果遗漏返回的问题,用模糊匹配代替了精确匹配,为用户提供了更多的选择;
2、本发明针对kSP检索中的Top-k排序函数将多目标问题转化为单目标优化,对影响因素不敏感,易受权值参数的影响,容易产生极值,导致查询结果不能满足用户需求的问题,提出基于Skyline的地点检索方法,采用多目标优化算法解决原始的多目标问题,最终返回前k个平行的、互不受控制的解,在提高地点检索的效率的同时,平衡了空间距离和语义相关度这两个影响因素。
附图说明
图1为本发明的流程图;
图2为RDF图及地点关键词集示例图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出一种基于Skyline的知识图谱语义地点检索方法,如图1所示,具体包括以下步骤:
步骤1:用户输入查询:用户所在位置,查询关键词,所需返回地点数量k。
用户输入查询:用户所在位置坐标:(32.911,35.6311),一组查询关键词:{peter,fisherman,canonised},所需返回地点数量k:1。该组查询关键词的大致含义可以理解为:寻找一个地点,这个地点与一个名为peter的人有关,这个人是一个渔夫,且曾被封为圣人。
步骤2:对RDF数据进行预处理,提取RDF图中地点实体所包含的坐标信息,构建R-tree索引及地点关键词集,生成词向量集。
提取RDF图中地点实体所包含的坐标信息,构建R-tree索引;从RDF图节点URI中提取节点名称,与节点标签值一起使用“_”符号进行分词,通过去重处理,生成一般关键词集,将地点实体及其子结点的一般关键词集进行拼接去重,形成地点关键词集。如图2中(a)所示,是从知识图谱中抽取出的有关实体<Bethsaida>的RDF图描述,图2中(b)所示是实体<Bethsaida>的一般关键词集,图2中(c)是实体<Bethsaida>的地点关键词集。输入地点关键词集,使用Word2vec模型实现对关键词的词向量转换工作,输出词向量集。
步骤3:根据提出的基于Skyline的语义地点检索算法返回Top-k个地点。
(1)基于用户位置检索R-tree,由近及远返回一系列地点,并按顺序依次遍历这些地点,下面以地点<Bethsaida>为例,展示语义地点的构建过程。
(2)计算<Bethsaida>与用户所在位置的空间距离,<Bethsaida>的坐标为(32.91,35.631),D=0.111km。
(3)计算查询关键词集q.ψ与<Bethsaida>的地点关键词集np.ψ之间的语义相似度S(np)以及松散度L(Tnp)。对于查询关键字peter,<Bethsaida>地点关键词集中与其相似度最高的单词是peter,相似度为1,距离根节点np的最短距离为1;对于查询关键字fisherman,<Bethsaida>地点关键词集中与其相似度最高的单词是fishing,相似度为0.86,距离根节点np的最短距离为0;对于查询关键字canonised,<Bethsaida>地点关键词集中与其相似度最高的单词是saint,相似度为0.81,距离根节点np的最短距离为1。所以语义相似度S(np)=(1+0.86+0.81)/3=0.89,松散度L(Tnp)=1+1+0+1=3。查询得到的地区为<Bethsaida>,拥有标签[Fishing_villages],是<Saint_Peter>的出生地,拥有标签[Anglican_saints]符合查询预期。
(4)根据语义相关度计算公式,计算<Bethsaida>与用户查询的语义相关度,语义相关度计算公式如下:
其中,α为权重参数,本例设为0.5,语义相关度f(np)=(0.89*0.5)/(3*0.5)=0.296。
(5)重复步骤(2)至(4),直到遍历完所有地点。
(6)计算各地点的度值,根据度值对数据进行排序,得到候选集,对候选集中的地点运用BNL算法进行Skyline筛选;根据度值排序选出Top-1个地点。
度值计算公式如下:
其中,
其中,λi,j表示pi在d维数据集中第j维度的度值,pi[j]表示pi的第j维度的数值,μj代表第j维度的均值。
本例中,p1[1]表示<Bethsaida>与查询位置的空间距离,p1[2]表示<Bethsaida>与查询关键词的语义相关度,p1[1]=0.111,p1[2]=0.296,μ1表示空间距离均值,μ2表示语义相关度均值,μ1=0.156,,μ2=0.194,则φ(p1)=0.237。
基于相同的发明构思,本发明还提供一种基于Skyline的知识图谱语义地点检索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据上述的基于Skyline的知识图谱语义地点检索方法。
Claims (7)
1.一种基于Skyline的知识图谱语义地点检索方法,其特征在于,包括以下步骤:
(1)用户输入查询:用户所在位置,查询关键词,所需返回地点数量k;
(2)提取RDF图中地点实体所包含的坐标信息,构建R-tree索引及地点关键词集,生成词向量集;
(3)根据提出的基于Skyline的语义地点检索算法返回Top-k个地点。
2.根据权利要求1所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,步骤(2)所述构建地点关键词集实现过程如下:
从RDF图节点URI中提取节点名称,与节点标签值一起使用“”符号进行分词;通过去重处理,生成一般关键词集;将地点实体及其子结点的一般关键词集进行拼接去重;形成地点关键词集。
3.根据权利要求1所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,步骤(2)所述生成词向量集实现过程如下:
输入地点关键词集与用户查询关键词集;使用Word2vec模型实现对关键词的词向量转换工作;输出词向量集。
4.根据权利要求1所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,所述步骤(3)包括以下步骤:
(31)基于用户位置检索R-tree,由近及远返回一系列地点;
(32)计算每个地点与用户所在位置的空间距离;
(33)计算每个地点与查询关键词的语义相关度;
(34)重复步骤(32)和(33),直到遍历完所有地点;
(35)基于Skyline的语义地点检索算筛选出Top-k个地点。
7.一种基于Skyline的知识图谱语义地点检索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于Skyline的知识图谱语义地点检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210914647.XA CN115238025A (zh) | 2022-08-01 | 2022-08-01 | 一种基于Skyline的知识图谱语义地点检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210914647.XA CN115238025A (zh) | 2022-08-01 | 2022-08-01 | 一种基于Skyline的知识图谱语义地点检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238025A true CN115238025A (zh) | 2022-10-25 |
Family
ID=83676963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210914647.XA Pending CN115238025A (zh) | 2022-08-01 | 2022-08-01 | 一种基于Skyline的知识图谱语义地点检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238025A (zh) |
-
2022
- 2022-08-01 CN CN202210914647.XA patent/CN115238025A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104239513B (zh) | 一种面向领域数据的语义检索方法 | |
CN110442777B (zh) | 基于bert的伪相关反馈模型信息检索方法及系统 | |
AU2011210535B2 (en) | Joint embedding for item association | |
CN108846029B (zh) | 基于知识图谱的情报关联分析方法 | |
CN109829104A (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
US20140379686A1 (en) | Generating and presenting lateral concepts | |
US20100318537A1 (en) | Providing knowledge content to users | |
CN101458695A (zh) | 基于关键词和内容特征的混合图片索引构建和查询方法及其应用 | |
CN106503223B (zh) | 一种结合位置和关键词信息的在线房源搜索方法及装置 | |
WO2006133050A2 (en) | Relationship networks | |
US20100106719A1 (en) | Context-sensitive search | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
US8364672B2 (en) | Concept disambiguation via search engine search results | |
US8700624B1 (en) | Collaborative search apps platform for web search | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN110569367A (zh) | 一种基于知识图谱的空间关键字查询方法、装置及设备 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
CN112836008B (zh) | 基于去中心化存储数据的索引建立方法 | |
CN113076758B (zh) | 一种面向任务型对话的多域请求式意图识别方法 | |
CN114168705A (zh) | 一种基于地址要素索引的中文地址匹配方法 | |
CN117453725A (zh) | 基于大模型的关键词扩充与多信息融合数据要素搜索方法 | |
CN115238025A (zh) | 一种基于Skyline的知识图谱语义地点检索方法及装置 | |
CN114519132B (zh) | 一种基于公式引用图的公式检索方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |