CN115238025A - 一种基于Skyline的知识图谱语义地点检索方法及装置 - Google Patents

一种基于Skyline的知识图谱语义地点检索方法及装置 Download PDF

Info

Publication number
CN115238025A
CN115238025A CN202210914647.XA CN202210914647A CN115238025A CN 115238025 A CN115238025 A CN 115238025A CN 202210914647 A CN202210914647 A CN 202210914647A CN 115238025 A CN115238025 A CN 115238025A
Authority
CN
China
Prior art keywords
place
semantic
skyline
keyword
places
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210914647.XA
Other languages
English (en)
Inventor
陆佳民
周振钰
刘嘉灏
冯钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202210914647.XA priority Critical patent/CN115238025A/zh
Publication of CN115238025A publication Critical patent/CN115238025A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Skyline的知识图谱语义地点检索方法及装置,用户输入用户所在位置,查询关键词,所需返回地点数量k;提取RDF图中地点实体所包含的坐标信息,构建R‑tree索引及地点关键词集,生成词向量集;根据提出的基于Skyline的语义地点检索算法返回Top‑k个地点。本发明提出了使用关键词模糊匹配来替代传统知识图谱空间数据检索方法中的精确匹配方式,能够为用户提供更多潜在的选择;提出了基于Skyline的语义地点检索算法,解决了传统方法中的Top‑k线性排序函数带来的极值问题,实现了空间距离和语义相关度两个维度的平衡,提升了检索效率。

Description

一种基于Skyline的知识图谱语义地点检索方法及装置
技术领域
本发明属于知识图谱空间数据检索领域,具体涉及一种基于Skyline(天际线)的知识图谱语义地点检索方法及装置。
背景技术
信息检索是人们获取信息的重要方法和手段,相关研究显示,用户在搜索引擎中检索的信息超过28%与地理位置相关,如景点、饭店和城市地址等。传统基于文本关键词的检索方式已经无法满足用户的语义需求,因此基于知识图谱的信息检索应运而生。RDF(Resource Description Framework,资源描述框架)是知识图谱中广泛使用的描述实体之间和实体间关系的数据模型,随着其数据规模的不断增长,其中一些节点引入了空间坐标信息,即RDF数据中包含地理实体,这为语义地点检索提供了新方法。
目前RDF数据检索的主流方法分为以下两种:(1)结构化语言(如SPARQL)查询;(2)关键词检索。结构化语言查询方法限制了普通用户访问RDF数据,更适用于领域专家,而关键词检索技术增加了普通用户的适用性。传统kSP(Top-k Relevant Semantic PlaceRetrieval,Top-k相关语义地点检索)方法可以返回以地点实体为根节点的子树,该子树覆盖所有检索关键词,并通过排名函数选出Top-k个结果。但仍存在以下问题:
(1)kSP检索过程中需要做到每一个关键词的精确匹配,然而,查询关键词与RDF数据关键词集之间往往存在着大量含义接近却表述不同的单词。这导致了kSP查询会错过大量潜在的结果,并最终导致返回结果有限的问题;
(2)kSP所使用的Top-k排序函数将多目标问题转化为单目标优化,对影响因素不敏感,易受权值参数的影响,容易产生极值,导致查询结果不能满足用户需求。
发明内容
发明目的:为了克服上述现有技术的不足,提供一种基于Skyline的地点检索方法及装置,能够平衡空间距离和语义相关度,并且检索效率高。
技术方案:本发明提供一种基于Skyline的知识图谱语义地点检索方法,包括以下步骤:
(1)用户输入查询:用户所在位置,查询关键词,所需返回地点数量k;
(2)提取RDF图中地点实体所包含的坐标信息,构建R-tree索引及地点关键词集,生成词向量集;
(3)根据提出的基于Skyline的语义地点检索算法返回Top-k个地点。
进一步地,步骤(2)所述构建地点关键词集实现过程如下:
从RDF图节点URI中提取节点名称,与节点标签值一起使用“_”符号进行分词;通过去重处理,生成一般关键词集;将地点实体及其子结点的一般关键词集进行拼接去重;形成地点关键词集。
进一步地,步骤(2)所述生成词向量集实现过程如下:
输入地点关键词集与用户查询关键词集;使用Word2vec模型实现对关键词的词向量转换工作;输出词向量集。
进一步地,所述步骤(3)包括以下步骤:
(31)基于用户位置检索R-tree,由近及远返回一系列地点;
(32)计算每个地点与用户所在位置的空间距离;
(33)计算每个地点与查询关键词的语义相关度;
(34)重复步骤(32)和(33),直到遍历完所有地点;
(35)基于Skyline的语义地点检索算筛选出Top-k个地点。
进一步地,所述步骤(33)包括如下步骤:
(331)计算查询关键词集q.ψ与地点关键词集np.ψ之间的语义相似度:对于每个查询关键词ti,计算ti与地点关键词集中的每个关键词kj之间的词义相似度S(ti,kj),并选取最大值;计算最大词义相似度的平均值,作为查询关键词集q.ψ与地点关键词集np.ψ之间的语义相似度S(np);
(332)将词义相似度最大的关键词距离根节点的最短距离进行累加,得到语义地点的松散度L(np);
(333)根据语义相关度计算公式,计算该地点与用户查询的语义相关度:
Figure BDA0003775151440000021
其中,α为权重参数。
进一步地,所述步骤(35)包括如下步骤:
(351)计算各地点的度值,根据度值对数据进行排序,得到候选集,度值计算公式如下:
Figure BDA0003775151440000031
其中:
Figure BDA0003775151440000032
Figure BDA0003775151440000033
其中,λi,j表示pi在d维数据集中第j维度的度值,pi[j]表示pi的第j维度的数值,μj代表第j维度的均值;
(352)对候选集中的地点运用BNL算法进行Skyline筛选;
(353)根据度值排序选出Top-k个地点。
基于相同的发明构思,本发明还提供一种基于Skyline的知识图谱语义地点检索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据上述的基于Skyline的知识图谱语义地点检索方法。
有益效果:与现有技术相比,本发明的有益效果:
1、本发明针对kSP检索过程中需要做到每一个关键词的精确匹配,没有考虑到实际检索场景中,查询关键词与RDF数据关键词集之间往往存在着大量含义接近却表述不同的单词,导致出现一些符合用户意图的结果遗漏返回的问题,用模糊匹配代替了精确匹配,为用户提供了更多的选择;
2、本发明针对kSP检索中的Top-k排序函数将多目标问题转化为单目标优化,对影响因素不敏感,易受权值参数的影响,容易产生极值,导致查询结果不能满足用户需求的问题,提出基于Skyline的地点检索方法,采用多目标优化算法解决原始的多目标问题,最终返回前k个平行的、互不受控制的解,在提高地点检索的效率的同时,平衡了空间距离和语义相关度这两个影响因素。
附图说明
图1为本发明的流程图;
图2为RDF图及地点关键词集示例图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出一种基于Skyline的知识图谱语义地点检索方法,如图1所示,具体包括以下步骤:
步骤1:用户输入查询:用户所在位置,查询关键词,所需返回地点数量k。
用户输入查询:用户所在位置坐标:(32.911,35.6311),一组查询关键词:{peter,fisherman,canonised},所需返回地点数量k:1。该组查询关键词的大致含义可以理解为:寻找一个地点,这个地点与一个名为peter的人有关,这个人是一个渔夫,且曾被封为圣人。
步骤2:对RDF数据进行预处理,提取RDF图中地点实体所包含的坐标信息,构建R-tree索引及地点关键词集,生成词向量集。
提取RDF图中地点实体所包含的坐标信息,构建R-tree索引;从RDF图节点URI中提取节点名称,与节点标签值一起使用“_”符号进行分词,通过去重处理,生成一般关键词集,将地点实体及其子结点的一般关键词集进行拼接去重,形成地点关键词集。如图2中(a)所示,是从知识图谱中抽取出的有关实体<Bethsaida>的RDF图描述,图2中(b)所示是实体<Bethsaida>的一般关键词集,图2中(c)是实体<Bethsaida>的地点关键词集。输入地点关键词集,使用Word2vec模型实现对关键词的词向量转换工作,输出词向量集。
步骤3:根据提出的基于Skyline的语义地点检索算法返回Top-k个地点。
(1)基于用户位置检索R-tree,由近及远返回一系列地点,并按顺序依次遍历这些地点,下面以地点<Bethsaida>为例,展示语义地点的构建过程。
(2)计算<Bethsaida>与用户所在位置的空间距离,<Bethsaida>的坐标为(32.91,35.631),D=0.111km。
(3)计算查询关键词集q.ψ与<Bethsaida>的地点关键词集np.ψ之间的语义相似度S(np)以及松散度L(Tnp)。对于查询关键字peter,<Bethsaida>地点关键词集中与其相似度最高的单词是peter,相似度为1,距离根节点np的最短距离为1;对于查询关键字fisherman,<Bethsaida>地点关键词集中与其相似度最高的单词是fishing,相似度为0.86,距离根节点np的最短距离为0;对于查询关键字canonised,<Bethsaida>地点关键词集中与其相似度最高的单词是saint,相似度为0.81,距离根节点np的最短距离为1。所以语义相似度S(np)=(1+0.86+0.81)/3=0.89,松散度L(Tnp)=1+1+0+1=3。查询得到的地区为<Bethsaida>,拥有标签[Fishing_villages],是<Saint_Peter>的出生地,拥有标签[Anglican_saints]符合查询预期。
(4)根据语义相关度计算公式,计算<Bethsaida>与用户查询的语义相关度,语义相关度计算公式如下:
Figure BDA0003775151440000051
其中,α为权重参数,本例设为0.5,语义相关度f(np)=(0.89*0.5)/(3*0.5)=0.296。
(5)重复步骤(2)至(4),直到遍历完所有地点。
(6)计算各地点的度值,根据度值对数据进行排序,得到候选集,对候选集中的地点运用BNL算法进行Skyline筛选;根据度值排序选出Top-1个地点。
度值计算公式如下:
Figure BDA0003775151440000052
其中,
Figure BDA0003775151440000053
Figure BDA0003775151440000054
其中,λi,j表示pi在d维数据集中第j维度的度值,pi[j]表示pi的第j维度的数值,μj代表第j维度的均值。
本例中,p1[1]表示<Bethsaida>与查询位置的空间距离,p1[2]表示<Bethsaida>与查询关键词的语义相关度,p1[1]=0.111,p1[2]=0.296,μ1表示空间距离均值,μ2表示语义相关度均值,μ1=0.156,,μ2=0.194,则φ(p1)=0.237。
基于相同的发明构思,本发明还提供一种基于Skyline的知识图谱语义地点检索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据上述的基于Skyline的知识图谱语义地点检索方法。

Claims (7)

1.一种基于Skyline的知识图谱语义地点检索方法,其特征在于,包括以下步骤:
(1)用户输入查询:用户所在位置,查询关键词,所需返回地点数量k;
(2)提取RDF图中地点实体所包含的坐标信息,构建R-tree索引及地点关键词集,生成词向量集;
(3)根据提出的基于Skyline的语义地点检索算法返回Top-k个地点。
2.根据权利要求1所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,步骤(2)所述构建地点关键词集实现过程如下:
从RDF图节点URI中提取节点名称,与节点标签值一起使用“”符号进行分词;通过去重处理,生成一般关键词集;将地点实体及其子结点的一般关键词集进行拼接去重;形成地点关键词集。
3.根据权利要求1所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,步骤(2)所述生成词向量集实现过程如下:
输入地点关键词集与用户查询关键词集;使用Word2vec模型实现对关键词的词向量转换工作;输出词向量集。
4.根据权利要求1所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,所述步骤(3)包括以下步骤:
(31)基于用户位置检索R-tree,由近及远返回一系列地点;
(32)计算每个地点与用户所在位置的空间距离;
(33)计算每个地点与查询关键词的语义相关度;
(34)重复步骤(32)和(33),直到遍历完所有地点;
(35)基于Skyline的语义地点检索算筛选出Top-k个地点。
5.根据权利要求4所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,所述步骤(33)包括如下步骤:
(331)计算查询关键词集q.ψ与地点关键词集np.ψ之间的语义相似度:对于每个查询关键词ti,计算ti与地点关键词集中的每个关键词kj之间的词义相似度S(ti,kj),并选取最大值;计算最大词义相似度的平均值,作为查询关键词集q.ψ与地点关键词集np.ψ之间的语义相似度S(np);
(332)将词义相似度最大的关键词距离根节点的最短距离进行累加,得到语义地点的松散度L(np);
(333)根据语义相关度计算公式,计算该地点与用户查询的语义相关度:
Figure FDA0003775151430000021
其中,α为权重参数。
6.根据权利要求4所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,所述步骤(35)包括如下步骤:
(351)计算各地点的度值,根据度值对数据进行排序,得到候选集,度值计算公式如下:
Figure FDA0003775151430000022
其中:
Figure FDA0003775151430000023
Figure FDA0003775151430000024
其中,λi,j表示pi在d维数据集中第k维度的度值,pi[j]表示pi的第k维度的数值,μj代表第k维度的均值;
(352)对候选集中的地点运用BNL算法进行Skyline筛选;
(353)根据度值排序选出Top-k个地点。
7.一种基于Skyline的知识图谱语义地点检索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于Skyline的知识图谱语义地点检索方法。
CN202210914647.XA 2022-08-01 2022-08-01 一种基于Skyline的知识图谱语义地点检索方法及装置 Pending CN115238025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210914647.XA CN115238025A (zh) 2022-08-01 2022-08-01 一种基于Skyline的知识图谱语义地点检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210914647.XA CN115238025A (zh) 2022-08-01 2022-08-01 一种基于Skyline的知识图谱语义地点检索方法及装置

Publications (1)

Publication Number Publication Date
CN115238025A true CN115238025A (zh) 2022-10-25

Family

ID=83676963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210914647.XA Pending CN115238025A (zh) 2022-08-01 2022-08-01 一种基于Skyline的知识图谱语义地点检索方法及装置

Country Status (1)

Country Link
CN (1) CN115238025A (zh)

Similar Documents

Publication Publication Date Title
CN108415902B (zh) 一种基于搜索引擎的命名实体链接方法
CN104239513B (zh) 一种面向领域数据的语义检索方法
US8903794B2 (en) Generating and presenting lateral concepts
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN108846029B (zh) 基于知识图谱的情报关联分析方法
US20100318537A1 (en) Providing knowledge content to users
CN106503223B (zh) 一种结合位置和关键词信息的在线房源搜索方法及装置
CN101458695A (zh) 基于关键词和内容特征的混合图片索引构建和查询方法及其应用
CA2610088A1 (en) Relationship networks
EP2021959A2 (en) Annotation by search
CN103198136B (zh) 一种基于时序关联的个人电脑文件查询方法
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN112883248B (zh) 信息推送方法、装置以及电子设备
US8700624B1 (en) Collaborative search apps platform for web search
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
US8364672B2 (en) Concept disambiguation via search engine search results
CN110569367A (zh) 一种基于知识图谱的空间关键字查询方法、装置及设备
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
CN113076758B (zh) 一种面向任务型对话的多域请求式意图识别方法
CN114168705A (zh) 一种基于地址要素索引的中文地址匹配方法
CN112989811A (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN117453725A (zh) 基于大模型的关键词扩充与多信息融合数据要素搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination