CN112328915B - 基于空间实体匹配性能评估的多源兴趣点融合方法及系统 - Google Patents

基于空间实体匹配性能评估的多源兴趣点融合方法及系统 Download PDF

Info

Publication number
CN112328915B
CN112328915B CN202011343134.5A CN202011343134A CN112328915B CN 112328915 B CN112328915 B CN 112328915B CN 202011343134 A CN202011343134 A CN 202011343134A CN 112328915 B CN112328915 B CN 112328915B
Authority
CN
China
Prior art keywords
matching
similarity
poi
interest
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011343134.5A
Other languages
English (en)
Other versions
CN112328915A (zh
Inventor
闫伟
刘弘
王吉华
王红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202011343134.5A priority Critical patent/CN112328915B/zh
Publication of CN112328915A publication Critical patent/CN112328915A/zh
Application granted granted Critical
Publication of CN112328915B publication Critical patent/CN112328915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于空间实体匹配性能评估的多源兴趣点融合方法及系统,基于空间实体匹配,利用组合函数相异度和输出结果相似度来进行评估,并获取性能最优的一组匹配函数及阈值;利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度,并将大于设定阈值的兴趣点POI信息进行链接;接收查询请求;发送所述查询请求给第一制图供应商服务器;所述查询请求包括至少一个关键字;接收第一制图供应商服务器返回的主兴趣点POI信息;根据主兴趣点POI信息的链接数据,发送请求给第二制图供应商服务器,接收返回的次兴趣点POI信息;融合主兴趣点POI信息与次兴趣点POI信息,将信息提供给用户。

Description

基于空间实体匹配性能评估的多源兴趣点融合方法及系统
技术领域
本申请涉及知识融合技术领域,特别是涉及基于空间实体匹配性能评估的多源兴趣点融合方法及系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
随着互联网、移动通信及智能移动设备的普及,基于位置的服务在很多领域都得到了广泛应用,如行程搜索、目标跟踪和社交网络,而兴趣点(Point of Interest,POI)作为位置服务地图中表达空间实体及其位置信息的重要载体,已成为位置服务研究的一个重要方向。
目前,多数基于位置服务的提供商并没有自己完整、有效的数据采集与维护机制,他们的数据大多由专门的制图供应商提供。例如,提供美食、酒店、旅游等推荐服务的提供商会同时使用来自多个专业制图供应商提供的数据,如Open Street Map,Google Maps,百度地图等。
但是,由不同制图供应商提供的POI信息不仅在数据结构上、组织形式等方面存在差异,而且各自的信息内容、完善和丰富程度、侧重点、覆盖范围等方面也存在较大差异。
为了实现来源不同的POI信息融合,可以通过检测各实体间的匹配、合并等操作实现,例如,在供应商数量、实体数量比较小时,上述检测过程往往由服务推荐领域工程师手动编程完成,即基于描述性属性(如名称、地址和类型)与空间坐标(主要是地理位置坐标),利用相似度计算方法(如Jaro-Winkler,N-Grams)和不同加权组合策略,获取各实体间的对应关系。
然而,对来自不同供应商空间实体的标注数据,无论是在数据数量上还是准确程度上都难以达到实体匹配的需求,更无法保证兴趣点推荐信息的准确性,严重影响了用户体验。
发明内容
为了解决现有技术的不足,本申请提供了基于空间实体匹配性能评估的多源兴趣点融合方法及系统;
第一方面,本申请提供了基于空间实体匹配性能评估的多源兴趣点融合方法;
基于空间实体匹配性能评估的多源兴趣点融合方法,包括:
基于空间实体匹配,利用组合函数相异度和输出结果相似度来进行评估,并获取性能最优的一组匹配函数及阈值;
利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度,并将大于设定阈值的兴趣点POI信息进行链接;
接收查询请求;发送所述查询请求给第一制图供应商服务器;所述查询请求包括至少一个关键字;
接收第一制图供应商服务器返回的主兴趣点POI信息;
根据主兴趣点POI信息的链接数据,发送请求给第二制图供应商服务器,接收返回的次兴趣点POI信息;
融合主兴趣点POI信息与次兴趣点POI信息,并将信息提供给用户。
第二方面,本申请提供了基于空间实体匹配性能评估的多源兴趣点融合系统;
基于空间实体匹配性能评估的多源兴趣点融合系统,包括:
函数获取模块,其被配置为:基于空间实体匹配,利用组合函数相异度和输出结果相似度来进行评估,并获取性能最优的一组匹配函数及阈值;
链接模块,其被配置为:利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度,并将大于设定阈值的兴趣点POI信息进行链接;
查询请求发送模块,其被配置为:接收查询请求;发送所述查询请求给第一制图供应商服务器;所述查询请求包括至少一个关键字;
接收模块,其被配置为:接收第一制图供应商服务器返回的主兴趣点POI信息;
链接发送模块,其被配置为:根据主兴趣点POI信息的链接数据,发送请求给第二制图供应商服务器,接收返回的次兴趣点POI信息;
融合模块,其被配置为:融合主兴趣点POI信息与次兴趣点POI信息,并将信息提供给用户。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本申请的有益效果是:
(1)对空间实体匹配方法进行了统一的形式化描述,并将相似度计算方法分为基于字符串、基于语言学、基于术语、基于语义与基于自然语言处理五大类;
(2)基于相似度计算方法分类,制定了空间实体匹配组合函数相异度的计算规则;
(3)针对各空间实体匹配方法返回的结果,定义匹配结果相似度的度量方式,即空间实体匹配对集合间的相似度;
(4)基于组合函数相异度、匹配结果相似度、函数质量进行线性、多项式等不同方式的拟合,构建了具有较高拟合精度、较强泛化能力的实体匹配方法性能评估模型;
(5)空间实体匹配方法多种多样,比如基于字符串匹配与基于WordNet词典语义匹配,同时,存在多种匹配方法的组合,对匹配方法进行统一数学描述、并根据各方法分类制定组合函数相异度的计算规则;
(6)针对各匹配方法返回的结果,定义和度量匹配结果相似度,即空间实体匹配对集合间的相似度;
(7)对组合函数相异度、匹配结果相似度、函数质量进行线性、多项式等不同方式的拟合,获取具有较高拟合精度、较强泛化能力的实体匹配方法性能评估模型;
(8)在一定程度上解决了兴趣点数据标注缺失问题,实现了多源兴趣点的有效集成与精确融合,有效提高了POI推荐效率和准确性。
实现了两家制图供应商服务器提供的各兴趣点POI信息的融合,为用户提供更加精确的POI信息。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本申请实施例一的方法流程图;
图2(a)-图2(e)是不同数据集的组合函数(两个函数)相异度、匹配结果相似度分布。
图3(a)-图3(e)是不同数据集的组合函数(三个函数)相异度、匹配结果相似度分布。
图4(a)-图4(e)是不同数据集的组合函数(四个函数)相异度、匹配结果相似度分布。
图5(a)-图5(e)是所有数据集中所有组合函数相异度、匹配结果相似度分布。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了基于空间实体匹配性能评估的多源兴趣点融合方法;
如图1所示,基于空间实体匹配性能评估的多源兴趣点融合方法,包括:
S101:基于空间实体匹配,利用组合函数相异度和输出结果相似度来进行评估,并获取性能最优的一组匹配函数及阈值;
S102:利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度,并将大于设定阈值的兴趣点POI信息进行链接;
S103:接收查询请求;发送所述查询请求给第一制图供应商服务器;所述查询请求包括至少一个关键字;
S104:接收第一制图供应商服务器返回的主兴趣点POI信息;
S105:根据主兴趣点POI信息的链接数据,发送请求给第二制图供应商服务器,接收返回的次兴趣点POI信息;
S106:融合主兴趣点POI信息与次兴趣点POI信息,并将信息提供给用户。
作为一个或多个实施例,所述S101:基于空间实体匹配,利用组合函数相异度和输出结果相似度来进行评估,并获取性能最优的一组匹配函数及阈值,具体步骤包括:
S1011:将空间实体匹配方法进行统一形式化处理,转换为不同类别的匹配函数的组合形式;
S1012:定义组合函数相异度;
S1013:定义匹配结果相似度;
S1014:利用实体匹配方法性能评估模型,基于组合函数相异度与匹配结果相似度拟合各函数质量,选取性能最优的一组匹配函数及阈值。
进一步地,所述S1011:将空间实体匹配方法进行统一形式化处理,转换为不同类别的匹配函数的组合形式;具体包括:
S10111:将应用于等效属性之间的相似度计算方法进行分类;
分为以下五类:
基于字符串:Jaro、Jaro Winkler、Levenshtein、Hamming、Manhattan和lengthcomparison;
基于语言学:Dice coefficient,Jaccard;
基于术语:Tversky,Overlap;
基于语义:WordNet(基本版和改进版);
基于自然语言处理(Natural Language Processing,NLP):词频-逆文本频率(局部逆文本频率和全局逆文本频率),Word2Vec(Google News Vectors-Negative 300模型与基于数据集的自定义训练模型),Word Mover’s Distance(Google News Vectors-Negative 300模型);
考虑到在一对概念(或同义词集)之间的语义相似度,本申请使用了两个版本的基于WordNet的相似度计算方法,即基于词频-逆文本频率的基本版和改进版。
基于WordNet计算语义相似度的具体步骤为:
在基本版中,两个句子间的语义相似度计算公式如下
Figure BDA0002799102560000081
其中,maxSim(w,S)指的是单词w与句子S中的每个单词的相似度的最大值,单词似度可以基于Path相似度,Leacock-Chodorow相似度,Wu-Palmer相似度,Resnik相似度,Jiang-Conrath相似度和Lin相似度来计算。|S|表明在句子S中的单词数量;
在改进版中,两个句子间的语义相似度的计算公式如下:
Figure BDA0002799102560000082
其中,idf系数用于刻画单词的特异性,给对应的单词相似度同样的权重。
S10112:对组合函数进行形式化处理,并利用组合函数检测空间实体匹配对;
进一步的,S10112由于加权平均法灵活且能很好地表示组合策略,因此,被许多实体匹配方法采用。本申请运用加权法对用于实体匹配的组合函数进行统一形式化表示,具体步骤如下:
S101121:设定组合函数的形式如下:
f=w0sim0(aim0)+…+wksimk(aimk) (3)
其中simi对应属性atti,它有一个权重wi,表示函数wisimi(aimi)内pair(相似度计算方法,属性)的重要性,wisimi(aimi)则可以看作是一个令牌,所有令牌中的权重相加为1;
S101122:运用组合函数探测匹配关系;
所述S101122中,具体的研究思路为:
S1011221:当比较一对实体时,函数返回在[1,0]中相似值,值0表示两个实体完全不同,而值1表示完全相同;
S1011222:为了确定pair是否为所需的匹配关系,设定一个阈值,即相似值大于阈值的匹配对被认为是被正确探测到的。
进一步地,所述S1012:定义组合函数相异度;具体包括:
S10121:计算组合函数包含的各令牌组相异度;
S10122:计算组合函数相异度。
所述S10121的具体步骤如下:
S101211:将组合函数中处理单个属性的相似度度量方法称为令牌,并且相似度度量方法属于同一类别、处理属性相同的令牌被认为是相似的;
S101212:将相似的令牌分为一组,并将包含所有组的集合标记为GT,对于每个令牌组,其令牌权重的标准差计算如下:
Figure BDA0002799102560000091
其中,wij表示GT中jth令牌组中ith令牌的权重,nGT表示令牌组的数量,nj代表jth组中令牌的数量,avgj是组中权重的平均值,标准差根据最高标准差
Figure BDA0002799102560000093
(大约0.5,取决于令牌的数量)进行归一化。
S101213:在双曲函数的基础上定义一个令牌组的相异性,其中,双曲函数参数按经验选定如下:
Figure BDA0002799102560000092
其中,该双曲函数对得到的归一化标准差进行了修正,即标准差的归一化值等于0.5时不随函数个数的变化而变化,高于(或低于)0.5的值时随函数值的增加而增大(或减小),而对于具有单一令牌的组,由于令牌对差异性的贡献很大,因此得到最大差异性为1.0;
S101214:令牌组相异度计算:
Figure BDA0002799102560000101
所述S10122组合函数相异度,即各令牌组相异度的平均值,具体计算方式如下:
Figure BDA0002799102560000102
其中,组合函数相异度返回值在区间[0,1]取值,取值越接近1,组合内各函数越不相同。
进一步地,所述S1013:定义匹配结果相似度;具体包括:
S10131:为度量函数间输出的重叠,匹配结果交集的计算公式如下:
Figure BDA0002799102560000103
其中,nfc表示检测到某个实体匹配的函数数量,其取值在0到函数总数之间,nfcmax是nfc的最大值,ncnfc是指被nfc个函数检测到的实体匹配对的数量,nfc=i,i≥1,nlw是nfc的“非线性权重”,其值可以任意选择(最好选择[1,2]中的值),本申请取1.5;
S10132:匹配结果并集计算公式如下:
Figure BDA0002799102560000104
S10133:函数的输出匹配结果相似度,计算公式如下:
Figure BDA0002799102560000111
进一步地,所述S1014:利用实体匹配方法性能评估模型,基于组合函数相异度与匹配结果相似度拟合各函数质量,选取性能最优的一组匹配函数及阈值;具体步骤包括:
对组合函数相异度、匹配结果相似度、函数质量进行拟合,使用决策树、线性、支持向量、最紧邻、随机森林、AdaBoost、梯度提升、Bagging、极端随机树、lasso与岭回归等模型,通过将组合函数相异度、匹配结果相似度与实际组合函数平均F-measure值(f-m)相拟合,获取具有最高拟合优度、最强泛化能力的回归模型作为空间实体匹配方法性能评估模型。
作为一个或多个实施例,所述S102:利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度,并将大于设定阈值的兴趣点POI信息进行链接;具体步骤包括:
S1021:获取两家制图供应商服务器提供的所有兴趣点POI信息;
S1022:利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度;
S1023:将综合相似度大于设定阈值的空间实体匹配对进行链接,为后续兴趣点POI信息融合提供支持。
首先,为了检测由不同供应商定义的实体之间的匹配关系,需要对基于基本相似度计算的组合函数进行形式化处理。然后,为了估算匹配性能,我们需要探究函数特征,即函数之间的相异程度与函数输出结果之间的相似度。最后,根据前面步骤中得到的函数特征,对组合函数匹配性能进行评估。
本发明采用以下技术方案:将基于相似度计算的匹配函数分类,并对组合函数进行形式化统一表征;设计估算函数性能的函数特征,并通过线性、多项式等不同方式的拟合,获取具有较高拟合精度、较强泛化能力的实体匹配方法性能评估模型。
根据组合函数相异度与匹配结果相似度评价匹配函数质量,需要进一步验证以下结论:
(1)组合函数相异度越大,匹配结果相似度越大,它们检测到的空间实体匹配对越有可能是正确的匹配对;
(2)基于组合函数相异度与匹配结果相似度拟合得到的函数质量评价值与F-measure值具有相同的变化趋势。
通过在DBLP-ACM等五个数据集上进行的实验,可判定基本符合结论(1),如图2(a)-图2(e)、图3(a)-图3(e)、图4(a)-图4(e)、图5(a)-图5(e)所示,组合函数相异度与匹配结果相似度越大,对应的组合函数平均F-measure值越大,如图显示,圆的半径代表组合函数的F-measure值,半径较大的圆,即F-measure值较大的组合函数多分布在右上角。
图2(a)为数据集DBLP-ACM的组合函数(两个函数)相异度、匹配结果相似度分布;图2(b)为数据集Abt-Buy的组合函数(两个函数)相异度、匹配结果相似度分布;图2(c)为数据集Conference的组合函数(两个函数)相异度、匹配结果相似度分布;图2(d)为数据集Anatomy的组合函数(两个函数)相异度、匹配结果相似度分布;图2(e)为数据集Phenotype的组合函数(两个函数)相异度、匹配结果相似度分布。
图3(a)为数据集DBLP-ACM的组合函数(三个函数)相异度、匹配结果相似度分布;图3(b)为数据集Abt-Buy的组合函数(三个函数)相异度、匹配结果相似度分布;图3(c)为数据集Conference的组合函数(三个函数)相异度、匹配结果相似度分布;图3(d)为数据集Anatomy的组合函数(三个函数)相异度、匹配结果相似度分布;图3(e)为数据集Phenotype的组合函数(三个函数)相异度、匹配结果相似度分布。
图4(a)为数据集DBLP-ACM的组合函数(四个函数)相异度、匹配结果相似度分布;图4(b)为数据集Abt-Buy的组合函数(四个函数)相异度、匹配结果相似度分布;图4(c)为数据集Conference的组合函数(四个函数)相异度、匹配结果相似度分布;图4(d)为数据集Anatomy的组合函数(四个函数)相异度、匹配结果相似度分布;图4(e)为数据集Phenotype的组合函数(四个函数)相异度、匹配结果相似度分布。
图5(a)为数据集DBLP-ACM中所有组合函数相异度、匹配结果相似度分布;图5(b)为数据集Abt-Buy中所有组合函数相异度、匹配结果相似度分布;图5(c)为数据集Conference中所有组合函数相异度、匹配结果相似度分布;图5(d)为数据集Anatomy中所有组合函数相异度、匹配结果相似度分布;图5(e)为数据集Phenotype中所有组合函数相异度、匹配结果相似度分布。
对于结论(2),本申请使用了决策树、线性、支持向量、最紧邻、随机森林、AdaBoost、梯度提升、Bagging、极端随机树、lasso与岭回归等十一种回归模型,分别利用数据集测试了组合函数相异度、匹配结果相似度与实际组合函数平均F-measure值的拟合优度,得出随机森林回归方法针对三种类型的数据集均可得到最优的拟合优度,如表2所示,分别为0.762756185,0.633476672与0.699925872。
根据上述实验结果可得出:本申请提出的基于组合函数相异度与匹配结果相似度的实体匹配方法性能评估模型,能够较好地解决无标注数据情况下的空间实体匹配性能评估问题。
表1、实验使用的五个数据集
Figure BDA0002799102560000141
表2、不同类型数据集使用不同拟合方法得到的拟合优度值
Figure BDA0002799102560000142
Figure BDA0002799102560000151
实施例二
本实施例提供了基于空间实体匹配性能评估的多源兴趣点融合系统;
基于空间实体匹配性能评估的多源兴趣点融合系统,包括:
函数获取模块,其被配置为:基于空间实体匹配,利用组合函数相异度和输出结果相似度来进行评估,并获取性能最优的一组匹配函数及阈值;
链接模块,其被配置为:利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度,并将大于设定阈值的兴趣点POI信息进行链接;
查询请求发送模块,其被配置为:接收查询请求;发送所述查询请求给第一制图供应商服务器;所述查询请求包括至少一个关键字;
接收模块,其被配置为:接收第一制图供应商服务器返回的主兴趣点POI信息;
链接发送模块,其被配置为:根据主兴趣点POI信息的链接数据,发送请求给第二制图供应商服务器,接收返回的次兴趣点POI信息;
融合模块,其被配置为:融合主兴趣点POI信息与次兴趣点POI信息,并将信息提供给用户。
此处需要说明的是,上述函数获取模块、链接模块、查询请求发送模块、接收模块、链接发送模块和融合模块对应于实施例一中的步骤S101至S106,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.基于空间实体匹配性能评估的多源兴趣点融合方法,其特征是,包括:
基于空间实体匹配,利用组合函数相异度和输出结果相似度来进行评估,并获取性能最优的一组匹配函数及阈值;
利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度,并将大于设定阈值的兴趣点POI信息进行链接;
接收查询请求;发送所述查询请求给第一制图供应商服务器;所述查询请求包括至少一个关键字;
接收第一制图供应商服务器返回的主兴趣点POI信息;
根据主兴趣点POI信息的链接数据,发送请求给第二制图供应商服务器,接收返回的次兴趣点POI信息;
融合主兴趣点POI信息与次兴趣点POI信息,并将信息提供给用户;
所述基于空间实体匹配,利用组合函数相异度和输出结果相似度来进行评估,并获取性能最优的一组匹配函数及阈值,具体步骤包括:
(1)将空间实体匹配方法进行统一形式化处理,转换为不同类别的匹配函数的组合形式;
a:将应用于等效属性之间的相似度计算方法进行分类;
分为以下五类:
基于字符串;基于语言学;基于术语;基于语义;基于自然语言处理;
b:对组合函数进行形式化处理,并利用组合函数检测空间实体匹配对;
所述组合函数的形式为:
Figure 570100DEST_PATH_IMAGE001
其中simi对应属性atti,它有一个权重wi,表示函数wisimi(aimi)内相似度计算方法、属性的重要性;
(2)定义组合函数相异度:
a:计算组合函数包含的各令牌组相异度;
所述令牌组相异度计算:
Figure 782907DEST_PATH_IMAGE002
其中,
Figure 613328DEST_PATH_IMAGE003
为令牌权重的标准差;
Figure 948495DEST_PATH_IMAGE004
代表jth组中令牌的数量;
Figure 615099DEST_PATH_IMAGE005
为双曲函数参数;
b:计算组合函数相异度,即各令牌组相异度的平均值;
(3)定义匹配结果相似度:
a:计算匹配结果交集;
Figure 382329DEST_PATH_IMAGE006
其中,nfc表示检测到某个实体匹配的函数数量,其取值在0到函数总数之间,nfc max nfc的最大值,nc nfc 是指被nfc个函数检测到的实体匹配对的数量, nfc = i i≥1nlw nfc 的“非线性权重”;
b: 计算匹配结果并集;
Figure 880307DEST_PATH_IMAGE007
c: 基于匹配结果交集和匹配结果并集,计算匹配结果相似度;
(4)利用实体匹配方法性能评估模型,基于组合函数相异度与匹配结果相似度拟合各函数质量,选取性能最优的一组匹配函数及阈值。
2.如权利要求1所述的基于空间实体匹配性能评估的多源兴趣点融合方法,其特征是,利用实体匹配方法性能评估模型,基于组合函数相异度与匹配结果相似度拟合各函数质量,选取性能最优的一组匹配函数及阈值;具体步骤包括:
对组合函数相异度、匹配结果相似度、函数质量进行拟合,使用决策树、线性、支持向量、最紧邻、随机森林、AdaBoost、梯度提升、Bagging、极端随机树、lasso与岭回归模型,通过将组合函数相异度、匹配结果相似度与实际组合函数平均F-measure值相拟合,获取具有最高拟合优度和最强泛化能力的回归模型作为空间实体匹配方法性能评估模型。
3.如权利要求1所述的基于空间实体匹配性能评估的多源兴趣点融合方法,其特征是,所述利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度,并将大于设定阈值的兴趣点POI信息进行链接;具体步骤包括:
获取两家制图供应商服务器提供的所有兴趣点POI信息;
利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度;
将综合相似度大于设定阈值的空间实体匹配对进行链接,为后续兴趣点POI信息融合提供支持。
4.基于空间实体匹配性能评估的多源兴趣点融合系统,其特征是,包括:
函数获取模块,其被配置为:基于空间实体匹配,利用组合函数相异度和输出结果相似度来进行评估,并获取性能最优的一组匹配函数及阈值;
链接模块,其被配置为:利用性能最优的一组匹配函数及阈值,计算两家制图供应商服务器提供的各兴趣点POI信息的综合相似度,并将大于设定阈值的兴趣点POI信息进行链接;
查询请求发送模块,其被配置为:接收查询请求;发送所述查询请求给第一制图供应商服务器;所述查询请求包括至少一个关键字;
接收模块,其被配置为:接收第一制图供应商服务器返回的主兴趣点POI信息;
链接发送模块,其被配置为:根据主兴趣点POI信息的链接数据,发送请求给第二制图供应商服务器,接收返回的次兴趣点POI信息;
融合模块,其被配置为:融合主兴趣点POI信息与次兴趣点POI信息,并将信息提供给用户;
所述基于空间实体匹配,利用组合函数相异度和输出结果相似度来进行评估,并获取性能最优的一组匹配函数及阈值,具体步骤包括:
(1)将空间实体匹配方法进行统一形式化处理,转换为不同类别的匹配函数的组合形式;
a:将应用于等效属性之间的相似度计算方法进行分类;
分为以下五类:
基于字符串;基于语言学;基于术语;基于语义;基于自然语言处理;
b:对组合函数进行形式化处理,并利用组合函数检测空间实体匹配对;
所述组合函数的形式为:
Figure 589637DEST_PATH_IMAGE001
其中simi对应属性atti,它有一个权重wi,表示函数wisimi(aimi)内相似度计算方法、属性的重要性;
(2)定义组合函数相异度:
a:计算组合函数包含的各令牌组相异度;
所述令牌组相异度计算:
Figure 727226DEST_PATH_IMAGE002
其中,
Figure 609731DEST_PATH_IMAGE003
为令牌权重的标准差;
Figure 899898DEST_PATH_IMAGE004
代表jth组中令牌的数量;
Figure 527932DEST_PATH_IMAGE005
为双曲函数参数;
b:计算组合函数相异度,即各令牌组相异度的平均值;
(3)定义匹配结果相似度:
a:计算匹配结果交集;
Figure 965867DEST_PATH_IMAGE006
其中,nfc表示检测到某个实体匹配的函数数量,其取值在0到函数总数之间,nfc max nfc的最大值,nc nfc 是指被nfc个函数检测到的实体匹配对的数量, nfc = i i≥1nlw nfc 的“非线性权重”;
b: 计算匹配结果并集;
Figure 324167DEST_PATH_IMAGE007
c: 基于匹配结果交集和匹配结果并集,计算匹配结果相似度;
(4)利用实体匹配方法性能评估模型,基于组合函数相异度与匹配结果相似度拟合各函数质量,选取性能最优的一组匹配函数及阈值。
5.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-3任一项所述的方法。
6.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-3任一项所述的方法。
CN202011343134.5A 2020-11-25 2020-11-25 基于空间实体匹配性能评估的多源兴趣点融合方法及系统 Active CN112328915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011343134.5A CN112328915B (zh) 2020-11-25 2020-11-25 基于空间实体匹配性能评估的多源兴趣点融合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011343134.5A CN112328915B (zh) 2020-11-25 2020-11-25 基于空间实体匹配性能评估的多源兴趣点融合方法及系统

Publications (2)

Publication Number Publication Date
CN112328915A CN112328915A (zh) 2021-02-05
CN112328915B true CN112328915B (zh) 2023-02-28

Family

ID=74307944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011343134.5A Active CN112328915B (zh) 2020-11-25 2020-11-25 基于空间实体匹配性能评估的多源兴趣点融合方法及系统

Country Status (1)

Country Link
CN (1) CN112328915B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082165A (zh) * 2022-07-22 2022-09-20 山东师范大学 基于相似关系识别的产品创新设计方案推荐方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150026153A1 (en) * 2013-07-17 2015-01-22 Thoughtspot, Inc. Search engine for information retrieval system
CN104699767B (zh) * 2015-02-15 2018-02-02 首都经济贸易大学 一种面向中文语言的大规模本体映射方法
CN110020224B (zh) * 2017-12-28 2021-07-23 中国移动通信集团辽宁有限公司 地图兴趣点数据的关联方法、装置、设备及介质
CN109657019B (zh) * 2018-11-13 2021-05-04 斑马网络技术有限公司 地图数据融合方法、服务器、系统、存储介质及电子设备
CN110837607B (zh) * 2019-11-14 2023-03-10 腾讯云计算(北京)有限责任公司 兴趣点匹配方法、装置、计算机设备以及存储介质
CN111881377B (zh) * 2020-08-05 2024-01-26 腾讯科技(深圳)有限公司 位置兴趣点的处理方法及装置

Also Published As

Publication number Publication date
CN112328915A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
US9235638B2 (en) Document retrieval using internal dictionary-hierarchies to adjust per-subject match results
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
Wang et al. Q2semantic: A lightweight keyword interface to semantic search
KR20190118477A (ko) 엔티티 추천 방법 및 장치
CN108154198B (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
CN101419625B (zh) 一种基于最小可查询模式的Deep Web自适应爬取方法
JP2004005668A (ja) 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法
US12026462B2 (en) Word embedding model parameter advisor
KR100980579B1 (ko) 온톨로지에 대한 자연어 질의 검색 방법 및 시스템
Jiang et al. Ontology-based semantic search for open government data
Zhang et al. OIM-SM: A method for ontology integration based on semantic mapping
Liu et al. Domain ontology graph model and its application in Chinese text classification
CN112328915B (zh) 基于空间实体匹配性能评估的多源兴趣点融合方法及系统
Jang et al. Predictive mining of comparable entities from the web
Fang et al. Evaluating pattern matching queries for spatial databases
Jasbick et al. Some branches may bear rotten fruits: Diversity browsing vp-trees
Butt et al. RecOn: Ontology recommendation for structureless queries
CN110222156B (zh) 发现实体的方法和装置、电子设备、计算机可读介质
KR20160007057A (ko) 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
Qi et al. Similarity search with graph index on directed social network embedding
CN112270199A (zh) 基于CGAN方法的个性化语义空间关键字Top-K查询方法
Chen et al. A multi-source heterogeneous spatial big data fusion method based on multiple similarity and voting decision
Wang et al. Querying knowledge graphs with natural languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant