CN114064827A - 位置搜索方法、装置以及设备 - Google Patents

位置搜索方法、装置以及设备 Download PDF

Info

Publication number
CN114064827A
CN114064827A CN202010778066.9A CN202010778066A CN114064827A CN 114064827 A CN114064827 A CN 114064827A CN 202010778066 A CN202010778066 A CN 202010778066A CN 114064827 A CN114064827 A CN 114064827A
Authority
CN
China
Prior art keywords
geographic
word
weight
word segmentation
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010778066.9A
Other languages
English (en)
Inventor
李中男
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Navinfo Co Ltd
Original Assignee
Navinfo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Navinfo Co Ltd filed Critical Navinfo Co Ltd
Priority to CN202010778066.9A priority Critical patent/CN114064827A/zh
Publication of CN114064827A publication Critical patent/CN114064827A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种位置搜索方法、装置以及设备,获取位置相关词的分词结果,根据预设的地理词语与词语权重之间映射关系确定分词结果的权重,根据分词结果分词权重确定每个备选位置分别与地理关键词之间的相似度,将相似度最大的备选位置作为响应地理关键词的搜索结果。由于在相似度计算中考虑到每个分词结果的权重,区分每个分词结果在相关性的影响,进而区分两个相近备选位置与用户输入关键词之间相似度,使本方法能准确返回位置信息。

Description

位置搜索方法、装置以及设备
技术领域
本申请涉及地理信息技术领域,尤其涉及一种位置搜索方法、装置以及设备。
背景技术
随着定位技术的发展,位置搜索功能广泛应用于智能终端中各种应用程序中,为用户提供便捷的定位服务。
位置搜索功能基于如下原理:用户通过用户界面输入地理关键词,后台在数据库中搜索包含有地理关键词或者包含有与地理关键词相关的位置信息作为备选位置,并计算地理关键词与备选位置的相似度,返回相似度最高的位置信息。
然而,当存在多个相近的位置信息时,现有位置搜索功能无法准确返回定位结果。
发明内容
本申请提供一种位置搜索方法、装置以及设备,旨在解决现有位置搜索方法无法在存在多个相近的位置信息时准确范围定位结构的问题。
第一方面,本申请提供一种位置搜索方法,包括:
获取位置相关词的分词结果,其中,位置相关词包括:用户输入的地理关键词和备选位置集,备选位置中每个备选位置与地理关键词相关联;
根据预设的地理词语与词语权重之间映射关系确定分词结果的权重;
根据分词结果和分词权重,确定每个备选位置分别与地理关键词之间的相似度;
将所述相似度最大的备选位置作为响应地理关键词的搜索结果。
可选地,在根据预设的地理词语与词语权重之间映射关系确定分词结果的权重之前,方法具体包括:
获取地理词语的出现概率;
根据出现概率确定地理词语的词语权重;
根据地理词语的词语权重,确定映射关系。
可选地,根据出现概率确定地理词语的词语权重,具体包括:
根据出现概率和预设映射函数,确定词语权重;
其中,在映射函数中,第一出现概率对应的词语权重大于第二出现概率对应的词语权重,第一出现概率小于第二出现概率。
可选地,根据出现概率确定地理词语的词语权重,具体包括:
根据如下公式确定分词权重:
H(seg)=-p(seg)log(p(seg))
其中,H(seg)表示分词权重,p(seg)表示分词的出现概率,seg表示分词结果。
可选地,获取地理词语的出现概率,具体包括:
获取同一地理区域内位置信息,
对每个位置信息进行分词处理,得到地理词语;
对地理词语进行统计,确定地理词语的出现概率。
可选地,在获取地理词语的出现概率之前,方法包括:
判断地理词语是否为无效词;
若是,将词语权重设置为最小权重值;
若否,获取地理词语的出现概率,并根据出现概率确定词语权重。
可选地,根据分词结果和分词权重,确定每个备选位置分别与地理关键词之间的相似度,具体包括:
根据分词权重对每个分词结果进行数值化处理,生成数值化结果;
根据数值化结果,生成备选位置与所述地理关键词之间的相似度。
可选地,备选位置包括位置名称、位置地址和位置经纬度中任意一种。
第二方面,本申请提供一种位置搜索装置,包括:
获取模块,用于获取位置相关词的分词结果,其中,位置相关词包括:用户输入的地理关键词和备选位置集,备选位置集中每个备选位置与地理关键词相关联;
确定模块,用于根据预设的地理词语与词语权重之间映射关系确定分词结果的权重;
计算模块,用于根据分词结果和分词权重,确定每个备选位置分别与地理关键词之间的相似度;
选择模块,用于将相似度最大的备选位置作为响应地理关键词的搜索结果。
第三方面,本申请提供一种搜索设备,包括:存储器,处理器;
存储器;用于存储处理器可执行指令的存储器;
其中,处理器被配置为实现第一方面及可选方案所涉及的位置搜索方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现第一方面及可选方案所涉及的位置搜索方法。
本申请提供一种位置搜索方法、装置以及设备,为每个备选位置的分词结果设置分词权重,根据每个分词结果和分词权重计算每个备选位置与地理关键词的相似度,由于在相似度计算中考虑到每个分词结果的权重,提升每个备选位置与地理关键词的相似度的准确度,当存在多个相近的位置信息时,也能够区分每个位置信息与地理关键词的相似度,准确返回定位结果。在上述优选实施例中,将能够体现具体位置信息的分词结果设置较大的权重,增加该分词结果对整个备选位置的相似度的影响,提升定位准确度。
附图说明
图1为本申请提供的应用场景的示意图;
图2为本申请提供的发明构思的原理示意图;
图3为本申请实施例一提供的位置搜索方法的流程图;
图4为本申请实施例四提供的位置搜索装置的结构示意图;
图5为本申请实施例五提供的位置搜索设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着定位技术的发展,位置搜索功能广泛应用于智能终端中各种应用程序中,为用户提供便捷的定位服务。
位置搜索功能基于如下原理:用户通过用户界面输入地理关键词,后台在数据库中搜索包含有地理关键词或者包含有与地理关键词相关的位置信息作为备选位置,并计算地理关键词与备选位置的相似度,返回相似度最高的位置信息。
然而,当存在多个相近的位置信息时,现有位置搜索功能无法准确返回定位结果。例如:当用户输入“北京市丰台区看丹桥南开地小区”时,后台数据库中有两个相近的位置信息,其中一个为“丰台区看丹桥”,另一个为“看丹桥南开地小区”,两个位置信息中都包含有用户搜索关键词,无法区分上述两个位置与用户搜索关键词的相关性,进而无法返回准确位置信息。
如图1所示,下面描述本申请提供的位置搜索方法的应用场景,该应用场景可以应用于以下实施例。位置搜索方法的执行主体为服务器101。服务器101中存储有数据库,数据库中存储有某个地域内的位置信息。用户可以通过客户端102访问服务器101,用户在客户端102的用户界面上输入关键词,客户端102将关键词发送至服务器101,服务器101在数据库中确定与关键词相关的备选位置,并通过计算每个备选位置与关键词之间相关性,并按照相关性大小返回搜索结果。
本申请提供一种位置搜索方法、设备及存储介质,旨在解决现有技术中存在上述问题。如图2所示,本申请的发明构思是:对用户输入的关键词进行分词得到分词结果之后,为每个分词结果分配权重,引入了分词结果中的地理信息,大大增加了分词结果的信息含量。在计算分词结果与备选位置之间相似度时也将权重考虑在内,在计算相似度时,增加了区分度。可以区分两个相近备选位置与用户输入关键词之间相似度,准确返回位置信息。
如图3所示,本申请提供一种位置搜索方法包括如下步骤:
S201、获取位置相关词的分词结果。
其中,位置相关词包括备选位置集和地理关键词,地理关键词是用户输入的表示地理信息的关键词。备选位置集包括多个备选位置。在获取备选位置时,将数据库内所有位置信息与地理关键词进行匹配,将匹配度较高的位置信息作为备选位置,因此,备选位置与地理关键词相关联。
备选位置可以为位置名称、位置地址以及位置经纬度中任意一种。下面举例说明:“北京市丰台区看丹桥南开地小区”表示地理位置,“北京市丰台区看丹路6号”表示位置地址,“东经:116°23′17〃,北纬:39°54′27”表示位置经纬度。
当备选位置为位置名称和位置地址中任意一种时,本申请提供位置搜索方法可以应用于POI搜索服务,当备选位置为位置经纬度时,本申请提供的位置搜素方法可以应用于地理信息编码。
作为优选方案,可通过如下方式获取备选位置。对地理关键词进行分词处理,得到地理关键词的分词结果。计算地理关键词的分词结果和数据库中位置信息之间相似度,并按照相似度大小对位置信息进行排序,将排序靠前的位置信息作为备选位置。
其中,相似度计算可以是编辑距离(edit distance或者levenshtein distance)、最大公共子序(longest common subsequence,简称:LCS)、最长公共子串(longest commonsubstring,简称:LCS)、余弦相似度(cosine similarity)、欧式距离(euclideandistance)、汉明距离(hammming distance)、杰卡德距离(jaccard distance)、J-W距离(Jaro-Winker distance)中任意一种。
在获取备选位置之后,分别对备选位置和地理关键词进行分词处理,得到备选位置的分词结果和地理关键词的分词结果。分词处理方式为现有技术中常规技术,此处不再赘述。
S202、根据预设的地理词语与词语权重之间映射关系确定分词结果的分词权重。
其中,在设备初始化时,加载每个地理词语与词语权重之间映射表。地理词语是指用于表示地理信息的词语,例如:北京市。在得到分词结果之后,在映射表中查找每个备选位置的分词结果对应的词语权重,以及每个地理关键词的分词结果对应的词语权重,即可得到备选位置的分词结果的分词权重和地理关键词的分词结果的分词权重。
S203、根据分词结果和分词权重,确定每个备选位置分别与地理关键词之间的相似度。
其中,根据地理关键词的分词结果对应的分词权重,对地理关键词的分词结果进行数值化处理,得到数值化结果。针对每个备选位置,根据备选位置的分词结果对应的分词结果,对备选位置的分词结果进行数值化处理,得到数值化结果。再根据数值化结果计算确定备选位置与地理关键词之间的相似度。
其中,相似度计算可以是编辑距离(edit distance或者levenshtein distance)、最大公共子序(longest common subsequence,简称:LCS)、最长公共子串(longest commonsubstring,简称:LCS)、余弦相似度(cosine similarity)、欧式距离(euclideandistance)、汉明距离(hammming distance)、杰卡德距离(jaccard distance)、J-W距离(Jaro-Winker distance)中任意一种。
S204、将相似度最大的备选位置作为响应地理关键词的搜索结果。
其中,根据备选位置与地理关键词之间的相似度大小对备选位置进行排序,返回靠前的备选位置信息作为搜索结果。并在用户界面按照相似度从大至小排序方式显示备选位置。将相似度最大的备选位置作为响应地理关键词的搜索结果。
在本申请实施例提供的方法中,通过为地理关键词的分词结果和位置信息的分词结果设置权重,在计算地理关键词和位置信息之间相关性时,区分每个分词结果在相关性的影响,进而区分两个相近备选位置与用户输入关键词之间相似度,使本方法能准确返回位置信息。
下面重点描述本申请实施例二提供的位置搜索方法,该位置搜索方法包括如下步骤:
S301、对用户输入地理关键词进行分词处理,得到关键词分词结果。
其中,分词处理方式为现有技术中常规技术,此处不再赘述。下面举例说明:当用户输入“北京市丰台区看丹桥南开地小区”时,分词结果为“北京市”、“丰台区”、“看丹桥”、“南开地小区”。
S302、将分词结果与数据库中位置进行匹配,得到备选位置集。
其中,将分词结果与数据库中位置进行匹配具体是指,在数据库中确定包含分词结果的位置,将上述位置作为备选位置。
S303、获取位置相关词的分词结果。
其中,该步骤已经在S101中详细说明,此处不再赘述。
S304、根据预设的地理词语与词语权重之间映射关系确定分词结果的分词权重。
其中,采用如下方式确定地理词语与词语权重之间映射关系。判断地理词语是否为无效词。若是,将词语权重设置为最小权重值。若否,获取地理词语的出现概率,并根据出现概率确定词语权重。
无效词是指停用词或者错误词等情况,若判断该地理词语是无效词,该词语在相似度计算中所起贡献应该最小,因此,将该地理词语的词语权重设置为最小权重值。若地理词语不是无效词,则统计该地理词语的出现概率。根据出现概率确定地理词语的词语权重。再根据地理词语的词语权重确定映射关系。
可通过如下方式统计该地理词语的出现概率。获取同一地理区域内位置信息。对每个位置信息进行分词处理得到地理词语。对地理词语进行统计确定地理词语的出现概率。
下面举例说明如何统计地理词语的出现概率,以北京市丰台区该地理区域为例,获取丰台区内所有位置,并对所有位置进行分词,得到多个分词结果。统计每个分词结果在丰台区内所有位置中出现次数,将该出现次数作为地理词语的出现概率。
根据出现概率确定地理词语的词语权重,具体包括:根据出现概率和预设映射函数确定词语权重。其中,在映射函数中,第一出现概率对应的词语权重大于第二出现概率对应的词语权重,第一出现概率小于第二出现概率。也就是,地理词语出现概率越大,该地理词语的词语权重越小。地理词语出现概率越大,该地理词语所表现的地理信息越少。在北京市丰台区内所有位置,“北京市”和“丰台区”这两个地理词语必然出现概率比较大,所涵盖的地理信息比较小,对应的权重较小。相较于“北京市”和“丰台区”,“看丹桥”、“南开地小区”出现概率比较小,所涵盖的地理信息比较多,对应的权重更高。
在确定地理词语的出现概率后,根据如下公式确定词语权重:
H(seg)=-p(seg)log(p(seg))
其中,H(seg)表示词语权重,p(seg)表示地理词语的出现概率,seg表示地理词语,log表示底数大于1的对数函数。
在得到一个地理区域内的地理词语的词语权重后,对所有地理词语的词语权重进行求平均,当查找上述映射关系出现无法查到的情况时,可以将该分词结果的分词权重设置为平均权重。
S305、根据分词结果和分词权重,确定每个备选位置分别与地理关键词之间的相似度。
其中,该步骤已经在S103中详细说明,重复部分不再赘述。以余弦相似度为例说明计算相似度过程,获取备选位置的词频向量和地理关键词的词频向量,在词频向量中每个分量乘以分词权重,得到备选位置的最终词频向量和地理关键词的最终词频向量,在根据备选位置的最终词频向量和地理关键词的最终词频向量计算余弦相似度。
S306、将相似度最大的备选位置作为响应地理关键词的搜索结果。
其中,该步骤已经在S104中详细说明,重复部分不再赘述。
在本申请实施例中地理关键词和备选位置进行分词,以分词结果作为最基本计算单元,针对每个分词结果,确定该分词结果是否为无效词,若是,则设置为最小权重值,若否,查找对应的分词权重,若查找失败,将分词权重设置为平均权重。然后在具体的相似度计算算法中,将分词权重代入到相似度算法中,区分每个分词结果在相似度中影响程度。并将能够体现具体位置信息的分词结果设置较大的权重,增加该分词结果对整个备选位置的相似度的影响,提升定位准确度。
下面结合具体实例说明本申请实施例提供的位置搜索方法,位置搜索方法包括如下步骤:
S401、对用户输入地理关键词进行分词处理,得到关键词分词结果。
其中,当用户输入“北京市丰台区看丹桥南开地小区”时,分词结果为“北京市”、“丰台区”、“看丹桥”、“南开地小区”。
S402、将分词结果与数据库中位置进行匹配,得到备选位置集。
其中,在数据库中匹配到如下备选位置:其中一个为“丰台区看丹桥”,另一个为“看丹桥南开地小区”。
S403、获取位置相关词的分词结果。
其中,第一个备选位置为“丰台区看丹桥”,分词结果为“丰台区”和“看丹桥”。第二个备选位置为“看丹桥南开地小区”,分词结果为“看丹桥”和“南开地小区”。地理关键词的分词结果为“北京市”、“丰台区”、“看丹桥”、“南开地小区”。
S404、根据预设的地理词语与词语权重之间映射关系确定分词结果的分词权重。
其中,通过查找映射关系确定如下分词权重,“北京市”的权重为0.330,“丰台区”的权重为0.509,“看丹桥”的权重为0.734,“南开地小区”的权重0.750。
S405、根据分词结果和分词权重,确定每个备选位置分别与地理关键词之间的相似度。
其中,先计算备选位置和地理关键词的词频向量,再根据词频向量计算余弦相似度。地理关键词为“北京市丰台区看丹桥南开地小区”,其中一个备选位置POI1=“丰台区看丹桥”,另一个备选位置POI2=“看丹桥南开地小区”。
加权后的地理关键词的词频向量如下:
(1×0.33,1×0.509,2×0.734,2×0.750)=(0.33,0.509,1.468,1.5)
加权后的POI1词频向量如下:
(0,2×0.509,2×0.734,0)=(0,1.018,1.468,0)
加权后的POI2词频向量如下:
(0,0,2×0.734,2×0.750)=(0,0,1.468,1.5)
计算其中一个备选位置POI1与地理关键词之间相似度。
将地理关键词的词频向量当作向量A,将其中一个备选位置POI1词频向量当作向量B,N是词频向量的总长度,本实施例中总长度为4。
余弦相似度分子=0.33×0+0.509×1.018+1.468×1.468+1.5×0=2.673;
Figure BDA0002619208530000091
余弦相似度1=2.673/3.971≈0.6731
相应地,计算另一个备选位置POI2与地理关键词之间相似度。
余弦相似度分子=0.33×0+0.509×0+1.468×1.468+1.5×1.5=4.405;
Figure BDA0002619208530000101
余弦相似度2=4.405/5.261≈0.8373
基于上述分析,可知其中一个备选位置POI1的余弦相似度1(6731)<另一个备选位置POI2的余弦相似度2(0.8373)。
S406、将相似度最大的备选位置作为响应地理关键词的搜索结果。
其中,将相似度最大的备选位置作为搜索结果输出,也就是将第二个备选位置为“看丹桥南开地小区”作为搜索结果输出。
下面结合对比实施例说明本申请实施例提供的位置搜索方法的效果。地理关键词为“北京市丰台区看丹桥南开地小区”,其中一个备选位置POI1为“丰台区看丹桥”,另外一个备选位置POI2为“看丹桥南开地小区”。
地理关键词的频向量:(1,2,2,1)。
其中一个备选位置POI1的词频向量:(0,2,2,0)。
将地理关键词的词频向量当作向量A,将其中一个备选位置POI1的词频向量当作向量B,N是词频向量的总长度,本实施例中总长度为4。
余弦相似度分子=1×0+1×0+2×2+2×2=8;
Figure BDA0002619208530000102
余弦相似度1=8/5.9≈1.3355
相应地,计算另一个备选位置POI2与地理关键词之间相似度。
地理关键词的频向量:(1,1,2,2)。
其中一个备选位置POI1的词频向量:(0,0,2,2)。
余弦相似度分子=1×0+1×0+2×2+2×2=8;
Figure BDA0002619208530000103
余弦相似度2=8/5.9≈1.3355
基于上述分析,可知其中一个备选位置POI1的余弦相似度1(1.3355)=另一个备选位置POI2的余弦相似度2(1.3355)。
引入分词结果的分词权重能良好区分其中一个备选位置POI1和另一个备选位置POI2与地理关键词的相似性,另一个备选位置POI2与查询词相似度更高。
下面以最小编辑距离计算备选位置与地理关键词之间相似度距离说明。地理关键词为“北京市丰台区看丹桥南开地小区”,其中一个备选位置POI1为“丰台区看丹桥”,另外一个备选位置POI2为“看丹桥南开地小区”。
未引入分词权重计算的最小编辑距离如下:
edit_distance1(地理关键词,POI1)=2
edit_distance2(地理关键词,POI2)=2
从计算结果来看,POI1和POI2与查询词的相似性一致,无法作出有效区分。
引入分词权重计算的最小编辑距离如下:
“北京市”的权重为0.330,“丰台区”的权重为0.509,“看丹桥”的权重为0.734,“南开地小区”的权重为0.750。
edit_distance1(查询词,POI1)=1.08
edit_distance2(查询词,POI2)=0.92
引入分词结果的分词权重能良好区分其中一个备选位置POI1和另一个备选位置POI2与地理关键词的相似性,另一个备选位置POI2与查询词相似度更高。
如图4所示,本申请实施例四提供一种位置搜索装置,位置搜索装置500包括:
获取模块501,用于获取位置相关词的分词结果,其中,位置相关词包括:用户输入的地理关键词和备选位置集,备选位置集中每个备选位置与地理关键词相关联;
确定模块502,用于根据预设的地理词语与词语权重之间映射关系确定分词结果的权重;
计算模块503,用于根据分词结果分词权重,确定每个备选位置分别与地理关键词之间的相似度;
选择模块504,用于将相似度最大的备选位置作为响应地理关键词的搜索结果。
可选地,确定模块502还用于:
获取地理词语的出现概率;
根据出现概率确定地理词语的词语权重;
根据地理词语的词语权重,确定映射关系。
可选地,确定模块502具体用于:
根据出现概率和预设映射函数,确定词语权重;
其中,在映射函数中,第一出现概率对应的词语权重大于第二出现概率对应的词语权重,第一出现概率小于第二出现概率。
可选地,确定模块502具体用于:
根据如下公式确定分词权重:
H(seg)=-p(seg)log(p(seg))
其中,H(seg)表示分词权重,p(seg)表示分词的出现概率,seg表示分词结果。
可选地,确定模块502具体用于:
获取同一地理区域内位置信息,
对每个位置信息进行分词处理,得到地理词语;
对地理词语进行统计,确定地理词语的出现概率。
可选地,确定模块502具体用于:
判断地理词语是否为无效词;
若是,将词语权重设置为最小权重值。
可选地,计算模块503具体用于:
根据分词权重对每个分词结果进行数值化处理,生成数值化结果;
根据数值化结果,生成备选位置和地理关键词之间的相似度。
可选地,备选位置包括位置名称、位置地址和位置经纬度中任意一种。
图5为本申请实施例五示出的搜索设备的结构示意图。如图5所示,本实施例提供的搜索设备600包括:发送器601、接收器602、存储器603、及处理器604。
发送器601,用于发送指令和数据;
接收器602,用于接收指令和数据;
存储器603,用于存储计算机执行指令;
处理器604,用于执行存储器存储的计算机执行指令,以实现上述实施例中位置搜索方法所执行的各个步骤。具体可以参见前述位置搜索方法实施例中的相关描述。
可选地,上述存储器603既可以是独立的,也可以跟处理器604集成在一起。
当存储器603独立设置时,该设备还包括总线,用于连接存储器603和处理器604。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上设备所执行的位置搜索方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种位置搜索方法,其特征在于,包括:
获取位置相关词的分词结果,其中,所述位置相关词包括:用户输入的地理关键词和备选位置集,所述备选位置集中每个备选位置与所述地理关键词相关联;
根据预设的地理词语与词语权重之间映射关系确定所述分词结果的权重;
根据所述分词结果和所述分词权重,确定每个备选位置分别与所述地理关键词之间的相似度;
将所述相似度最大的备选位置作为响应所述地理关键词的搜索结果。
2.根据权利要求1所述的方法,其特征在于,在根据预设的地理词语与词语权重之间映射关系确定所述分词结果的权重之前,所述方法具体包括:
获取地理词语的出现概率;
根据所述出现概率确定所述地理词语的词语权重;
根据所述地理词语的词语权重,确定所述映射关系。
3.根据权利要求2所述的方法,其特征在于,根据所述出现概率确定所述地理词语的词语权重,具体包括:
根据所述出现概率和预设映射函数,确定所述词语权重;
其中,在所述映射函数中,第一出现概率对应的词语权重大于第二出现概率对应的词语权重,所述第一出现概率小于所述第二出现概率。
4.根据权利要求3所述的方法,其特征在于,根据所述出现概率确定所述地理词语的词语权重,具体包括:
根据如下公式确定所述分词权重:
H(seg)=-p(seg)log(p(seg))
其中,H(seg)表示分词权重,p(seg)表示分词的出现概率,seg表示分词结果。
5.根据权利要求2至4中任意一项所述的方法,其特征在于,获取所述地理词语的出现概率,具体包括:
获取同一地理区域内位置信息,
对每个位置信息进行分词处理,得到地理词语;
对所述地理词语进行统计,确定所述地理词语的出现概率。
6.根据权利要求2至4中任意一项所述的方法,其特征在于,在获取地理词语的出现概率之前,所述方法包括:
判断所述地理词语是否为无效词;
若是,将所述词语权重设置为最小权重值。
7.根据权利要求1所述的方法,其特征在于,根据所述分词结果和所述分词权重,确定每个备选位置分别与所述地理关键词之间的相似度,具体包括:
根据所述分词权重对每个分词结果进行数值化处理,生成数值化结果;
根据所述数值化结果,生成备选位置与所述地理关键词之间的相似度。
8.根据权利要求1至4中任意一项所述的方法,其特征在于,所述备选位置包括位置名称、位置地址和位置经纬度中任意一种。
9.一种搜索装置,其特征在于,包括:
获取模块,用于获取位置相关词的分词结果,其中,所述位置相关词包括:用户输入的地理关键词和备选位置集,所述备选位置集中每个备选位置与所述地理关键词相关联;
确定模块,用于根据预设的地理词语与词语权重之间映射关系确定所述分词结果的权重;
计算模块,用于根据所述分词结果和所述分词权重,确定每个备选位置分别与所述地理关键词之间的相似度;
选择模块,用于将所述相似度最大的备选位置作为响应所述地理关键词的搜索结果。
10.一种搜索设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为实现如权利要求1至8任一项所述的位置搜索方法。
CN202010778066.9A 2020-08-05 2020-08-05 位置搜索方法、装置以及设备 Pending CN114064827A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010778066.9A CN114064827A (zh) 2020-08-05 2020-08-05 位置搜索方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010778066.9A CN114064827A (zh) 2020-08-05 2020-08-05 位置搜索方法、装置以及设备

Publications (1)

Publication Number Publication Date
CN114064827A true CN114064827A (zh) 2022-02-18

Family

ID=80232370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010778066.9A Pending CN114064827A (zh) 2020-08-05 2020-08-05 位置搜索方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN114064827A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879901A (zh) * 2023-02-22 2023-03-31 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104375992A (zh) * 2013-08-12 2015-02-25 中国移动通信集团浙江有限公司 一种地址匹配的方法和装置
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN109033222A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 兴趣点poi与检索关键字的相关性分析方法和装置
CN109657163A (zh) * 2018-12-19 2019-04-19 拉扎斯网络科技(上海)有限公司 目的地址确定方法、装置、电子设备和存储介质
CN110019575A (zh) * 2017-08-04 2019-07-16 北京京东尚科信息技术有限公司 对地理地址进行标准化的方法和装置
CN110083681A (zh) * 2019-04-12 2019-08-02 中国平安财产保险股份有限公司 基于数据分析的搜索方法、装置及终端
CN110442603A (zh) * 2019-07-03 2019-11-12 平安科技(深圳)有限公司 地址匹配方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375992A (zh) * 2013-08-12 2015-02-25 中国移动通信集团浙江有限公司 一种地址匹配的方法和装置
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN110019575A (zh) * 2017-08-04 2019-07-16 北京京东尚科信息技术有限公司 对地理地址进行标准化的方法和装置
CN109033222A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 兴趣点poi与检索关键字的相关性分析方法和装置
CN109657163A (zh) * 2018-12-19 2019-04-19 拉扎斯网络科技(上海)有限公司 目的地址确定方法、装置、电子设备和存储介质
CN110083681A (zh) * 2019-04-12 2019-08-02 中国平安财产保险股份有限公司 基于数据分析的搜索方法、装置及终端
CN110442603A (zh) * 2019-07-03 2019-11-12 平安科技(深圳)有限公司 地址匹配方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879901A (zh) * 2023-02-22 2023-03-31 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台
CN115879901B (zh) * 2023-02-22 2023-07-28 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台

Similar Documents

Publication Publication Date Title
US8156099B2 (en) Interpreting local search queries
US8682646B2 (en) Semantic relationship-based location description parsing
US8959084B2 (en) Identifying locations
JP5462361B2 (ja) マップサーチのためのクエリパーシング
US9110978B2 (en) Method for matching queries with answer items in a knowledge base
JP5597255B2 (ja) 単語の重みに基づいた検索結果の順位付け
US9218412B2 (en) Searching a database of listings
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN107203526B (zh) 一种查询串语义需求分析方法及装置
US20170308560A1 (en) Location Searching with Category Indices
CN103377226A (zh) 一种智能检索方法及其系统
WO2013134287A1 (en) Automatic input signal recognition using location based language modeling
CN110598791A (zh) 地址相似度评价方法、装置、设备及介质
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
CN111859013A (zh) 数据处理方法、装置、终端和存储介质
CN114064827A (zh) 位置搜索方法、装置以及设备
US11487937B2 (en) Location query processing and scoring
CN111177585A (zh) 地图poi反馈方法及装置
CN110647537A (zh) 数据搜索方法、装置及存储介质
CN109241208B (zh) 地址定位、地址监测、信息处理方法及装置
CN112579713B (zh) 地址识别方法、装置、计算设备及计算机存储介质
CN114579883A (zh) 地址查询方法、获取地址向量表示模型的方法及对应装置
US7580942B2 (en) Indexing and ranking processes for directory assistance services
KR102436373B1 (ko) 전자 디바이스에서 수신된 입력 스트링에 기반한 하나 이상의 다수 단어 후보들을 제안하는 방법
US10204139B2 (en) Systems and methods for processing geographic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination