CN111460327A - 兴趣地搜索方法及装置、存储介质、计算机设备 - Google Patents
兴趣地搜索方法及装置、存储介质、计算机设备 Download PDFInfo
- Publication number
- CN111460327A CN111460327A CN202010160920.5A CN202010160920A CN111460327A CN 111460327 A CN111460327 A CN 111460327A CN 202010160920 A CN202010160920 A CN 202010160920A CN 111460327 A CN111460327 A CN 111460327A
- Authority
- CN
- China
- Prior art keywords
- word
- interest
- address
- words
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种兴趣地搜索方法及装置、存储介质、计算机设备,该方法包括:根据搜索词,从地图兴趣词中捞取出与所述搜索词匹配的地址词;基于所述地址词对应的地址片段信息,建立地址片段集合;对所述搜索词进行分词后,对命中所述地址片段集合的分词标注地址标签;在所述地图兴趣词中提取出包含所述地址标签的分词对应的匹配兴趣词。本申请在用户进行兴趣词的搜索过程中,结合预设的地图兴趣词对搜索词实现理解和分析,最终从地图兴趣词中提取出用户可能感兴趣的匹配兴趣词,以便实现为用户推荐兴趣地的效果,与现有技术中基于经纬度进行推荐的方式相比,减少了计算量的同时,基于文本语义的推荐方式也提高了推荐的准确性。
Description
技术领域
本申请涉及互联网技术领域,尤其是涉及到一种兴趣地搜索方法及装置、存储介质、计算机设备。
背景技术
在O2O关键词搜索中,有一部分用户会使用与地址相关的一些搜索词进行搜索,利用这些地址相关的搜索词对应的经纬度可以匹配到附近一定范围内的店铺,从而可以认为这些店铺信息是用户感兴趣的信息,向用户进行兴趣地的推荐。
但是在一些场景下,这些被认为是用户感兴趣的店铺名称中并不一定包含用户输入的搜索词,而用户在输入这些搜索词时可能想要找到的是包含搜索词全部或部分文本的店铺,此时,运用现有技术的方法就无法很好的应对这种情况。
如何更好的理解用户输入的搜索词,并基于搜索词进行兴趣地搜索已成为本领域中的热点问题。
发明内容
有鉴于此,本申请提供了一种兴趣地搜索方法及装置、存储介质、计算机设备。
根据本申请的一个方面,提供了一种兴趣地搜索方法,包括:
根据搜索词,从地图兴趣词中捞取出与所述搜索词匹配的地址词;
基于所述地址词对应的地址片段信息,建立地址片段集合;
对所述搜索词进行分词后,对命中所述地址片段集合的分词标注地址标签;
在所述地图兴趣词中提取出包含所述地址标签的分词对应的匹配兴趣词。
具体地,所述根据搜索词,从地图兴趣词中捞取出与所述搜索词匹配的地址词,具体包括:
获取所述搜索词的第一粒度分词;
计算所述第一粒度分词与所述地图兴趣词的相似度,并将与所述第一粒度分词的相似度满足预设相似度规则的所述地图兴趣词确定为所述地址词。
具体地,所述基于所述地址词对应的地址片段信息,建立地址片段集合,具体包括:
按照地址词获取规则,获取与所述地址词对应的地址片段信息,并基于所述地址片段信息建立所述地址片段集合。
具体地,所述对所述搜索词进行分词后,对命中所述地址片段集合的分词标注地址标签,具体包括:
获取所述搜索词的第二粒度分词,其中,所述第一粒度分词的分词粒度大于所述第二粒度分词的分词粒度;
查询与所述地址片段集合中的所述地址片段信息匹配的所述第二粒度分词,并标注所述地址标签。
具体地,所述在所述地图兴趣词中提取出包含所述地址标签的分词对应的匹配兴趣词之后,所述方法还包括:
计算所述搜索词与所述匹配兴趣词的匹配度;
获取所述匹配度大于匹配度阈值的所述匹配兴趣词,并展示与所述匹配兴趣词对应的店铺信息。
具体地,所述根据搜索词,从地图兴趣词中捞取出与所述搜索词匹配的地址词之前,所述方法还包括:
获取所述搜索词以及地图兴趣点信息,其中,所述地图兴趣点信息包括地图兴趣点名称以及地图兴趣点类目;
对所述搜索词与所述地图兴趣点名称的相似度符合预设相似度筛选条件的所述地图兴趣点进行筛选,并统计筛选后的所述地图兴趣点对应的各个类目的数量;
将数量从大到小排名前N的类目对应的所述地图点名称作为所述地图兴趣词。
具体地,所述将数量从大到小排名前N的类目对应的所述地图点名称作为所述地图兴趣词之后,所述方法还包括:
若所述地图兴趣词对应有边界信息,则基于所述边界信息获取所述地图兴趣词对应的店铺信息;
若所述地图兴趣词未对应有边界信息,则基于与所述地图兴趣词类目相同的其他地图兴趣词的中心点信息以及边界信息,计算所述其他地图兴趣词的中心点与最远边界点的距离平均值,并按照所述距离平均值确定所述地图兴趣词对应的店铺信息。
根据本申请的另一方面,提供了一种兴趣地搜索装置,包括:
地址词捞取模块,用于根据搜索词,从地图兴趣词中捞取出与所述搜索词匹配的地址词;
地址片段集合建立模块,用于基于所述地址词对应的地址片段信息,建立地址片段集合;
地址标签标注模块,用于对所述搜索词进行分词后,对命中所述地址片段集合的分词标注地址标签;
兴趣词匹配模块,用于在所述地图兴趣词中提取出包含所述地址标签的分词对应的匹配兴趣词。
具体地,所述地址词捞取模块,具体包括:
第一分词单元,用于获取所述搜索词的第一粒度分词;
地址词确定单元,用于计算所述第一粒度分词与所述地图兴趣词的相似度,并将与所述第一粒度分词的相似度满足预设相似度规则的所述地图兴趣词确定为所述地址词。
具体地,所述地址片段集合建立模块,具体用于:
按照地址词获取规则,获取与所述地址词对应的地址片段信息,并基于所述地址片段信息建立所述地址片段集合。
具体地,所述地址标签标注模块,具体包括:
第二分词单元,用于获取所述搜索词的第二粒度分词,其中,所述第一粒度分词的分词粒度大于所述第二粒度分词的分词粒度;
地址标签标注单元,用于查询与所述地址片段集合中的所述地址片段信息匹配的所述第二粒度分词,并标注所述地址标签。
具体地,所述装置还包括:
匹配度计算模块,用于在所述地图兴趣词中提取出包含所述地址标签的分词对应的匹配兴趣词之后,计算所述搜索词与所述匹配兴趣词的匹配度;
店铺信息展示模块,用于获取所述匹配度大于匹配度阈值的所述匹配兴趣词,并展示与所述匹配兴趣词对应的店铺信息。
具体地,所述装置还包括:
兴趣点信息获取模块,用于根据搜索词,从地图兴趣词中捞取出与所述搜索词匹配的地址词之前,获取所述搜索词以及地图兴趣点信息,其中,所述地图兴趣点信息包括地图兴趣点名称以及地图兴趣点类目;
类目筛选模块,用于对所述搜索词与所述地图兴趣点名称的相似度符合预设相似度筛选条件的所述地图兴趣点进行筛选,并统计筛选后的所述地图兴趣点对应的各个类目的数量;
地图兴趣词确定模块,用于将数量从大到小排名前N的类目对应的所述地图点名称作为所述地图兴趣词。
具体地,所述装置还包括:
第一店铺信息获取模块,用于将数量从大到小排名前N的类目对应的所述地图点名称作为所述地图兴趣词之后,若所述地图兴趣词对应有边界信息,则基于所述边界信息获取所述地图兴趣词对应的店铺信息;
第二店铺信息获取模块,用于若所述地图兴趣词未对应有边界信息,则基于与所述地图兴趣词类目相同的其他地图兴趣词的中心点信息以及边界信息,计算所述其他地图兴趣词的中心点与最远边界点的距离平均值,并按照所述距离平均值确定所述地图兴趣词对应的店铺信息。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述兴趣地搜索方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述兴趣地搜索方法。
借由上述技术方案,本申请提供的一种兴趣地搜索方法及装置、存储介质、计算机设备,基于用户的搜索词,首先从预设的地图兴趣词中捞取出与搜索词匹配的地址词,然后根据与地址词对应的地址片段信息对搜索词的分词进行地址标签标注,最后获取包含标注有地址标签分词的匹配兴趣词,从而实现为用户推荐兴趣词。本申请在用户进行兴趣词的搜索过程中,结合预设的地图兴趣词对搜索词实现理解和分析,最终从地图兴趣词中提取出用户可能感兴趣的匹配兴趣词,以便实现为用户推荐兴趣地的效果,与现有技术中基于经纬度进行推荐的方式相比,减少了推荐计算量的同时,基于文本语义的推荐方式也提高了推荐的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种兴趣地搜索方法的流程示意图;
图2示出了本申请实施例提供的另一种兴趣地搜索方法的流程示意图;
图3示出了本申请实施例提供的一种地图兴趣点信息的获取方法的流程示意图;
图4示出了本申请实施例提供的一种兴趣地搜索装置的结构示意图;
图5示出了本申请实施例提供的另一种兴趣地搜索装置的结构示意图;
图6示出了本申请实施例提供的一种地图兴趣点信息的获取装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种兴趣地搜索方法,如图1所示,该方法包括:
步骤101,根据搜索词,从地图兴趣词中捞取出与搜索词匹配的地址词。
本申请实施例提供的一种兴趣地搜索方法,基于用户输入的搜索词,在预先获取到的地图兴趣词中捞取到与输入的搜索词相匹配的地址词,其中,地图兴趣词主要是指AOI(area of interest),即信息面,也叫兴趣面,指的是地图数据中的区域状的地理实体。也就是说,当用户输入了一个感兴趣的搜索词时,首先应从地图兴趣词中去寻找与这个搜索词相关、相似的地理实体,并认为寻找到的这个地理实体可以反应出用户的此次搜索兴趣,以便后续在向用户推荐兴趣地时,可以以这个地理实体为依据进行推荐,捞取出的与搜索词匹配的地图兴趣词在这里称为地址词。例如用户输入的搜索词是“西溪湿地美食”,可以捞取出地址词“西溪国家湿地公园”,从而在后续的兴趣地推荐时可以以“西溪国家湿地公园”为参考位置,向用户推荐“西溪国家湿地公园”范围内或周边的美食。
步骤102,基于地址词对应的地址片段信息,建立地址片段集合。
为了提高兴趣地推荐的全面性、合理性,从地图兴趣词中捞取出与搜索词匹配的地址词后,可以从地址词中提取出后续在进行兴趣地推荐时所需的地址片段信息,例如在上述步骤中捞取出的地址词为“西溪国家湿地公园”,如果在进行兴趣地推荐时仅推荐“西溪国家湿地公园”范围内或周边的内容,可能会造成兴趣地推荐的局限性,导致推荐不准确。因此,本申请实施例基于上述捞取的与搜索词匹配的地址词,获取与地址词对应的地址片段信息,以得到有助于扩大兴趣词的推荐范围的地址片段信息,另外,可以将这些地址片段信息构建为一个地址片段集合,以便在进行兴趣地推荐时参考该地址片段集合中的地址片段信息,实现兴趣地的全面、可靠的推荐。例如对于地址词“西溪国家湿地公园”对应的地址片段信息可以包括“西溪湿地”而忽略其中的“国家”和“公园”,这样在后续进行兴趣地推荐时,可以以“西溪湿地”作为主要推荐依据,而不将“国家”和“公园”作为兴趣地推荐的考虑因素。
步骤103,对搜索词进行分词后,对命中地址片段集合的分词标注地址标签。
为了提供兴趣地推荐的精准性,在构建地址片段集合后,还应避免地址词中的不相关因素对兴趣地推荐造成影响,例如若用户的搜索词是“杭州湿地”,捞取的关键词是“西溪国家湿地公园”,而“西溪国家湿地公园”对应的地址片段信息为“西溪湿地”,此时如果是根据“西溪湿地”来进行推荐,则有可能造成推荐地点不准确,忽略了杭州其他湿地的地点。因此,在本申请实施例中,需要对搜索词进行分词,而后逐个检查得到的分词是否与地址片段集合中的地址片段信息相符,若相符,则将该分词打上地址标签,以提供更加准确的词语用于后续根据标注了地址标签的词语进行兴趣地推荐。例如,地址片段集合中包括的地址片段信息为“西溪湿地”,搜索词的分词为“西溪”和“湿地”,则“西溪”和“湿地”都能够命中“西溪湿地”的地址片段信息,则可以为“西溪”和“湿地”都打上地址标签,而如果搜索词的分词为“杭州”和“湿地”,则只有“湿地”能够命中“西溪湿地”的地址片段信息,则可以为“湿地”打上地址标签。
步骤104,在地图兴趣词中提取出包含地址标签的分词对应的搜索兴趣词。
在上述实施例中,在为搜索词的分词标注好地址标签后,就可以按照这些地址标签进行地图兴趣词的推荐了,具体来说,在地图兴趣词中提取出包含有这些标注地址标签的分词的部分,例如标注地址标签的分词为“西溪”和“湿地”,可以将地图兴趣词“西溪国家湿地公园”、“西溪湿地博物馆”等作为搜索兴趣词提取出来,从而向用户推荐,即基于用户输入的搜索词,向其推荐用户可能感兴趣的兴趣词。
通过应用本实施例的技术方案,基于用户的搜索词,首先从预设的地图兴趣词中捞取出与搜索词匹配的地址词,然后根据与地址词对应的地址片段信息对搜索词的分词进行地址标签标注,最后获取包含标注有地址标签分词的匹配兴趣词,从而实现为用户推荐兴趣词。本申请实施例在用户进行兴趣词的搜索过程中,结合预设的地图兴趣词对搜索词实现理解和分析,最终从地图兴趣词中提取出用户可能感兴趣的匹配兴趣词,以便实现为用户推荐兴趣地的效果,与现有技术中基于经纬度进行推荐的方式相比,减少了推荐计算量的同时,基于文本语义的推荐方式也提高了推荐的准确性。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种兴趣地搜索方法,如图2所示,该方法包括:
步骤201,获取搜索词的第一粒度分词。
由于用户输入的搜索词通常是依据个人主观表述方式进行的表达,不同用户的表述方式可能各不相同,为了能够更好的理解不同用户的表述方式,更加方便、准确的找出地图兴趣词中与搜索词相匹配的地址词,本申请实施例中先对搜索词进行分词,将搜索词进行拆分,将用户输入的搜索词中符合预定的表述方式的内容拆分出来,从而可以基于拆分得到的分词进行地址词获取。在分词过程中,在此一般采用“大粒度”分词的方式进行分词,得到第一粒度分词,尽量在能够获取预定表述方式的内容的同时,保留用户的真实语义。分词的粒度可以理解为对词语的拆分的细致程度,例如,以“支付宝大楼”为例进行分词,大粒度分词为“支付宝大楼”,中粒度分词为“支付宝”、“大楼”,小粒度分词为“支付”、“宝”、“大楼”。
步骤202,计算第一粒度分词与地图兴趣词的相似度,并将与第一粒度分词的相似度满足预设相似度规则的地图兴趣词确定为地址词。
在上述实施例中,对搜索词进行第一粒度分词以后,通过计算第一粒度分词与地图兴趣词的字符串相似度的方式,得到搜索词对应的第一粒度分词与每个地图兴趣词之间的相似度,从而找出与第一粒度分词相似度最高的一个或几个地图兴趣词,或者相似度大于预设相似度阈值的一个或几个地图兴趣词,并将找出的地图兴趣词确定为与该搜索词对应的地址词。
步骤203,按照地址词获取规则,获取与地址词对应的地址片段信息,并基于地址片段信息建立地址片段集合。
由于地址词是地图数据中的区域状的地理实体,其命名规则可能不符合预定的表述形式,如果按照地址词直接进行兴趣词推荐可能会造成推荐不准确,因此基于预设的地址词获取规则,从地址词中提取出地址片段信息,地址片段信息可以理解为用于表述地理实体的关键片段,这些关键片段一般是按照人为规定来进行获取,也即地址词获取规则可以是认为制定的规则,规则中包含了任一地图兴趣词对应的地址片段信息,当然,由于地址片段信息可以理解为用于表述地理实体的关键片段,而用户输入搜索词时一般也会按照个人表述习惯输入其自身认为的关键片段,因此地图兴趣词对应的地址片段信息,也可以通过对大量用户输入的历史搜索词进行统计分析来确定。例如地址词为“西溪国家湿地公园”,则可以从中提取出关键片段“西溪湿地”。进而获取到与地址词对应的地址片段后,利用这些地址片段建立地址片段集合。
步骤204,获取搜索词的第二粒度分词,其中,第一粒度分词的分词粒度大于第二粒度分词的分词粒度。
步骤205,查询与地址片段集合中的地址片段信息匹配的第二粒度分词,并标注地址标签。
在步骤204和步骤205中,按照第二粒度对搜索词进行分词,获取搜索词对应的较细粒度的分词,并逐个查询第二粒度分词是否能够命中地址片段集合中包含的地址片段信息,具体可以采用前向最大匹配法进行查询,从左到右将地址片段文本中的几个连续字符与第二粒度分词进行匹配,如果命中,则将第二粒度分词标注地址标签。例如搜索词“西溪湿地美食”的第二粒度分词为“西溪湿地”、“美食”,地址片段集合中的地址片段信息为“西溪湿地”,第二粒度分词“西溪湿地”命中地址片段信息,第二粒度分词“美食”没有命中地址片段信息,则可以将“西溪湿地”标注上地址标签。
步骤206,在地图兴趣词中提取出包含地址标签的分词对应的匹配兴趣词。
在上述实施例中,对搜索词的第二粒度分词标注好地址标签后,按照标注有地址标签的第二粒度分词从地图兴趣词中进行匹配兴趣词的提取,若地图兴趣词中包含第二粒度分词,则认为该地图兴趣词是要寻找的匹配兴趣词。该部分可以实现将空间召回转文本查询的过程,一个标注有地址标签的第二粒度分词只需要查询对应的地图兴趣词的名称,而不需要将用户输入的搜索词转换为可能的经纬度,再基于经纬度匹配相应的地图兴趣词,匹配过程更加快捷、准确。
步骤207,计算搜索词与匹配兴趣词的匹配度。
步骤208,获取匹配度大于匹配度阈值的匹配兴趣词,并展示与匹配兴趣词对应的店铺信息。
在步骤207和步骤208中,找到匹配兴趣词之后,为了确保兴趣词寻找的准确性以及后续推荐内容的准确性,本申请实施例还需要对匹配兴趣词与搜索词的匹配度进行校验,可以利用匹配度预测模型来计算搜索词与匹配兴趣词之间的匹配度。使用训练的匹配度预测模型预测该搜索词是表示该匹配兴趣词的可能性,对每一个搜索词到匹配兴趣词都会打一个分数,在一个阈值以上的则认为该搜索词是在描述该匹配兴趣词。例如“西溪湿地”是在描述“杭州西溪湿地国家森林公园”。
模型训练方法具体可以包括:1、样本获取,获取历史搜索词,并从地图兴趣词是否对应历史搜索词进行标注,如果搜索词能够表示地图兴趣词则标注为1,否则标注为0。2、特征获取,计算历史搜索词与地图兴趣词之间的文本相似度、类目相似度以及语义相似度,其中,文本相似度基于字和词的jarccard距离,去掉地图兴趣词前缀和后缀的余弦相似度,例如杭州军休大厦,去掉杭州和大厦,剩余军休,计算军休和搜索词之间的余弦相似度,类目相似度,例如搜索词的类目为体育场,地图兴趣词的类目为体育场所,不同的类目对应有不同的向量,通过计算余弦相似度可以获得相应的类目相似度,语义相似度通过将搜索词和地图兴趣词进行单词映射,得到搜索词和地图兴趣词的语义表达式,从而计算其语义表达式之间的相似度。3、模型训练,依据样本的三种相似度特征,训练决策树模型,从而利用训练后的预测模型对搜索词表示地图兴趣词的可能性进行0~1范围内的打分,如果得分大于特定阈值,则认为该搜索词能够表示这个地图兴趣词。
另外,在确定了搜索词对应的匹配兴趣词后,可以将该兴趣词以及该兴趣词对应的店铺信息进行展示,例如将匹配兴趣词展示在显示界面的最顶端,在展示其对应的店铺信息时,所展示的店铺信息还可以包括该店铺与该匹配兴趣词对应的地理实体之间的位置关系,例如在该地理实体范围内,或距离该范围多少米等等。
进一步的,为了完整说明本实施例的具体实施过程,本申请实施例还提供了一种地图兴趣点信息的获取方法,图3示出了本申请实施例提供的一种地图兴趣点信息的获取方法的流程示意图,如图3所示,该方法包括:
步骤301,获取搜索词以及地图兴趣点信息,其中,地图兴趣点信息包括地图兴趣点名称以及地图兴趣点类目。
步骤302,对搜索词与地图兴趣点名称的相似度符合预设相似度筛选条件的地图兴趣点进行筛选,并统计筛选后的地图兴趣点对应的各个类目的数量。
步骤303,将数量从大到小排名前N的类目对应的地图点名称作为地图兴趣词。
在步骤301至步骤303中,提供了一种从地图兴趣点信息中提取地图兴趣词的方法,这里的地图兴趣点是指POI,POI是“Point of Interest”的缩写,中文可以翻译为“兴趣点”。在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。地图兴趣点信息中,含有类目信息以及该兴趣点的名称。使用兴趣点的名称计算出与搜索词的文本相似度(具体可以计算搜索词的第二粒度分词与兴趣点名称的余弦相似度),从中筛选出相似度比较高的地图兴趣点,并基于筛选后的地图兴趣点的类目,统计每个类目对应的地图兴趣点的数量,筛选出top N的类目,并将这N个类目对应的地图点提取出来,将这些地图点名称作为地图兴趣词。从而从地图中已知的兴趣点信息中提取用户可能感兴趣类目的地图兴趣词,以便后续利用如图2所示的方法基于这些地图兴趣词进行推荐。
步骤304,若地图兴趣词对应有边界信息,则基于边界信息获取地图兴趣词对应的店铺信息。
步骤305,若地图兴趣词未对应有边界信息,则基于与地图兴趣词类目相同的其他地图兴趣词的中心点信息以及边界信息,计算其他地图兴趣词的中心点与最远边界点的距离平均值,并按照距离平均值确定地图兴趣词对应的店铺信息。
基于步骤301至步骤303提取的地图兴趣词,在步骤304和步骤305中,部分地图兴趣词对应的信息中本身就包含有边界信息(很多经纬度拼接起来,来描述该地图兴趣词的地理实体的边界),基于边界信息以及店铺的经纬度信息,判断哪些店铺在边界信息范围内,以及哪些店铺在该地理实体的边界附近(具体可以采用空间匹配的方式获取周边店铺,周边范围可以依据实际情况来确定,在此不做限定),从而将这些店铺确定为地图兴趣词对应的店铺,当用户输入的搜索词与某个地图兴趣词匹配时,可以向用户输出与该地图兴趣词对应的店铺信息,以实现兴趣地推荐。
对于另一部分不包含边界信息的地图兴趣词来说,其对应的边界信息可以根据与其类目相同的其他的包含边界信息的地图兴趣词的边界信息来确定,例如地图兴趣词1没有对应的原始边界信息,而与兴趣词1的类目相同的兴趣词2和3都对应有原始边界信息,那么可以计算兴趣词2的中心点与最远边界点的距离A,以及兴趣词3的中心点与最远边界点的距离B,将距离A和距离B的距离平均值C作为确定兴趣词1的边界信息的条件之一,具体地,兴趣词1的边界为以兴趣词1的中心点为圆心,距离平均值C为半径的圆,而后继续在所计算出的兴趣词1的边界范围内以及周边去寻找对应的店铺信息。
具体地,店铺信息包括但不限于店铺名称、店铺经纬度以及店铺与地图兴趣词所在位置的位置关系。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种兴趣地搜索装置,如图4所示,该装置包括:地址词捞取模块41、地址片段集合建立模块42、地址标签标注模块43、兴趣词匹配模块44。
地址词捞取模块41,用于根据搜索词,从地图兴趣词中捞取出与搜索词匹配的地址词;
地址片段集合建立模块42,用于基于地址词对应的地址片段信息,建立地址片段集合;
地址标签标注模块43,用于对搜索词进行分词后,对命中地址片段集合的分词标注地址标签;
兴趣词匹配模块44,用于在地图兴趣词中提取出包含地址标签的分词对应的匹配兴趣词。
在具体的应用场景中,如图5所示,地址词捞取模块41,具体包括:第一分词单元411、地址词确定单元412。
第一分词单元411,用于获取搜索词的第一粒度分词;
地址词确定单元412,用于计算第一粒度分词与地图兴趣词的相似度,并将与第一粒度分词的相似度满足预设相似度规则的地图兴趣词确定为地址词。
在具体的应用场景中,如图5所示,地址片段集合建立模块42,具体用于:按照地址词获取规则,获取与地址词对应的地址片段信息,并基于地址片段信息建立地址片段集合。
在具体的应用场景中,如图5所示,地址标签标注模块43,具体包括:第二分词单元431、地址标签标注单元432。
第二分词单元431,用于获取搜索词的第二粒度分词,其中,第一粒度分词的分词粒度大于第二粒度分词的分词粒度;
地址标签标注单元432,用于查询与地址片段集合中的地址片段信息匹配的第二粒度分词,并标注地址标签。
在具体的应用场景中,如图5所示,该装置还包括:匹配度计算模块45、店铺信息展示模块46。
匹配度计算模块45,用于在地图兴趣词中提取出包含地址标签的分词对应的匹配兴趣词之后,计算搜索词与匹配兴趣词的匹配度;
店铺信息展示模块46,用于获取匹配度大于匹配度阈值的匹配兴趣词,并展示与匹配兴趣词对应的店铺信息。
进一步的,为了完整说明本实施例的具体实施过程,本申请实施例还提供了一种地图兴趣点信息的获取装置,图6示出了本申请实施例提供的一种地图兴趣点信息的获取装置的结构示意图,如图6所示,该装置包括:兴趣点信息获取模块51、类目筛选模块52、地图兴趣词确定模块53、第一店铺信息获取模块54、第二店铺信息获取模块55。
兴趣点信息获取模块51,用于根据搜索词,从地图兴趣词中捞取出与搜索词匹配的地址词之前,获取搜索词以及地图兴趣点信息,其中,地图兴趣点信息包括地图兴趣点名称以及地图兴趣点类目;
类目筛选模块52,用于对搜索词与地图兴趣点名称的相似度符合预设相似度筛选条件的地图兴趣点进行筛选,并统计筛选后的地图兴趣点对应的各个类目的数量;
地图兴趣词确定模块53,用于将数量从大到小排名前N的类目对应的地图点名称作为地图兴趣词。
第一店铺信息获取模块54,用于将数量从大到小排名前N的类目对应的地图点名称作为地图兴趣词之后,若地图兴趣词对应有边界信息,则基于边界信息获取地图兴趣词对应的店铺信息;
第二店铺信息获取模块55,用于若地图兴趣词未对应有边界信息,则基于与地图兴趣词类目相同的其他地图兴趣词的中心点信息以及边界信息,计算其他地图兴趣词的中心点与最远边界点的距离平均值,并按照距离平均值确定地图兴趣词对应的店铺信息。
需要说明的是,本申请实施例提供的一种兴趣地搜索装置以及地图兴趣点信息的获取装置所涉及各功能单元的其他相应描述,可以参考图1至图3中的对应描述,在此不再赘述。
基于上述如图1至图3所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1至图3所示的兴趣地搜索方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图3所示的方法,以及图4至图6所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图3所示的兴趣地搜索方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现基于用户的搜索词,首先从预设的地图兴趣词中捞取出与搜索词匹配的地址词,然后根据与地址词对应的地址片段信息对搜索词的分词进行地址标签标注,最后获取包含标注有地址标签分词的匹配兴趣词,从而实现为用户推荐兴趣词。本申请实施例在用户进行兴趣词的搜索过程中,结合预设的地图兴趣词对搜索词实现理解和分析,最终从地图兴趣词中提取出用户可能感兴趣的匹配兴趣词,以便实现为用户推荐兴趣地的效果,与现有技术中基于经纬度进行推荐的方式相比,减少了推荐计算量的同时,基于文本语义的推荐方式也提高了推荐的准确性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种兴趣地搜索方法,其特征在于,包括:
根据搜索词,从地图兴趣词中捞取出与所述搜索词匹配的地址词;
基于所述地址词对应的地址片段信息,建立地址片段集合;
对所述搜索词进行分词后,对命中所述地址片段集合的分词标注地址标签;
在所述地图兴趣词中提取出包含所述地址标签的分词对应的匹配兴趣词。
2.根据权利要求1所述的方法,其特征在于,所述根据搜索词,从地图兴趣词中捞取出与所述搜索词匹配的地址词,具体包括:
获取所述搜索词的第一粒度分词;
计算所述第一粒度分词与所述地图兴趣词的相似度,并将与所述第一粒度分词的相似度满足预设相似度规则的所述地图兴趣词确定为所述地址词。
3.根据权利要求2所述的方法,其特征在于,所述基于所述地址词对应的地址片段信息,建立地址片段集合,具体包括:
按照地址词获取规则,获取与所述地址词对应的地址片段信息,并基于所述地址片段信息建立所述地址片段集合。
4.根据权利要求2所述的方法,其特征在于,所述对所述搜索词进行分词后,对命中所述地址片段集合的分词标注地址标签,具体包括:
获取所述搜索词的第二粒度分词,其中,所述第一粒度分词的分词粒度大于所述第二粒度分词的分词粒度;
查询与所述地址片段集合中的所述地址片段信息匹配的所述第二粒度分词,并标注所述地址标签。
5.根据权利要求1所述的方法,其特征在于,所述在所述地图兴趣词中提取出包含所述地址标签的分词对应的匹配兴趣词之后,所述方法还包括:
计算所述搜索词与所述匹配兴趣词的匹配度;
获取所述匹配度大于匹配度阈值的所述匹配兴趣词,并展示与所述匹配兴趣词对应的店铺信息。
6.根据权利要求5所述的方法,其特征在于,所述根据搜索词,从地图兴趣词中捞取出与所述搜索词匹配的地址词之前,所述方法还包括:
获取所述搜索词以及地图兴趣点信息,其中,所述地图兴趣点信息包括地图兴趣点名称以及地图兴趣点类目;
对所述搜索词与所述地图兴趣点名称的相似度符合预设相似度筛选条件的所述地图兴趣点进行筛选,并统计筛选后的所述地图兴趣点对应的各个类目的数量;
将数量从大到小排名前N的类目对应的所述地图点名称作为所述地图兴趣词。
7.根据权利要求6所述的方法,其特征在于,所述将数量从大到小排名前N的类目对应的所述地图点名称作为所述地图兴趣词之后,所述方法还包括:
若所述地图兴趣词对应有边界信息,则基于所述边界信息获取所述地图兴趣词对应的店铺信息;
若所述地图兴趣词未对应有边界信息,则基于与所述地图兴趣词类目相同的其他地图兴趣词的中心点信息以及边界信息,计算所述其他地图兴趣词的中心点与最远边界点的距离平均值,并按照所述距离平均值确定所述地图兴趣词对应的店铺信息。
8.一种兴趣地搜索装置,其特征在于,包括:
地址词捞取模块,用于根据搜索词,从地图兴趣词中捞取出与所述搜索词匹配的地址词;
地址片段集合建立模块,用于基于所述地址词对应的地址片段信息,建立地址片段集合;
地址标签标注模块,用于对所述搜索词进行分词后,对命中所述地址片段集合的分词标注地址标签;
兴趣词匹配模块,用于在所述地图兴趣词中提取出包含所述地址标签的分词对应的匹配兴趣词。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的兴趣地搜索方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的兴趣地搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160920.5A CN111460327B (zh) | 2020-03-10 | 2020-03-10 | 兴趣地搜索方法及装置、存储介质、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160920.5A CN111460327B (zh) | 2020-03-10 | 2020-03-10 | 兴趣地搜索方法及装置、存储介质、计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460327A true CN111460327A (zh) | 2020-07-28 |
CN111460327B CN111460327B (zh) | 2023-06-16 |
Family
ID=71679037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010160920.5A Active CN111460327B (zh) | 2020-03-10 | 2020-03-10 | 兴趣地搜索方法及装置、存储介质、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460327B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723296A (zh) * | 2020-08-21 | 2020-09-29 | 浙江口碑网络技术有限公司 | 搜索处理方法、装置及计算机设备 |
CN112966192A (zh) * | 2021-02-09 | 2021-06-15 | 北京百度网讯科技有限公司 | 区域地址命名方法、装置、电子设备及可读存储介质 |
CN113535880A (zh) * | 2021-09-16 | 2021-10-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 地理信息确定方法、装置、电子设备及计算机存储介质 |
CN114817695A (zh) * | 2021-01-28 | 2022-07-29 | 北京达佳互联信息技术有限公司 | 信息推荐方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100325127A1 (en) * | 2009-06-18 | 2010-12-23 | Nokia Corporation | Method and apparatus for automatic geo-location and social group indexing |
CN102591867A (zh) * | 2011-01-07 | 2012-07-18 | 清华大学 | 一种基于移动设备位置的搜索服务方法 |
CN106919601A (zh) * | 2015-12-25 | 2017-07-04 | 北京奇虎科技有限公司 | 从查询词中提取兴趣点的方法和装置 |
CN107273375A (zh) * | 2016-04-07 | 2017-10-20 | 中兴通讯股份有限公司 | 兴趣点数据显示方法及终端 |
CN108287843A (zh) * | 2017-01-09 | 2018-07-17 | 北京四维图新科技股份有限公司 | 一种兴趣点信息检索的方法和装置、及导航设备 |
CN110309432A (zh) * | 2018-06-11 | 2019-10-08 | 腾讯科技(北京)有限公司 | 基于兴趣点的同义词确定方法、地图兴趣点处理方法 |
CN110795515A (zh) * | 2019-08-26 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 兴趣点poi的处理方法、装置、电子设备及计算机存储介质 |
CN110832478A (zh) * | 2018-06-04 | 2020-02-21 | 北京嘀嘀无限科技发展有限公司 | 用于按需服务的系统和方法 |
-
2020
- 2020-03-10 CN CN202010160920.5A patent/CN111460327B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100325127A1 (en) * | 2009-06-18 | 2010-12-23 | Nokia Corporation | Method and apparatus for automatic geo-location and social group indexing |
CN102591867A (zh) * | 2011-01-07 | 2012-07-18 | 清华大学 | 一种基于移动设备位置的搜索服务方法 |
CN106919601A (zh) * | 2015-12-25 | 2017-07-04 | 北京奇虎科技有限公司 | 从查询词中提取兴趣点的方法和装置 |
CN107273375A (zh) * | 2016-04-07 | 2017-10-20 | 中兴通讯股份有限公司 | 兴趣点数据显示方法及终端 |
CN108287843A (zh) * | 2017-01-09 | 2018-07-17 | 北京四维图新科技股份有限公司 | 一种兴趣点信息检索的方法和装置、及导航设备 |
CN110832478A (zh) * | 2018-06-04 | 2020-02-21 | 北京嘀嘀无限科技发展有限公司 | 用于按需服务的系统和方法 |
CN110309432A (zh) * | 2018-06-11 | 2019-10-08 | 腾讯科技(北京)有限公司 | 基于兴趣点的同义词确定方法、地图兴趣点处理方法 |
CN110795515A (zh) * | 2019-08-26 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 兴趣点poi的处理方法、装置、电子设备及计算机存储介质 |
Non-Patent Citations (3)
Title |
---|
SHILPA SETHI: ""Design of personalised search system based on user interest and query structuring"" * |
马鹏杰: ""基于Elasticsearch的地名和POI数据检索系统的设计与实现"" * |
黄梦龙;: "基于分词的天地图福建多源POI重复检测方法" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723296A (zh) * | 2020-08-21 | 2020-09-29 | 浙江口碑网络技术有限公司 | 搜索处理方法、装置及计算机设备 |
CN114817695A (zh) * | 2021-01-28 | 2022-07-29 | 北京达佳互联信息技术有限公司 | 信息推荐方法、装置、电子设备及存储介质 |
CN112966192A (zh) * | 2021-02-09 | 2021-06-15 | 北京百度网讯科技有限公司 | 区域地址命名方法、装置、电子设备及可读存储介质 |
CN112966192B (zh) * | 2021-02-09 | 2023-10-27 | 北京百度网讯科技有限公司 | 区域地址命名方法、装置、电子设备及可读存储介质 |
CN113535880A (zh) * | 2021-09-16 | 2021-10-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 地理信息确定方法、装置、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111460327B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460327B (zh) | 兴趣地搜索方法及装置、存储介质、计算机设备 | |
US20200117675A1 (en) | Obtaining of Recommendation Information | |
CN103853722B (zh) | 一种基于检索串的关键词扩展方法、装置和系统 | |
CN107657048A (zh) | 用户识别方法及装置 | |
CN107203526B (zh) | 一种查询串语义需求分析方法及装置 | |
KR101491627B1 (ko) | 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템 | |
CN104143005A (zh) | 一种相关搜索系统及方法 | |
CN110674423A (zh) | 一种地址定位的方法、装置、可读存储介质和电子设备 | |
CN105517679A (zh) | 用户地理位置的确定 | |
JP2019149145A (ja) | 情報検索システム | |
CN111954175B (zh) | 一种兴趣点到访判别方法和相关装置 | |
EP3531303A1 (en) | Information retrieval apparatus, information retrieval system, information retrieval method, and program | |
CN112395867B (zh) | 同义词挖掘方法、装置、存储介质及计算机设备 | |
CN111522901A (zh) | 文本中地址信息的处理方法及装置 | |
JP6662689B2 (ja) | 単語判定装置 | |
CN111191133A (zh) | 业务搜索处理方法、装置及设备 | |
CN110674208B (zh) | 用于确定用户的职住地信息的方法和装置 | |
CN112836146B (zh) | 一种基于网络消息的地理空间坐标信息获取方法及装置 | |
KR101867421B1 (ko) | 소셜 데이터를 이용한 서비스 제공업체 추천 방법 및 장치 | |
CN110895555B (zh) | 数据检索方法和装置、存储介质及电子装置 | |
CN111046669A (zh) | 一种兴趣点的匹配方法、装置及计算机系统 | |
CN115858742A (zh) | 问题文本扩充方法、装置、设备及存储介质 | |
CN112000495B (zh) | 用于兴趣点信息管理的方法、电子设备和存储介质 | |
CN111723296B (zh) | 搜索处理方法、装置及计算机设备 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |