CN110543593A - 数据处理方法、装置、电子设备及可读存储介质 - Google Patents

数据处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110543593A
CN110543593A CN201910709148.5A CN201910709148A CN110543593A CN 110543593 A CN110543593 A CN 110543593A CN 201910709148 A CN201910709148 A CN 201910709148A CN 110543593 A CN110543593 A CN 110543593A
Authority
CN
China
Prior art keywords
interest
data
point
interest point
landmark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910709148.5A
Other languages
English (en)
Other versions
CN110543593B (zh
Inventor
王燕华
于志安
汤彪
谢睿
张弓
王仲远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910709148.5A priority Critical patent/CN110543593B/zh
Publication of CN110543593A publication Critical patent/CN110543593A/zh
Application granted granted Critical
Publication of CN110543593B publication Critical patent/CN110543593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供了一种数据处理方法、装置、电子设备及可读存储介质,所述方法包括:收集兴趣点相关数据,其中,所述兴趣点相关数据至少包括如下任意一种:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据;根据所述兴趣点相关数据,确定兴趣点的别名;根据所述兴趣点的别名,建立兴趣点与别名之间的映射关系。本公开的实施例可以提高POI搜索的准确率。

Description

数据处理方法、装置、电子设备及可读存储介质
技术领域
本公开的实施例涉及网络技术领域,尤其涉及一种数据处理方法、装置、电子设备及可读存储介质。
背景技术
随着信息化的迅速发展,越来越多的用户希望可以通过自然语言搜索到所需的信息。其中,POI(Point of Interest)地理兴趣点检索旨在更加智能地理解用户搜索意图并返回对应或相关的目标POI。然而,多数POI的全称较长,用户通常不会搜索POI的全称,而是用POI的简称或者相关信息等代替全称进行搜索。
例如,位于上海的商户“TZ House音乐现场”是弹指之间(上海文化传媒有限公司)旗下的一家以POP风格为主的现场音乐酒吧。该酒吧的全称“TZ House音乐现场”较长而且不容易记忆,用户可能会通过关键词“弹指之间”搜索该酒吧的信息。
然而,该酒吧的全称“TZ House音乐现场”与用户搜索的关键词“弹指之间”之间,在文字上并无明显的关联关系,因此,现有的搜索系统通常不会建立“TZ House音乐现场”与“弹指之间”之间的搜索依赖关系,在用户输入“弹指之间”关键词的情况下,不能返回用户所需的与POI“TZ House音乐现场”相关的信息,进而影响搜索的准确率。
发明内容
本公开的实施例提供一种数据处理方法、装置、电子设备及可读存储介质,用以提高POI搜索的准确率。
根据本公开的实施例的第一方面,提供了一种数据处理方法,所述方法包括:
收集兴趣点相关数据,其中,所述兴趣点相关数据至少包括如下任意一种:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据;
根据所述兴趣点相关数据,确定兴趣点的别名;
根据所述兴趣点的别名,建立兴趣点与别名之间的映射关系。
根据本公开的实施例的第二方面,提供了一种数据处理装置,所述装置包括:
数据收集模块,用于收集兴趣点相关数据,其中,所述兴趣点相关数据至少包括如下任意一种:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据;
别名确定模块,用于根据所述兴趣点相关数据,确定兴趣点的别名;
关系建立模块,用于根据所述兴趣点的别名,建立兴趣点与别名之间的映射关系。
根据本公开的实施例的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现前述数据处理方法。
根据本公开的实施例的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述数据处理方法。
本公开的实施例提供了一种数据处理方法、装置、电子设备及可读存储介质,所述方法包括:
收集兴趣点相关数据,其中,所述兴趣点相关数据至少包括如下任意一种:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据;根据所述兴趣点相关数据,确定兴趣点的别名;根据所述兴趣点的别名,建立兴趣点与别名之间的映射关系。可以看出,本公开的实施例确定的兴趣点的别名来自于多元化的兴趣点相关数据,可以丰富完善POI别名知识库,使得用户在使用别名进行搜索的过程中可以返回准确的POI搜索结果,进而提高POI搜索的准确率。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开的一个实施例中的数据处理方法的步骤流程图;
图2示出了在本公开的一个实施例中的数据处理装置的结构图;
图3示出了本公开的一个实施例提供的电子设备的结构图。
具体实施方式
下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
实施例一
参照图1,其示出了本公开的一个实施例中的数据处理方法的步骤流程图,包括:
步骤101、收集兴趣点相关数据,其中,所述兴趣点相关数据至少包括如下任意一种:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据;
步骤102、根据所述兴趣点相关数据,确定兴趣点的别名;
步骤103、根据所述兴趣点的别名,建立兴趣点与别名之间的映射关系。
本公开的数据处理方法可应用于兴趣点POI搜索领域。本公开的实施例根据多元化的兴趣点相关数据确定POI别名,以丰富完善POI别名知识库,进而提高POI搜索的准确率。
在本公开的一种可选实施例中,所述兴趣点相关数据具体可以包括:用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据;所述收集兴趣点相关数据,具体可以包括:
步骤S11、在用户搜索兴趣点产生的日志数据中,确定第一目标数据;所述第一目标数据为用户对初始搜索词对应的兴趣点搜索结果未产生点击行为、且在预设时间内对修改后的搜索词对应的兴趣点搜索结果产生点击行为的日志数据;
步骤S12、将所述第一目标数据作为兴趣点相关数据;
所述根据所述兴趣点相关数据,确定兴趣点的别名,具体可以包括:
若所述第一目标数据中,点击相同的第一兴趣点的用户数超过第一阈值,则确定所述第一目标数据对应的初始搜索词为所述第一兴趣点的别名。
在具体应用中,如果用户使用搜索词“弹指之间”来搜索酒吧“TZ House音乐现场”时,如果还未建立酒吧全称“TZ House音乐现场”与“弹指之间”之间的映射关系,则可能不会返回用户所需的POI搜索结果“TZ House音乐现场”。假如用户在较短的时间内,将搜索词“弹指之间”修改为“TZ House”之后再次进行搜索,得到的POI搜索结果中包含“TZ House音乐现场”,并且用户在POI搜索结果中点击了“TZ House音乐现场”,说明用户将搜索词“弹指之间”修改为“TZ House”的目的是为了得到“TZ House音乐现场”的POI搜索结果,因此,说明“弹指之间”与“TZ House音乐现场”的别名具有关联关系。
根据上述用户搜索重改写行为产生的点击数据与兴趣点别名之间的关联关系,本公开的实施例在用户搜索兴趣点产生的日志数据中,确定第一目标数据;所述第一目标数据为用户对初始搜索词(如“弹指之间”)对应的兴趣点搜索结果未产生点击行为、且在预设时间内对修改后的搜索词(如“TZ House”)对应的兴趣点搜索结果产生点击行为的日志数据。如果所述第一目标数据中,点击相同的第一兴趣点(如“TZ House音乐现场”)的用户数超过第一阈值(如2000个),也即,存在2000个在使用初始搜索词“弹指之间”搜索后未产生点击行为,但是在短时间内将初始搜索词“弹指之间”修改后又继续搜索,并且点击了搜索结果“TZ House音乐现场”的用户,此时,可以确定所述第一目标数据对应的初始搜索词(如“弹指之间”)为所述第一兴趣点(如“TZ House音乐现场”)的别名。
可以理解,本公开的实施例对上述预设时间的长短不加以限制,例如所述预设时间可以为2分钟、5分钟等。所述第一阈值可以为具体的用户数量,例如2000个、500个等,也可以为预设的用户比例,如90%、95%等。例如,如果超过90%的用户将初始搜索词“弹指之间”修改为“TZ House”之后,点击了搜索结果“TZ House音乐现场”,则确定初始搜索词“弹指之间”为兴趣点“TZ House音乐现场”的别名。
在本公开的一种可选实施例中,所述兴趣点相关数据具体可以包括:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据;所述收集兴趣点相关数据,具体可以包括:
步骤S21、在用户搜索兴趣点产生的日志数据中,确定第二目标数据;所述第二目标数据为用户对初始搜索词对应的兴趣点搜索结果产生点击行为的日志数据;
步骤S22、将所述第二目标数据作为兴趣点相关数据;
所述根据所述兴趣点相关数据,确定兴趣点的别名,具体可以包括:
若所述第二目标数据中,点击相同的第二兴趣点的用户数超过第二阈值,则确定所述第二目标数据对应的初始搜索词为所述第二兴趣点的别名。
在具体应用中,对于用户搜索行为,可以根据用户对搜索POI意图是否明确分为精确搜索行为和非精确搜索行为。例如,在采用初始搜索词“月星环球港”进行搜索的过程中,约80%的用户点击了POI搜索结果“环球港”,则该搜索行为可以认为是POI意图明确的精确搜索行为。再如,在采用初始搜索词“环球港火锅”进行搜索的过程中,用户没有集中点击某一个POI搜索结果,点击数据较均衡的分布到了多个POI搜索结果,该搜索行为可以认为是POI意图不明确的非精确搜索。
对于精确搜索行为,可以确定初始搜索词即为点击的兴趣点对应的别名。因此,本公开实施例可以在用户搜索兴趣点产生的日志数据中,确定第二目标数据;所述第二目标数据为用户对初始搜索词对应的兴趣点搜索结果产生点击行为的日志数据;若所述第二目标数据中,点击相同的第二兴趣点的用户数超过第二阈值,说明第二目标数据为精确搜索行为产生的日志数据,因此,可以确定所述第二目标数据对应的初始搜索词(如“月星环球港”)为所述第二兴趣点(如“环球港”)的别名。
可以理解,所述第二阈值可以为具体的用户数量,例如2000个、500个等,也可以为预设的用户比例,如90%、95%等。
在本公开的一种可选实施例中,所述根据所述兴趣点相关数据,确定兴趣点的别名,具体可以包括:
若所述第二目标数据中,点击第三兴趣点的用户数超过第三阈值,则确定所述第二目标数据对应的初始搜索词为所述第三兴趣点的别名;其中,所述第三兴趣点的名称与所述第二兴趣点的名称满足相似条件。
在具体应用中,同一个商家可能存在名称稍有差异的连锁品牌,例如“桂满陇桃花山庄·陌上”与“桂满陇桃花山庄·院落”均是同一个商家旗下的连锁品牌,则兴趣点“桂满陇桃花山庄·陌上”与“桂满陇桃花山庄·院落”可以具有相同的别名。
因此,本公开的实施例在确定第二目标数据中,点击第三兴趣点的用户数超过第三阈值的情况下,可以确定所述第二目标数据对应的初始搜索词为所述第三兴趣点的别名,其中,所述第三兴趣点的名称与所述第二兴趣点的名称满足相似条件。满足相似条件可以指相似度满足预设比例,例如,“桂满陇桃花山庄·陌上”与“桂满陇桃花山庄·院落”的名称的相似度在95%以上,可以认为满足相似条件,也即,“桂满陇桃花山庄·陌上”与“桂满陇桃花山庄·院落”可能属于同一个商家,因此,可以将第二目标数据对应的初始搜索词共同做为第二兴趣点和第三兴趣点的别名。
在本公开的一种可选实施例中,所述兴趣点相关数据具体可以包括:与地标相关的兴趣点数据;所述收集兴趣点相关数据,具体可以包括:
步骤S31、确定与地标相关的地标兴趣点,所述地标相关指兴趣点与地标场所具有关联关系;
步骤S32、确定与所述地标兴趣点的位置小于预设距离的兴趣点为候选兴趣点;
步骤S33、将所述地标兴趣点和所述候选兴趣点作为兴趣点相关数据;
所述根据所述兴趣点相关数据,确定兴趣点的别名,包括:
步骤S41、根据所述候选兴趣点的分店名称与所述地标兴趣点的名称之间的相似度,和/或,所述候选兴趣点与所述地标兴趣点之间的距离,和/或,所述候选兴趣点的分店名称在所述预设距离内出现的频率,确定所述候选兴趣点与所述地标兴趣点的关联置信度;
步骤S42、将所述关联置信度符合预设条件的候选兴趣点的分店名称,作为所述地标兴趣点的别名。
其中,所述地标场所指一个地区标志性的建筑或区域,具体可以包括商场、景点、学校、医院等,地标场所周围通常有较多的POI,并且这些POI通常以该地标场所作为商户分店名。因此,本公开的实施例可以根据与地标相关的兴趣点数据,确定兴趣点的别名。
具体的,首先确定与地标相关的地标兴趣点,所述地标相关指兴趣点与地标场所具有关联关系。例如北京亚运村的“伊藤洋华堂”,可以确定为地标兴趣点。
接下来,确定与所述地标兴趣点的位置小于预设距离的兴趣点为候选兴趣点,并且将所述地标兴趣点和所述候选兴趣点作为兴趣点相关数据。例如,可以将距离地标兴趣点“伊藤洋华堂”3公里之内的33家商户分店名均为“华堂商场店”的兴趣点,以及11家商户分店名均为“亚运村华堂店”的兴趣点,作为候选兴趣点。
最后,根据所述候选兴趣点的分店名称与所述地标兴趣点的名称之间的相似度,和/或,所述候选兴趣点与所述地标兴趣点之间的距离,和/或,所述候选兴趣点的分店名称在所述预设距离内出现的频率,对所述候选兴趣点的分店名称进行聚合,综合考虑相似度、距离、频率等因素,对各候选兴趣点的分店名称进行打分,计算各候选兴趣点与所述地标兴趣点的关联置信度,将所述关联置信度符合预设条件的候选兴趣点的分店名称,作为所述地标兴趣点的别名。在具体应用中,兴趣点可以包括如下属性信息:商户名称、分店名称、地址等,例如,对于候选兴趣点“点都德(龙之梦店)”,可以包括如下属性信息:商户名称“点都德”、分店名称“龙之梦店”、地址“中山公园长宁路1018号龙之梦购物中心7楼”等,地标兴趣点为“龙之梦购物中心”。其中,关联置信度符合预设条件,可以指关联置信度得分最高或者关联置信度排名前n(n为大于或等于1的整数)。例如,根据候选兴趣点“点都德(龙之梦店)”的分店名称“龙之梦店”与地标兴趣点“龙之梦购物中心”名称之间的相似度,以及候选兴趣点“点都德(龙之梦店)”与地标兴趣点“龙之梦购物中心”之间的距离,可以确定候选兴趣点“点都德(龙之梦店)”与地标兴趣点“龙之梦购物中心”的关联置信度符合预设条件,则可以确定候选兴趣点“点都德(龙之梦店)”的分店名称“龙之梦店”为地标兴趣点“龙之梦购物中心”的别名。
可选地,本公开的实施例在计算候选兴趣的分店名称与地标兴趣点的关联置信度之前,还可以对候选兴趣点的分店名称进行过滤,以提取候选兴趣点分店名称中的有效信息,对过滤后得到的有效信息进行聚合并计算其与地标兴趣点的关联置信度,以提高聚合计算的准确性。
在具体应用中,由于分店名称通常具有习惯性的命名方法,例如通常以“xxx店”、“xxx分店”、“xxx总店”等后缀结尾,因此,可以过滤掉候选兴趣点分店名称中的“店/分店/总店”等后缀,以提取候选兴趣点分店名称中的有效信息。
此外,由于很多商户通常以地址词作为分店名信息,例如北京“朝阳店”、上海“长宁店”,而这类地址词通常无法关联到某个具体的地标兴趣点,因此还可以对这些地址词进行过滤,以提取候选兴趣点分店名称中的有效信息。
在对候选兴趣点的分店名称进行过滤并提取有效信息之后,可以根据所述候选兴趣点的分店名称与所述地标兴趣点的名称之间的相似度,和/或,所述候选兴趣点与所述地标兴趣点之间的距离,和/或,所述候选兴趣点的分店名称在所述预设距离内出现的频率,对过滤后得到的有效信息进行聚合并计算其与地标兴趣点的关联置信度。
在本公开的一种可选实施例中,在所述确定所述关联置信度符合预设条件的候选兴趣点的分店名称为所述地标兴趣点的别名之后,所述方法还可以包括:
将所述地标兴趣点的别名以及所述地标兴趣点的地址分别作为搜索词,调用地图搜索服务进行地图搜索,若所述地图搜索服务返回的兴趣点搜索结果中均包括所述地标兴趣点,则确定所述地标兴趣点的别名正确;否则,确定所述地标兴趣点的别名错误。
本公开的实施例还可以调用地图服务接口,将所述地标兴趣点的别名以及所述地标兴趣点的地址分别作为搜索词,进行地图搜索,验证搜索结果是否可以返回准确的地标兴趣点。
例如,对于北京亚运村的“伊藤洋华堂”这个地标兴趣点,其名称为:伊藤洋华堂;地址为:北四环东路108号。假设根据本公开实施例提供的方法确定“亚运村华堂”为地标兴趣点“伊藤洋华堂”的别名,则可以将地标兴趣点的别名“亚运村华堂”以及所述地标兴趣点的地址“北四环东路108号”分别作为搜索词,调用地图搜索服务进行地图搜索,如果返回结果中均包括“伊藤洋华堂”这个商场,则说明地标兴趣点的别名“亚运村华堂”正确,否则,说明地标兴趣点的别名“亚运村华堂”错误,可以删除错误的兴趣点别名,并重新确定地标兴趣点“伊藤洋华堂”的别名。
在本公开的一种可选实施例中,在所述建立兴趣点与别名之间的映射关系之后,所述方法还可以包括:
步骤S51、在所述映射关系中,若同一个兴趣点存在至少两个对应的映射关系,则分别计算所述至少两个映射关系中每个映射关系对应的概率值;其中,所述至少两个映射关系为通过不同的兴趣点相关数据确定得到;
步骤S52、根据所述概率值,对已建立的兴趣点与别名之间的映射关系进行融合,以得到融合后的映射关系。
可以理解,上述通过用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据三种来源的兴趣点相关数据,确定兴趣点的别名,仅作为本公开实施例的一种应用示例,本公开的实施例对兴趣点相关数据的具体来源以及数据源的数目均不加以限制。
在本公开的实施例中,将兴趣点与别名之间的映射关系可以记为别名对(POI,别名),所述别名对可能根据不同来源的兴趣点相关数据确定得到,因此,可能存在根据多个数据源得到的相同的别名对,本公开的实施例可以对不同数据源产生的别名对进行融合,以得到一个最终的概率值作为别名对的置信度参考值,提高别名对的准确性。
具体地,假设对于兴趣点shop,采用n个数据源确定shop的别名,则pi(shop,mention)表示在第i个数据源中,mention作为shop的别名的概率,则对多个数据源得到该别名对的概率进行融合后得到最终的概率值p(shop,mention)可以用如下公式表示:
P(shop,mention)=1-∏n(1-pi(shop,mention)) (1)
其中,“1-pi(shop,mention)”表示第i个数据源中未找到该别名对(shop,mention)的概率,“∏n(1-pi(shop,mention))”表示在所有数据源中都未找到该别名对的概率,“1-∏n(1-pi(shop,mention))”表示至少在一个数据源中找到该别名对的概率。本公开的实施例使用上述公式(1)可以计算在所有数据源中,该别名对(shop,mention)存在的最终的概率值。
综上,本公开的实施例可以收集兴趣点相关数据,并且根据所述兴趣点相关数据,确定兴趣点的别名,以及根据所述兴趣点的别名,建立兴趣点与别名之间的映射关系。所述兴趣点相关数据至少包括如下任意一种:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据,也即,本公开的实施例确定的兴趣点的别名来自于多元化的兴趣点相关数据,可以丰富完善POI别名知识库,使得用户在使用别名进行搜索的过程中可以返回准确的POI搜索结果,进而提高POI搜索的准确率。
实施例二
参照图2,其示出了在本公开的一个实施例中的数据处理装置的结构图,具体如下。
数据收集模块201,用于收集兴趣点相关数据,其中,所述兴趣点相关数据至少包括如下任意一种:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据;
别名确定模块202,用于根据所述兴趣点相关数据,确定兴趣点的别名;
关系建立模块203,用于根据所述兴趣点的别名,建立兴趣点与别名之间的映射关系。
可选地,所述兴趣点相关数据包括:用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据;
所述数据收集模块,包括:
第一收集子模块,用于在用户搜索兴趣点产生的日志数据中,确定第一目标数据;所述第一目标数据为用户对初始搜索词对应的兴趣点搜索结果未产生点击行为、且在预设时间内对修改后的搜索词对应的兴趣点搜索结果产生点击行为的日志数据;
第一确定子模块,用于将所述第一目标数据作为兴趣点相关数据;
所述别名确定模块,具体用于若所述第一目标数据中,点击相同的第一兴趣点的用户数超过第一阈值,则确定所述第一目标数据对应的初始搜索词为所述第一兴趣点的别名。
可选地,所述兴趣点相关数据包括:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据;
所述数据收集模块,包括:
第二收集子模块,用于在用户搜索兴趣点产生的日志数据中,确定第二目标数据;所述第二目标数据为用户对初始搜索词对应的兴趣点搜索结果产生点击行为的日志数据;
第二确定子模块,用于将所述第二目标数据作为兴趣点相关数据;
所述别名确定模块,具体用于若所述第二目标数据中,点击相同的第二兴趣点的用户数超过第二阈值,则确定所述第二目标数据对应的初始搜索词为所述第二兴趣点的别名。
可选地,所述别名确定模块,具体用于若所述第二目标数据中,点击第三兴趣点的用户数超过第三阈值,则确定所述第二目标数据对应的初始搜索词为所述第三兴趣点的别名;其中,所述第三兴趣点的名称与所述第二兴趣点的名称满足相似条件。
可选地,所述兴趣点相关数据包括:与地标相关的兴趣点数据;
所述数据收集模块,包括:
地标确定子模块,用于确定与地标相关的地标兴趣点,所述地标相关指兴趣点与地标场所具有关联关系;
候选确定子模块,用于确定与所述地标兴趣点的位置小于预设距离的兴趣点为候选兴趣点;
第三确定子模块,用于将所述地标兴趣点和所述候选兴趣点作为兴趣点相关数据;
所述别名确定模块,包括:
置信度计算子模块,用于根据所述候选兴趣点的分店名称与所述地标兴趣点的名称之间的相似度,和/或,所述候选兴趣点与所述地标兴趣点之间的距离,和/或,所述候选兴趣点的分店名称在所述预设距离内出现的频率,确定所述候选兴趣点与所述地标兴趣点的关联置信度;
别名确定子模块,用于将所述关联置信度符合预设条件的候选兴趣点的分店名称,作为所述地标兴趣点的别名。
可选地,所述装置还包括:
搜索校验模块,用于将所述地标兴趣点的别名以及所述地标兴趣点的地址分别作为搜索词,调用地图搜索服务进行地图搜索,若所述地图搜索服务返回的兴趣点搜索结果中均包括所述地标兴趣点,则确定所述地标兴趣点的别名正确;否则,确定所述地标兴趣点的别名错误。
可选地,所述装置还包括:
概率计算模块,用于在所述映射关系中,若同一个兴趣点存在至少两个对应的映射关系,则分别计算所述至少两个映射关系中每个映射关系对应的概率值;其中,所述至少两个映射关系为通过不同的兴趣点相关数据确定得到;
概率融合模块,用于根据所述概率值,对已建立的兴趣点与别名之间的映射关系进行融合,以得到融合后的映射关系。
综上所述,本公开的实施例提供了一种数据处理装置,所述装置包括:数据收集模块201,用于收集兴趣点相关数据,其中,所述兴趣点相关数据至少包括如下任意一种:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据;别名确定模块202,用于根据所述兴趣点相关数据,确定兴趣点的别名;关系建立模块203,用于根据所述兴趣点的别名,建立兴趣点与别名之间的映射关系。能够丰富完善POI别名知识库,使得用户在使用别名进行搜索的过程中可以返回准确的POI搜索结果,进而提高POI搜索的准确率。
本公开的实施例还提供了一种电子设备,参见图3,包括:处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的计算机程序3021,所述处理器执行所述程序时实现前述实施例的数据处理方法。
本公开的实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的数据处理方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的实施例的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的排序设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
收集兴趣点相关数据,其中,所述兴趣点相关数据至少包括如下任意一种:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据;
根据所述兴趣点相关数据,确定兴趣点的别名;
根据所述兴趣点的别名,建立兴趣点与别名之间的映射关系。
2.根据权利要求1所述的方法,其特征在于,所述兴趣点相关数据包括:用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据;
所述收集兴趣点相关数据,包括:
在用户搜索兴趣点产生的日志数据中,确定第一目标数据;所述第一目标数据为用户对初始搜索词对应的兴趣点搜索结果未产生点击行为、且在预设时间内对修改后的搜索词对应的兴趣点搜索结果产生点击行为的日志数据;
将所述第一目标数据作为兴趣点相关数据;
所述根据所述兴趣点相关数据,确定兴趣点的别名,包括:
若所述第一目标数据中,点击相同的第一兴趣点的用户数超过第一阈值,则确定所述第一目标数据对应的初始搜索词为所述第一兴趣点的别名。
3.根据权利要求1所述的方法,其特征在于,所述兴趣点相关数据包括:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据;
所述收集兴趣点相关数据,包括:
在用户搜索兴趣点产生的日志数据中,确定第二目标数据;所述第二目标数据为用户对初始搜索词对应的兴趣点搜索结果产生点击行为的日志数据;
将所述第二目标数据作为兴趣点相关数据;
所述根据所述兴趣点相关数据,确定兴趣点的别名,包括:
若所述第二目标数据中,点击相同的第二兴趣点的用户数超过第二阈值,则确定所述第二目标数据对应的初始搜索词为所述第二兴趣点的别名。
4.根据权利要求3所述的方法,其特征在于,所述根据所述兴趣点相关数据,确定兴趣点的别名,包括:
若所述第二目标数据中,点击第三兴趣点的用户数超过第三阈值,则确定所述第二目标数据对应的初始搜索词为所述第三兴趣点的别名;其中,所述第三兴趣点的名称与所述第二兴趣点的名称满足相似条件。
5.根据权利要求1所述的方法,其特征在于,所述兴趣点相关数据包括:与地标相关的兴趣点数据;
所述收集兴趣点相关数据,包括:
确定与地标相关的地标兴趣点,所述地标相关指兴趣点与地标场所具有关联关系;
确定与所述地标兴趣点的位置小于预设距离的兴趣点为候选兴趣点;
将所述地标兴趣点和所述候选兴趣点作为兴趣点相关数据;
所述根据所述兴趣点相关数据,确定兴趣点的别名,包括:
根据所述候选兴趣点的分店名称与所述地标兴趣点的名称之间的相似度,和/或,所述候选兴趣点与所述地标兴趣点之间的距离,和/或,所述候选兴趣点的分店名称在所述预设距离内出现的频率,确定所述候选兴趣点与所述地标兴趣点的关联置信度;
将所述关联置信度符合预设条件的候选兴趣点的分店名称,作为所述地标兴趣点的别名。
6.根据权利要求5所述的方法,其特征在于,在所述确定所述关联置信度符合预设条件的候选兴趣点的分店名称为所述地标兴趣点的别名之后,所述方法还包括:
将所述地标兴趣点的别名以及所述地标兴趣点的地址分别作为搜索词,调用地图搜索服务进行地图搜索,若所述地图搜索服务返回的兴趣点搜索结果中均包括所述地标兴趣点,则确定所述地标兴趣点的别名正确;否则,确定所述地标兴趣点的别名错误。
7.根据权利要求1所述的方法,其特征在于,在所述建立兴趣点与别名之间的映射关系之后,所述方法还包括:
在所述映射关系中,若同一个兴趣点存在至少两个对应的映射关系,则分别计算所述至少两个映射关系中每个映射关系对应的概率值;其中,所述至少两个映射关系为通过不同的兴趣点相关数据确定得到;
根据所述概率值,对已建立的兴趣点与别名之间的映射关系进行融合,以得到融合后的映射关系。
8.一种数据处理装置,其特征在于,所述装置包括:
数据收集模块,用于收集兴趣点相关数据,其中,所述兴趣点相关数据至少包括如下任意一种:用户针对初始搜索词对应的兴趣点搜索结果触发的点击数据、用户针对修改后的搜索词对应的兴趣点搜索结果触发的点击数据、以及与地标相关的兴趣点数据;
别名确定模块,用于根据所述兴趣点相关数据,确定兴趣点的别名;
关系建立模块,用于根据所述兴趣点的别名,建立兴趣点与别名之间的映射关系。
9.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中一个或多个所述的数据处理方法。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-7中一个或多个所述的数据处理方法。
CN201910709148.5A 2019-08-01 2019-08-01 数据处理方法、装置、电子设备及可读存储介质 Active CN110543593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910709148.5A CN110543593B (zh) 2019-08-01 2019-08-01 数据处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910709148.5A CN110543593B (zh) 2019-08-01 2019-08-01 数据处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110543593A true CN110543593A (zh) 2019-12-06
CN110543593B CN110543593B (zh) 2021-04-09

Family

ID=68710053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910709148.5A Active CN110543593B (zh) 2019-08-01 2019-08-01 数据处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110543593B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495997A (zh) * 2020-04-01 2021-10-12 北京四维图新科技股份有限公司 Poi别名的探索方法、装置和车辆

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567397A (zh) * 2010-12-30 2012-07-11 高德软件有限公司 兴趣点、连锁店分店兴趣点关联标记的方法与装置
US20160189272A1 (en) * 2009-10-15 2016-06-30 Binja, Inc. Mobile local search platform
CN106933883A (zh) * 2015-12-31 2017-07-07 中移(苏州)软件技术有限公司 基于检索日志的兴趣点常用检索词分类方法、装置
CN107368480A (zh) * 2016-05-11 2017-11-21 中国移动通信集团辽宁有限公司 一种兴趣点数据错误类型定位、重复识别方法及装置
CN107491537A (zh) * 2017-08-23 2017-12-19 北京百度网讯科技有限公司 Poi数据挖掘、信息检索方法、装置、设备及介质
EP3404559A1 (en) * 2016-01-11 2018-11-21 Alibaba Group Holding Limited Method and device for acquiring abbreviated name of point of interest on map
CN109948014A (zh) * 2017-08-24 2019-06-28 阿里巴巴集团控股有限公司 一种搜索方法和服务器
CN110008300A (zh) * 2019-04-11 2019-07-12 北京百度网讯科技有限公司 Poi别名的确定方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189272A1 (en) * 2009-10-15 2016-06-30 Binja, Inc. Mobile local search platform
CN102567397A (zh) * 2010-12-30 2012-07-11 高德软件有限公司 兴趣点、连锁店分店兴趣点关联标记的方法与装置
CN106933883A (zh) * 2015-12-31 2017-07-07 中移(苏州)软件技术有限公司 基于检索日志的兴趣点常用检索词分类方法、装置
EP3404559A1 (en) * 2016-01-11 2018-11-21 Alibaba Group Holding Limited Method and device for acquiring abbreviated name of point of interest on map
CN107368480A (zh) * 2016-05-11 2017-11-21 中国移动通信集团辽宁有限公司 一种兴趣点数据错误类型定位、重复识别方法及装置
CN107491537A (zh) * 2017-08-23 2017-12-19 北京百度网讯科技有限公司 Poi数据挖掘、信息检索方法、装置、设备及介质
CN109948014A (zh) * 2017-08-24 2019-06-28 阿里巴巴集团控股有限公司 一种搜索方法和服务器
CN110008300A (zh) * 2019-04-11 2019-07-12 北京百度网讯科技有限公司 Poi别名的确定方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495997A (zh) * 2020-04-01 2021-10-12 北京四维图新科技股份有限公司 Poi别名的探索方法、装置和车辆

Also Published As

Publication number Publication date
CN110543593B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
KR101174216B1 (ko) 지역기반의 검색어를 추천하는 시스템 및 그 방법
US9877162B2 (en) Systems and methods for generating a user location history
EP3102965B1 (en) Methods and apparatus for identification and ranking of synthetic locations for mobile applications
US20110313779A1 (en) Augmentation and correction of location based data through user feedback
US8442716B2 (en) Identifying physical locations of entities
CN109948068A (zh) 一种兴趣点信息的推荐方法和装置
TW201604520A (zh) 興趣點的展現方法及裝置
EP3312738B1 (en) Method and device for displaying keyword
EP2715640A2 (en) Method and system for displaying related product information
CN103257962B (zh) 信息提供方法以及装置
CN107038589B (zh) 一种实体信息验证方法及装置
WO2017008653A1 (zh) Poi服务提供方法、poi数据处理方法及装置
US9811539B2 (en) Hierarchical spatial clustering of photographs
CN114119146A (zh) 一种推荐方法、装置、电子设备及可读存储介质
CN110543593B (zh) 数据处理方法、装置、电子设备及可读存储介质
JP5891905B2 (ja) サーバ装置、プログラム及び通信システム
KR20120134321A (ko) 클라우드 기반 증강 현실 시스템
WO2016107352A1 (zh) 确定poi名称、确定poi信息有效性的系统和方法
US20170236224A1 (en) Identifying Points of Interest
US20200004764A1 (en) Online sites with associated fictitious geographical locations
CN103678292B (zh) 一种用于基于位置信息进行排序的方法和装置
US20180267982A1 (en) System and method of discovering persons or objects of interest
CN103793497B (zh) 路径搜索方法及装置
US10498838B2 (en) Determining online system user eligibility for receiving content using a polygon representing a physical location associated with the content
CA2920968C (en) Identifying points of interest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant