CN108959609B - 店铺地址的更新方法及装置 - Google Patents

店铺地址的更新方法及装置 Download PDF

Info

Publication number
CN108959609B
CN108959609B CN201810776255.5A CN201810776255A CN108959609B CN 108959609 B CN108959609 B CN 108959609B CN 201810776255 A CN201810776255 A CN 201810776255A CN 108959609 B CN108959609 B CN 108959609B
Authority
CN
China
Prior art keywords
address information
information
map
address
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810776255.5A
Other languages
English (en)
Other versions
CN108959609A (zh
Inventor
张翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Nova Technology Singapore Holdings Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201810776255.5A priority Critical patent/CN108959609B/zh
Publication of CN108959609A publication Critical patent/CN108959609A/zh
Application granted granted Critical
Publication of CN108959609B publication Critical patent/CN108959609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种店铺地址的更新方法,该方法包括:首先,获取预先采集的店铺信息记录,所述店铺信息记录包括原始地址信息和经纬度信息;接着,调用地图应用接口,查询与所述经纬度信息对应的地图地址信息;然后,确定与所述原始地址信息和所述地图地址信息的相似程度相关的参数值,以及在所述参数值位于预设区间内的情况下,根据所述地图地址信息,对所述原始地址信息进行更新。

Description

店铺地址的更新方法及装置
技术领域
本说明书实施例涉及数据处理领域,具体地,涉及一种店铺地址的更新方法及装置。
背景技术
目前,服务平台通常会向用户提供大量的店铺信息,店铺信息中包括店铺名称、店铺品牌、店铺地址等,以使用户可以根据这些店铺信息去对应的店铺进行消费,或者寻求商务合作等。
然而,店铺信息中的店铺地址可能存在信息错误,如有错别字,或信息不全等问题,而导致用户无法正确找到对应店铺。因此,需要提供一种合理的方法,可以快速提高店铺地址的精准度。
发明内容
本说明书描述了一种店铺地址的更新方法,通过利用地图应用中的地址进行第三方辅助,以对预先采集的原始店铺地址进行更新。
根据第一方面,提供一种店铺地址的更新方法,该方法包括:获取预先采集的店铺信息记录,所述店铺信息记录包括原始地址信息和经纬度信息;调用地图应用接口,查询与所述经纬度信息对应的地图地址信息;确定与所述原始地址信息和所述地图地址信息的相似程度相关的参数值;在所述参数值位于预设区间内的情况下,根据所述地图地址信息,对所述原始地址信息进行更新。
根据一个实施例,所述店铺信息记录通过以下方式预先采集:利用网络爬虫在多个网站中进行采集。
根据一个实施例,所述确定与所述原始地址信息和所述地图地址信息的相似程度相关的参数值,包括:对所述原始地址信息和所述地图地址信息分别对应的文本进行预处理,所述预处理包括去除空格、去除标点符号、以及将字母转换为大写/小写中的至少一种处理;基于所述预处理后的所述原始地址信息和地图地址信息,确定所述参数值。
根据一个实施例,所述确定与所述原始地址信息和所述地图地址信息的相似程度相关的参数值,包括:基于所述原始地址信息确定对比地址文本;基于所述对比地址文本和与所述地图地址信息对应的地图地址文本,确定所述参数值。
进一步地,在一个具体的实施例中,所述原始地址信息包括一级地址信息和二级地址信息,所述二级地址信息包括楼层信息和/或门牌号信息;所述基于所述原始地址信息确定对比地址文本,包括:基于命名实体识别,从所述原始地址信息中提取出所述二级地址信息,并相应确定出所述一级地址信息;将所述一级地址信息对应的文本作为所述对比地址文本;所述对所述原始地址信息进行更新,包括:对所述一级地址信息进行更新。
在一个具体的实施例中,所述确定所述参数值,包括:确定所述对比地址文本与所述地图地址文本的最长公共子串/最长公共子序列;确定所述最长公共子串/最长公共子序列的字符数与所述对比地址文本/地图地址文本的字符数的第一比例值,并将所述第一比例值作为所述参数值;所述参数值位于预设区间内,包括:所述第一比例值大于第一预设阈值。
在另一个具体的实施例中,所述确定所述参数值,包括:基于所述地图地址文本,确定与所述对比地址文本具有相同字符数的至少一个连续字符子串;确定各连续字符子串与所述对比地址文本的各编辑距离;将确定出的各编辑距离中的最小编辑距离与所述对比地址文本/地图地址文本的字符数的第二比例值,作为所述参数值;所述参数值位于预设区间内,包括:所述第二比例值小于第二预设阈值。
根据第二方面,提供一种店铺地址的更新装置,该装置包括:获取单元,用于获取预先采集的店铺信息记录,所述店铺信息记录包括原始地址信息和经纬度信息;查询单元,用于调用地图应用接口,查询与所述经纬度信息对应的地图地址信息;确定单元,用于确定与所述原始地址信息和所述地图地址信息的相似程度相关的参数值;更新单元,用于在所述参数值位于预设区间内的情况下,根据所述地图地址信息,对所述原始地址信息进行更新。
根据一个实施例,所述店铺信息记录通过以下方式预先采集:利用网络爬虫在多个网站中进行采集。
根据一个实施例,所述确定单元具体用于:对所述原始地址信息和所述地图地址信息分别对应的文本进行预处理,所述预处理包括去除空格、去除标点符号、以及将字母转换为大写/小写中的至少一种处理;基于所述预处理后的所述原始地址信息和地图地址信息,确定所述参数值。
根据一个实施例,所述确定单元具体包括:第一确定子单元,用于基于所述原始地址信息确定对比地址文本;第二确定子单元,用于基于所述对比地址文本和与所述地图地址信息对应的地图地址文本,确定所述参数值。
进一步地,在一个具体的实施例中,所述原始地址信息包括一级地址信息和二级地址信息,所述二级地址信息包括楼层信息和/或门牌号信息;所述第一确定子单元具体用于:基于命名实体识别,从所述原始地址信息中提取出所述二级地址信息,并相应确定出所述一级地址信息;将所述一级地址信息对应的文本作为所述对比地址文本;所述更新单元具体用于:对所述一级地址信息进行更新。
在一个具体的实施例中,所述第二确定子单元具体用于:确定所述对比地址文本与所述地图地址文本的最长公共子串/最长公共子序列;确定所述最长公共子串/最长公共子序列的字符数与所述对比地址文本/地图地址文本的字符数的第一比例值,并将所述第一比例值作为所述参数值;所述参数值位于预设区间内,包括:所述第一比例值大于第一预设阈值。
在另一个具体的实施例中,所述第二子单元具体用于:基于所述地图地址文本,确定与所述对比地址文本具有相同字符数的至少一个连续字符子串;确定各连续字符子串与所述对比地址文本的各编辑距离;将确定出的各编辑距离中的最小编辑距离与所述对比地址文本/地图地址文本的字符数的第二比例值,作为所述参数值;所述参数值位于预设区间内,包括:所述第二比例值小于第二预设阈值。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
在本说明书实施例披露的店铺地址的更新方法中,首先,获取包括原始地址信息和经纬度信息的店铺信息记录,然后调用地图API查询与经纬度信息对应的地图地址信息,在原始地址信息和地图地址信息的相似程度达到预定程度的情况下,将原始地址信息更新为地图地址信息。进一步地,为了防止原始地址信息中楼层、门牌号等二级地址信息的丢失,可以先将二级地址信息从原始地址信息中提取出来,并在原始地址信息中的一级地址信息和地图地址信息的相似程度达到预定程度的情况下,将一级地址信息更新为地图地址信息。如此,可以实现大批量地、精准地对店铺信息记录中的原始地址信息进行纠错、补全等优化更新。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施流程框图;
图2示出根据一个实施例的店铺地址的更新方法流程图;
图3示出根据一个例子的店铺地址的更新方法流程图;
图4示出根据一个实施例的店铺地址的更新装置框图。
具体实施方式
下面结合附图,对本说明书披露的多个实施例进行描述。
下面,首先对本说明书披露的店铺地址的更新方法的发明构思进行介绍。所述方法主要基于以下的观察和统计:
目前,服务平台出于业务需要,通常会预先获取大量的店铺信息,例如,店铺信息可以包括店铺名称、店铺品牌、店铺的经纬度信息和店铺地址等,然后再将获取的店铺信息提供给用户,以使用户可以根据店铺信息进行筛选,并根据店铺地址去对应店铺消费,或者,用户可以根据店铺地址去对应店铺寻求业务合作,例如,开连锁店,或,邀请商家入驻外卖平台等。
然而,因服务平台获取大量店铺信息的方式通常包括向其他服务平台购买,与其他服务平台交换,或者,利用网络爬虫去各大网站,例如,旅游类网站(如,飞猪网)、美食类网站(如,饿了么),爬取,据此获取的店铺信息中,店铺地址准确度较低,具体地,可能存在店铺地址中包括错别字,例如,地址中包括的“肖俊秀街”实际应该为“肖隽秀街”,或者不够完整等问题,例如,店铺地址仅仅包括街区信息、楼层信息和门牌号信息,而缺失店铺所在的城市信息、州信息等,导致只有当地人能理解该店铺地址,而外地人无法理解,例如,获取的店铺地址为“1206 Main St F1 1”,而其对应的完整的通用地址应为“1206 Main St,Cincinnati,OH 4502,USA”。此外,相较于店铺信息中店铺地址的较低精准度,其中包括的店铺经纬度信息通常是准确的。
基于以上观察和统计,本说明书实施例提供一种店铺地址的更新方法,通过利用地图应用接口(Application Programming Interface,简称API),例如,谷歌地图API,作为辅助,确定与店铺信息中的经纬度信息对应的地图地址信息,并根据该地图地址信息对店铺信息中的原始地址信息进行更新,从而提高其准确度。下面,结合一个具体的实施例,对所述方法进行示例性说明。
图1为本说明书披露的一个实施例的实施流程框图。如图1所示,首先,获取预先采集的店铺信息记录,例如,可以包括:葫芦娃火锅(店铺名称)、(30°N,104°E)(经纬度信息)、四川省成都市肖俊秀街908号(原始地址信息);接着,从店铺信息记录中确定原始地址信息,以及经纬度信息,并调用地图应用接口,如,高德地图API,查询与经纬度信息对应的地图地址信息,如,四川省成都市金牛区肖隽秀街908号;然后,确定原始地址信息与地图地址信息的相似度,例如,计算原始地址信息所对应文本与地图地址信息所对应文本的余弦相似度;接着,判断确定出的相似度是否大于预设阈值,在相似度大于预设阈值的情况下,将原始地址信息更新为地图地址信息,例如,将“四川省成都市肖俊秀街908号”更新为“四川省成都市金牛区肖隽秀街908号”,在相似度小于或等于预设阈值的情况下,因原始地址信息和地图地址信息中的任一地址信息均可能存在错误,所以,暂时不对原始地址信息进行更新。下面,描述以上过程的具体实施步骤。
图2示出根据一个实施例的店铺地址的更新方法流程图,所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置。如图2所示,该方法流程包括以下步骤:步骤S210,获取预先采集的店铺信息记录,该店铺信息记录包括原始地址信息和经纬度信息;步骤S220,调用地图应用接口,查询与经纬度信息对应的地图地址信息;步骤S230,确定与原始地址信息和地图地址信息的相似程度相关的参数值;步骤S240,在参数值位于预设区间内的情况下,根据地图地址信息,对原始地址信息进行更新。
首先,在步骤S210,获取预先采集的店铺信息记录,该店铺信息记录包括原始地址信息和经纬度信息。
在一个实施例中,店铺信息记录可以通过以下方式预先采集:利用网络爬虫在多个网站,例如,旅游类网站和美食类网站等,进行采集;和/或,由当前服务平台向其他服务平台进行购买;和/或,由当前服务平台使用已获取的店铺信息记录,去交换其他服务平台所具有的店铺信息记录。如此,可以采集到大量的店铺信息记录。需要说明的是,在本说明书实施例中,主要针对某一条店铺信息记录,进行示例性说明。
在一个实施例中,店铺信息记录还可以包括店铺名称、店铺品牌、店铺行业、营业时间、联系电话、用户评价等信息。根据一个具体的实施例,某条店铺信息记录中可以包括:Starbucks(店铺名称)、Coffee Industry(店铺行业)、06:30-22:30(营业时间)、(30°N,80°W)(经纬度信息)、“1206 Main St F1 1”(原始地址信息);根据另一个具体的实施例,某条店铺信息记录中可以包括:葫芦娃火锅(店铺名称)、十佳连锁餐饮机构(店铺品牌)、87654321(联系电话)、“巴适”(用户评价)、(30°N,104°E)(经纬度信息)、四川省成都市肖俊秀街908号(原始地址信息)。
以上,可以获取店铺的原始地址信息和经纬度信息,接着,在步骤S220,调用地图应用接口,查询与经纬度信息对应的地图地址信息。
需要说明的是,地图应用接口可以为现有的多种地图API中的任一种,如,百度地图API、高德地图API和谷歌地图API等。在一个实施例中,地图API的选择可以基于店铺信息记录所对应的国家信息。例如,当店铺信息记录对应的店铺位于美国时,可以选择谷歌地图API确定与经纬度信息对应的地图地址信息;又例如,当店铺信息记录对应的店铺位于中国时,则可以选择高德地图API以确定与经纬度信息对应的地图地址信息。
根据一个例子,调用谷歌地图API,假定可以查询到与经纬度信息(30°N,80°W)对应的地图地址信息为“1206 Main St,Cincinnati,OH 4502,USA”,根据另一个实施例,调用高德地图API,假定可以查询到与经纬度信息(30°N,104°E)对应的地图地址信息为“四川省成都市金牛区肖隽秀街908号”。
以上,在查询到与步骤S210中获取的经纬度信息对应的地图地址信息以后,接着,在步骤S230,确定与原始地址信息和地图地址信息的相似程度相关的参数值。
具体的,确定与步骤S210中获取的原始地址信息和步骤S220中确定的地图地址信息的相似程度相关的参数值。
根据一个实施例,本步骤可以包括:首先,对原始地址信息和地图地址信息分别对应的文本进行预处理,所述预处理包括去除空格、去除标点符号、以及将字母转换为大写/小写中的至少一种处理;接着,基于预处理后的所述原始地址信息和地图地址信息,确定所述参数值。
进一步地,在一个例子中,假定原始地址信息和地图地址信息分别为:“1206 MainSt F1 1”和“1206 Main St,Cincinnati,OH 4502,USA”,在对二者分别进行包括去除空格、去除标点符号、以及将字符转换为大写的预处理后,可以得到预处理后的原始地址信息和地图地址信息分别为“1206MAINSTF11”和“1206MAINSTCINCINNATIOH4502USA”。如此,通过对原始地址信息和地图地址信息分别进行预处理,可以减少与确定参数值相关的计算量,并提高确定出的参数值的可信度和准确度。接着,确定参数值,可以包括:确定“1206MAINSTF11”和“1206MAINSTCINCINNATIOH4502USA”的文本相似度,并将此文本相似度作为所述参数值。
根据一个实施例,本步骤可以包括:首先,基于原始地址信息确定对比地址文本;接着,基于对比地址文本和与地图地址信息对应的地图地址文本,确定所述参数值。
进一步地,在一个具体的实施例中,基于原始地址信息确定对比地址文本,可以包括:直接将原始地址信息作为对比地址文本。在一个例子中,可以直接将原始地址信息“四川省成都市肖俊秀街908号”作为对比地址文本。
在另一个具体的实施例中,原始地址信息可以包括一级地址信息和二级地址信息,其中一级地址信息为粗粒度的地址信息,如,省、市、自治区、州、城镇、街道、街区、小区和楼座(如,楼的名称,楼号)等;二级地址信息为细粒度的地址信息,如,楼层、门牌号等。
需要说明的是,在后续步骤中可能会需要根据步骤S220中得到的地图地址信息对原始地址信息进行更新,而在一般应用场景下,地图地址信息是根据经纬度得出的地址,通常不包括二级地址信息。例如,目前谷歌地图中包括的地址信息中经常精确到街道或楼座,并不包括楼层和门牌号更详细的地址信息。因此,可以先将原始地址信息中的二级地址信息提取出来,一方面,在计算地址相似度参数的时候,避免二级地址信息对相似度参数的影响,另一方面,防止后续利用地图地址信息对原始地址信息进行更新时,造成的二级地址信息的丢失。
基于此,基于原始地址信息确定对比地址文本,可以包括:基于命名实体识别,从所述原始地址信息中提取出所述二级地址信息,并相应确定出所述一级地址信息;以及,将所述一级地址信息对应的文本作为所述对比地址文本。在一个例子中,原始地址信息可以为“1206 Main St F1 1”,据此,可以提取出的二级地址信息包括:“F1 1”,其中“F1”为楼层信息、“F1”之后的“1”为门牌号信息,并相应确定出一级地址信息为“1206 Main St”,然后对一级地址信息进行预处理,将预处理后得到的文本“1206MAINST”作为对比地址文本。
需要说明的是,上述可以采用现有的命名实体识别算法,从原始地址信息中提取出二级地址信息。根据一个具体的实施例,假定需要提取出楼层信息,则可以基于多语言楼层词库中的表达式,从原始地址信息中匹配出楼层信息,其中所述表达式可以包括:“\s[0-9][0-9]F”、“\s[0-9][0-9]楼”等。根据另一个具体的实施例,假定需要提取出门牌号信息,则可以基于多语言门牌号词库中的表达式,从原始地址信息中匹配出门牌号信息。
以上,可以确定基于原始地址信息的对比地址文本,接着,可以基于对比地址文本和与地图地址信息对应的地图地址文本,确定所述参数值。
在一个具体的实施例中,可以直接将地图地址信息作为地图地址文本,例如,可以直接将地图地址信息“四川省成都市肖俊秀街908号”作为地图地址文本。在另一个具体的实施例中,可以将预处理后的地图地址信息作为地图地址文本。例如,可以将预处理后的地图地址信息“1206MAINSTCINCINNATIOH4502USA”作为地图地址文本。
在一个具体的实施例中,确定所述参数值,可以包括:首先,确定对比地址文本与地图地址文本的最长公共子串/最长公共子序列,其中最长公共子串与最长公共子序列的区别在于,最长公共子串要求在原字符串中是连续的,而最长公共子序列则只需保持相对顺序一致,并不要求连续;接着,确定最长公共子串/最长公共子序列的字符数与对比地址文本/地图地址文本的字符数的第一比例值,并将第一比例值作为所述参数值,其中第一比例值越大,表明对比地址文本与地图地址文本之间的相似度越高。
需要说明的是,以下将一个字母、一个数字和一个汉字均算作一个字符,进行示例性说明。
进一步地,在一个例子中,假定对比地址文本和地图地址文本分别为“1206MAINST”和“1206MAINSTCINCINNATIOH4502USA”,据此可以确定出二者的最长公共子串为“1206MAINST”;接着,可以确定出最长公共字串与对比地址文本的字符数的第一比例值,即10/13≈0.77,并将0.77作为所述参数值。在另一个例子中,假定对比地址文本和地图地址文本分别为“四川省成都市肖俊秀街908号”和“四川省成都市金牛区肖隽秀街908号”,据此可以确定出二者的最长公共子序列为“四川省成都市肖秀街908号”;接着,可以确定出最长公共子序列与地图地址文本的字符数的第一比例值,即13/17≈0.76,并将0.72作为所述参数值。
另一方面,在一个具体的实施例中,确定所述参数值,可以包括:首先,基于地图地址文本,确定与对比地址文本具有相同字符数的至少一个连续字符子串,也就是说,利用滑动窗口法,具体将对比地址文本所具有的字符数设置为滑动窗口的大小,依次取地图地址文本的连续字符子串;接着,确定各连续字符子串与对比地址文本的各编辑距离,其中编辑距离是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数,其中编辑操作可以包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;然后,将确定出的各编辑距离中的最小编辑距离与对比地址文本/地图地址文本的字符数的第二比例值,作为所述参数值。需要说明的是,一般来说,编辑距离越小,两个字符串的相似度越大,由此,第二比例值越小,则对比地址文本与地图地址文本之间的相似度越高。
进一步地,在一个例子中,假定对比地址文本和地图地址文本分别为“1206MAINST”和“1206MAINSTCINCINNATIOH4502USA”,据此可以确定出以下连续字符串:“1206MAINST”、“206MAINSTC”和“06MAINSTCI”等;接着,可以确定出各连续字符子串与对比地址文本的各编辑距离,包括:0、2、4等;然后,将最小编辑距离与对比地址文本的字符数的第二比例值,即0,作为所述参数值。
此外,在一个实施例中,还可以将以上确定出的第一比例值和第二比例值均作为所述参数值。
以上,基于对比地址文本和地图地址文本,可以确定出与原始地址信息和地图地址信息的相似程度相关的参数值,具体可以包括第一比例值和/或第二比例值。同时,第一比例值越大,则表明原始地址信息与地图地址信息的相似度越高,而第二比例值越大,则相似度越低。
然后,在步骤S240,在参数值位于预设区间内的情况下,根据地图地址信息,对原始地址信息进行更新。
在一个实施例中,参数值包括在步骤S230中确定的第一比例值,相应地,预设区间可以包括:第一预设阈值至1,例如,(0.8,1],此时,参数值位于预设区间内,可以包括:第一比例值大于第一预设阈值。在另一个实施例中,参数值可以包括在步骤S230中确定的第二比例值,相应地,预设区间可以包括:0至第二预设阈值,例如,[0,0.2),此时,参数值位于预设区间内,可以包括:第二比例值小于第二预设阈值。在又一个实施例中,参数值可以包括第一比例值和第二比例值,此时,参数值位于预设区间内,可以包括:第一比例值大于第一预设阈值,且第二比例值小于第二预设阈值。
在一个实施例中,在步骤S220中,将原始地址信息作为对比地址文本。相应地,本步骤中对原始地址信息进行更新,可以包括:将原始地址信息更新为地图地址信息。
根据一个具体的例子,参数值包括第一比例值0.76,第一预设阈值为0.7,由此可以判断出第一比例值大于第一预设阈值,并可以据此将原始地址信息“四川省成都市肖俊秀街908号”更新为地图地址信息“四川省成都市金牛区肖隽秀街908号”。
在另一个实施例中,在步骤S220中,将原始地址信息中的一级地址信息作为对比地址文本。相应地,本步骤中对原始地址信息进行更新,可以包括:将原始地址信息中的一级地址信息更新为地图地址信息,也就是,将原始地址信息更新为地图地址信息和二级地址信息组合的地址信息。
根据一个具体的例子,参数值包括第一比例值0.77和第二比例值0,第一预设阈值和第二预设阈值分别为0.7和0.2,由此可以判断出第一比例值大于第一预设阈值,且第二比例值小于第二预设阈值,并可以据此将原始地址信息“1206 Main St F1 1”更新为由地图地址信息“1206 Main St,Cincinnati,OH 4502,USA”和二级地址信息“F1 1”组合成的地址信息,即,“F1 1,1206 Main St,Cincinnati,OH 4502,USA”。
需要说明的是,在参数值没有位于预设区间以内的情况下,说明原始地址信息和地图地址信息中至少有一个地址信息存在错误,但因无法判定具体是哪个存在错误,所以暂时不对原始地址信息进行更新。
此外,在步骤S220中,基于经纬度信息调用接口进行查询,除了可以查询到店铺的地图地址信息以外,还可能查询到店铺的营业时间、交通建议、联系电话等多项信息,当店铺信息记录中对应的某项信息为空值,也就是不存在相关信息时,可以将对应项的信息补入店铺信息记录中。如此,可以进一步完善店铺信息记录,以使服务方掌握的店铺信息更加全面,同时可以给用户提供更加详细的店铺信息。
由上,采用本说明书实施例提供的店铺地址的更新方法,首先,获取包括原始地址信息和经纬度信息的店铺信息记录,然后调用地图API查询与经纬度信息对应的地图地址信息,在原始地址信息和地图地址信息的相似程度达到预定程度的情况下,将原始地址信息更新为地图地址信息。进一步地,为了防止原始地址信息中楼层、门牌号等二级地址信息的丢失,可以先将二级地址信息从原始地址信息中提取出来,并在原始地址信息中的一级地址信息和地图地址信息的相似程度达到预定程度的情况下,将一级地址信息更新为地图地址信息。如此,可以实现大批量地、精准地对店铺信息记录中的原始地址信息进行纠错、补全等优化更新。
以下,结合图3,根据一个具体的例子,对本说明书实施例披露的店铺地址的更新方法进行进一步说明。如图3所示,所述方法可以包括以下步骤:
步骤S301,获取店铺信息记录,例如,Starbucks(店铺名称)、Coffee Industry(店铺行业)、06:30-22:30(营业时间)、(30°N,80°W)(经纬度信息)、“1206 Main St F1 1”(原始地址信息)。
步骤S302,获取原始地址信息,例如,“1206 Main St F1 1”。
步骤S303,提取二级地址信息,例如,“F1 1”,并确定一级地址信息,例如,“1206Main St”。
步骤S304,确定对比地址文本,例如,对一级地址信息“1206 Main St”进行预处理,将预处理后的一级地址信息“1206MAINST”作为对比地址文本。
步骤S305,获取经纬度信息,例如,(30°N,80°W)。
步骤S306,调用地图API,查询与经纬度信息对应的地图地址信息,例如,查询得到与(30°N,80°W)对应的地图地址信息为:1206 Main St,Cincinnati,OH 4502,USA。
步骤S307,确定地图地址文本,例如,对地图地址信息进行预处理后,得到地图地址文本“1206MAINSTCINCINNATIOH4502USA”。
步骤S308,确定与相似度相关的第一比例值。
例如,首先,确定对比地址文本与地图地址文本的最长公共子串“1206MAINST”,接着,可以确定出最长公共字串与对比地址文本“1206MAINSTF11”的字符数的第一比例值,即10/13≈0.77。
步骤S309,判断第一比例值与第一预设阈值的大小关系。
具体地,当第一比例值大于第一预设阈值,例如,0.77>0.7,时,执行步骤S310,否则结束当前流程。
步骤S310,确定与相似度相关的第二比例值。
例如,首先,基于地图地址文本,确定与对比地址文本具有相同字符数的至少一个连续字符子串,如,“1206MAINST”、“206MAINSTC”和“06MAINSTCI”等;接着,可以确定出各连续字符子串与对比地址文本的各编辑距离,包括:0、2、4等;然后,将最小编辑距离与对比地址文本的字符数的比值确定为第二比例值,例如,0。
步骤S311,判断第二比例值与第二预设阈值的大小关系。
具体地,当第二比例值<第二预设阈值,例如,0<0.2,时,执行步骤S312,否则结束当前流程。
步骤S312,将原始地址信息中的一级地址信息更新为地图地址信息,例如,可以将一级地址信息“1206 Main St”中的更新为地图地址信息“1206 Main St,Cincinnati,OH4502,USA”。
以上,可以实现对店铺地址信息记录中原始地址信息的优化更新。
根据另一方面的实施例,还提供一种店铺地址的更新装置。图4示出根据一个实施例的店铺地址的更新装置。如图4所示,该装置400包括:
获取单元410,用于获取预先采集的店铺信息记录,所述店铺信息记录包括原始地址信息和经纬度信息;
查询单元420,用于调用地图应用接口,查询与所述经纬度信息对应的地图地址信息;
确定单元430,用于确定与所述原始地址信息和所述地图地址信息的相似程度相关的参数值;
更新单元440,用于在所述参数值位于预设区间内的情况下,根据所述地图地址信息,对所述原始地址信息进行更新。
根据一个实施例,所述店铺信息记录通过以下方式预先采集:利用网络爬虫在多个网站中进行采集。
根据一个实施例,所述确定单元430具体用于:
对所述原始地址信息和所述地图地址信息分别对应的文本进行预处理,所述预处理包括去除空格、去除标点符号、以及将字母转换为大写/小写中的至少一种处理;
基于所述预处理后的所述原始地址信息和地图地址信息,确定所述参数值。
根据一个实施例,所述确定单元430具体包括:
第一确定子单元431,用于基于所述原始地址信息确定对比地址文本;
第二确定子单元432,用于基于所述对比地址文本和与所述地图地址信息对应的地图地址文本,确定所述参数值。
进一步地,在一个具体的实施例中,所述原始地址信息包括一级地址信息和二级地址信息,所述二级地址信息包括楼层信息和/或门牌号信息;
所述第一确定子单元431具体用于:
基于命名实体识别,从所述原始地址信息中提取出所述二级地址信息,并相应确定出所述一级地址信息;
将所述一级地址信息对应的文本作为所述对比地址文本;
所述更新单元440具体用于:对所述一级地址信息进行更新。
在一个具体的实施例中,所述第二确定子单元432具体用于:
确定所述对比地址文本与所述地图地址文本的最长公共子串/最长公共子序列;
确定所述最长公共子串/最长公共子序列的字符数与所述对比地址文本/地图地址文本的字符数的第一比例值,并将所述第一比例值作为所述参数值;
所述参数值位于预设区间内,包括:所述第一比例值大于第一预设阈值。
在另一个具体的实施例中,所述第二子单元具体用于:
基于所述地图地址文本,确定与所述对比地址文本具有相同字符数的至少一个连续字符子串;
确定各连续字符子串与所述对比地址文本的各编辑距离;
将确定出的各编辑距离中的最小编辑距离与所述对比地址文本/地图地址文本的字符数的第二比例值,作为所述参数值;
所述参数值位于预设区间内,包括:所述第二比例值小于第二预设阈值。
在一个具体的实施例中,所述第二子单元还用于:
基于所述地图地址文本,确定与所述对比地址文本具有相同字符数的至少一个连续字符子串;
确定各连续字符子串与所述对比地址文本的各编辑距离;
将确定出的各编辑距离中的最小编辑距离与所述对比地址文本/地图地址文本的字符数的第二比例值,作为所述参数值;
所述参数值位于预设区间内,包括:所述第一比例值大于第一预设阈值,且所述第二比例值小于第二预设阈值。
总之,采用本说明书实施例提供的店铺地址的更新装置获取单元410获取包括原始地址信息和经纬度信息的店铺信息记录,查询单元420调用地图API查询与经纬度信息对应的地图地址信息,更新单元440在原始地址信息和地图地址信息的相似程度达到预定程度的情况下,将原始地址信息更新为地图地址信息。
如上,根据再一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。

Claims (18)

1.一种店铺地址的更新方法,包括:
获取预先采集的店铺信息记录,所述店铺信息记录包括原始地址信息和经纬度信息;
调用地图应用接口,查询与所述经纬度信息对应的地图地址信息;
确定与所述原始地址信息和所述地图地址信息的相似程度相关的参数值;
在所述参数值位于预设区间内的情况下,根据所述地图地址信息,对所述原始地址信息进行更新。
2.根据权利要求1所述的方法,其中,所述店铺信息记录通过以下方式预先采集:利用网络爬虫在多个网站中进行采集。
3.根据权利要求1所述的方法,其中,所述确定与所述原始地址信息和所述地图地址信息的相似程度相关的参数值,包括:
对所述原始地址信息和所述地图地址信息分别对应的文本进行预处理,所述预处理包括去除空格、去除标点符号、以及将字母转换为大写/小写中的至少一种处理;
基于所述预处理后的所述原始地址信息和地图地址信息,确定所述参数值。
4.根据权利要求1所述的方法,其中,所述确定与所述原始地址信息和所述地图地址信息的相似程度相关的参数值,包括:
基于所述原始地址信息确定对比地址文本;
基于所述对比地址文本和与所述地图地址信息对应的地图地址文本,确定所述参数值。
5.根据权利要求4所述的方法,其中,所述原始地址信息包括一级地址信息和二级地址信息,所述二级地址信息包括楼层信息和/或门牌号信息;
所述基于所述原始地址信息确定对比地址文本,包括:
基于命名实体识别,从所述原始地址信息中提取出所述二级地址信息,并相应确定出所述一级地址信息;
将所述一级地址信息对应的文本作为所述对比地址文本;
所述对所述原始地址信息进行更新,包括:对所述一级地址信息进行更新。
6.根据权利要求4所述的方法,其中,所述确定所述参数值,包括:
确定所述对比地址文本与所述地图地址文本的最长公共子串/最长公共子序列;
确定所述最长公共子串/最长公共子序列的字符数与所述对比地址文本/地图地址文本的字符数的第一比例值,并将所述第一比例值作为所述参数值;
所述参数值位于预设区间内,包括:所述第一比例值大于第一预设阈值。
7.根据权利要求4所述的方法,其中,所述确定所述参数值,包括:
基于所述地图地址文本,确定与所述对比地址文本具有相同字符数的至少一个连续字符子串;
确定各连续字符子串与所述对比地址文本的各编辑距离;
将确定出的各编辑距离中的最小编辑距离与所述对比地址文本/地图地址文本的字符数的第二比例值,作为所述参数值;
所述参数值位于预设区间内,包括:所述第二比例值小于第二预设阈值。
8.根据权利要求6所述的方法,其中,所述确定所述参数值,还包括:
基于所述地图地址文本,确定与所述对比地址文本具有相同字符数的至少一个连续字符子串;
确定各连续字符子串与所述对比地址文本的各编辑距离;
将确定出的各编辑距离中的最小编辑距离与所述对比地址文本/地图地址文本的字符数的第二比例值,作为所述参数值;
所述参数值位于预设区间内,包括:所述第一比例值大于第一预设阈值,且所述第二比例值小于第二预设阈值。
9.一种店铺地址的更新装置,包括:
获取单元,用于获取预先采集的店铺信息记录,所述店铺信息记录包括原始地址信息和经纬度信息;
查询单元,用于调用地图应用接口,查询与所述经纬度信息对应的地图地址信息;
确定单元,用于确定与所述原始地址信息和所述地图地址信息的相似程度相关的参数值;
更新单元,用于在所述参数值位于预设区间内的情况下,根据所述地图地址信息,对所述原始地址信息进行更新。
10.根据权利要求9所述的装置,其中,所述店铺信息记录通过以下方式预先采集:利用网络爬虫在多个网站中进行采集。
11.根据权利要求9所述的装置,其中,所述确定单元具体用于:
对所述原始地址信息和所述地图地址信息分别对应的文本进行预处理,所述预处理包括去除空格、去除标点符号、以及将字母转换为大写/小写中的至少一种处理;
基于所述预处理后的所述原始地址信息和地图地址信息,确定所述参数值。
12.根据权利要求9所述的装置,其中,所述确定单元具体包括:
第一确定子单元,用于基于所述原始地址信息确定对比地址文本;
第二确定子单元,用于基于所述对比地址文本和与所述地图地址信息对应的地图地址文本,确定所述参数值。
13.根据权利要求12所述的装置,其中,所述原始地址信息包括一级地址信息和二级地址信息,所述二级地址信息包括楼层信息和/或门牌号信息;
所述第一确定子单元具体用于:
基于命名实体识别,从所述原始地址信息中提取出所述二级地址信息,并相应确定出所述一级地址信息;
将所述一级地址信息对应的文本作为所述对比地址文本;
所述更新单元具体用于:对所述一级地址信息进行更新。
14.根据权利要求12所述的装置,其中,所述第二确定子单元具体用于:
确定所述对比地址文本与所述地图地址文本的最长公共子串/最长公共子序列;
确定所述最长公共子串/最长公共子序列的字符数与所述对比地址文本/地图地址文本的字符数的第一比例值,并将所述第一比例值作为所述参数值;
所述参数值位于预设区间内,包括:所述第一比例值大于第一预设阈值。
15.根据权利要求12所述的装置,其中,所述第二确定子单元具体用于:
基于所述地图地址文本,确定与所述对比地址文本具有相同字符数的至少一个连续字符子串;
确定各连续字符子串与所述对比地址文本的各编辑距离;
将确定出的各编辑距离中的最小编辑距离与所述对比地址文本/地图地址文本的字符数的第二比例值,作为所述参数值;
所述参数值位于预设区间内,包括:所述第二比例值小于第二预设阈值。
16.根据权利要求14所述的装置,其中,所述第二确定子单元还用于:
基于所述地图地址文本,确定与所述对比地址文本具有相同字符数的至少一个连续字符子串;
确定各连续字符子串与所述对比地址文本的各编辑距离;
将确定出的各编辑距离中的最小编辑距离与所述对比地址文本/地图地址文本的字符数的第二比例值,作为所述参数值;
所述参数值位于预设区间内,包括:所述第一比例值大于第一预设阈值,且所述第二比例值小于第二预设阈值。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
CN201810776255.5A 2018-07-16 2018-07-16 店铺地址的更新方法及装置 Active CN108959609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810776255.5A CN108959609B (zh) 2018-07-16 2018-07-16 店铺地址的更新方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810776255.5A CN108959609B (zh) 2018-07-16 2018-07-16 店铺地址的更新方法及装置

Publications (2)

Publication Number Publication Date
CN108959609A CN108959609A (zh) 2018-12-07
CN108959609B true CN108959609B (zh) 2021-09-21

Family

ID=64481360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810776255.5A Active CN108959609B (zh) 2018-07-16 2018-07-16 店铺地址的更新方法及装置

Country Status (1)

Country Link
CN (1) CN108959609B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710628B (zh) * 2018-12-29 2023-12-26 深圳巨湾科技有限公司 信息处理方法及装置、系统、计算机及可读存储介质
CN110427575A (zh) * 2019-08-15 2019-11-08 阳光易购(湖南)科技有限公司 一种地址对应经纬度准确性判断的方法
CN111861507B (zh) * 2020-06-30 2023-10-24 成都数之联科技股份有限公司 一种用于实时分析网络餐饮店铺风险的识别方法及系统
CN114547404B (zh) * 2022-01-10 2023-02-17 普瑞纯证医疗科技(苏州)有限公司 一种大数据平台系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5612544B2 (ja) * 2011-07-01 2014-10-22 日本電信電話株式会社 情報提示方法および情報提示システム
CN105160031A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种地图兴趣点poi数据的挖掘方法和装置
CN105808609A (zh) * 2014-12-31 2016-07-27 高德软件有限公司 一种信息点数据冗余的判别方法和设备
CN106874287A (zh) * 2015-12-11 2017-06-20 北京四维图新科技股份有限公司 一种兴趣点poi地址编码的处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5612544B2 (ja) * 2011-07-01 2014-10-22 日本電信電話株式会社 情報提示方法および情報提示システム
CN105808609A (zh) * 2014-12-31 2016-07-27 高德软件有限公司 一种信息点数据冗余的判别方法和设备
CN105160031A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种地图兴趣点poi数据的挖掘方法和装置
CN106874287A (zh) * 2015-12-11 2017-06-20 北京四维图新科技股份有限公司 一种兴趣点poi地址编码的处理方法及装置

Also Published As

Publication number Publication date
CN108959609A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959609B (zh) 店铺地址的更新方法及装置
CN109145169B (zh) 一种基于统计分词的地址匹配方法
JP5315664B2 (ja) 位置表現検出装置、プログラム、及び、記憶媒体
CN101313300B (zh) 本地搜索
CN107203526B (zh) 一种查询串语义需求分析方法及装置
US20120296865A1 (en) Terminal device and word stock update method thereof
CN101095138A (zh) 选择用于文本分割的语言的方法和系统
CN104221078A (zh) 声音识别服务器综合装置以及声音识别服务器综合方法
RU2598165C1 (ru) Недетерминированное разрешение неоднозначности и сопоставление данных места коммерческого предприятия
CN110765773A (zh) 地址数据获取方法以及装置
CN109948122B (zh) 输入文本的纠错方法、装置及电子设备
CN103902672A (zh) 问答系统及其问答处理方法
JP6834774B2 (ja) 情報抽出装置
CN113312539A (zh) 一种检索服务的提供方法、装置、设备和介质
CN102024026A (zh) 用于处理查询词语的方法和系统
JP5192413B2 (ja) データ統合装置及びデータ統合方法
JP2023134825A (ja) 登記情報出力システム、登記情報出力方法及びプログラム
US20060100999A1 (en) System and method for data entry and search
JP2010140355A (ja) 情報検索システム及び情報検索方法
CN110967030A (zh) 一种用于车载导航的信息处理方法及其装置
CN112579713B (zh) 地址识别方法、装置、计算设备及计算机存储介质
JP4510780B2 (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
WO2022112857A1 (zh) 订单信息的校正方法、装置、设备及存储介质
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP6106070B2 (ja) 地名推定方法、地名推定装置及び地名推定プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200930

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200930

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240221

Address after: Guohao Times City # 20-01, 128 Meizhi Road, Singapore

Patentee after: Advanced Nova Technology (Singapore) Holdings Ltd.

Country or region after: Singapore

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Innovative advanced technology Co.,Ltd.

Country or region before: United Kingdom

TR01 Transfer of patent right