CN112001172A - 识别方法及装置 - Google Patents

识别方法及装置 Download PDF

Info

Publication number
CN112001172A
CN112001172A CN202010876233.3A CN202010876233A CN112001172A CN 112001172 A CN112001172 A CN 112001172A CN 202010876233 A CN202010876233 A CN 202010876233A CN 112001172 A CN112001172 A CN 112001172A
Authority
CN
China
Prior art keywords
address
structured
target
similarity
addresses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010876233.3A
Other languages
English (en)
Inventor
张芹
宋焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Chengying Data Technology Co ltd
Original Assignee
Hangzhou Chengying Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Chengying Data Technology Co ltd filed Critical Hangzhou Chengying Data Technology Co ltd
Priority to CN202010876233.3A priority Critical patent/CN112001172A/zh
Publication of CN112001172A publication Critical patent/CN112001172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Abstract

本说明书提供识别方法及装置,其中所述识别方法包括:获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。根据本说明书的识别方法无需将中文地址转换成经纬度再转换成兴趣点,实现了偏差小、准确率高地识别与目标兴趣点相关的、预定地址范围内的多个结构化地址是否表征同一兴趣点。

Description

识别方法及装置
技术领域
本说明书涉及数据处理技术领域,特别涉及识别方法及装置。
背景技术
在网上订餐平台、物流配送平台中会存储大量由用户输入的配送地址或取货地址,这些地址的前部分可以由订餐平台、物流配送平台提供以供用户选择,因此是标准化的。后部分由用户自行填写,即使对于同一兴趣点(POI),不同用户输入的地址也可能不同,例如,对于名称为AA饭店的POI,用户A输入的地址包括AA饭店所在的街道、在街道的门牌号,用户B输入的地址只包括POI名称,用户C输入的文本地址包括街道门牌号及POI名称,用户D输入有错别字的POI名称,例如AB饭店。
现有技术中会将不同的中文地址转换为经纬度,对经纬度进行POI转换,得到对应POI,再比较不同中文地址的POI是否相同,由于中文地址比较杂乱,转换为经纬度偏差较大,从经纬度再转换成POI进一步加大了偏差,导致识别是否为同一POI的结果不理想。
进而需要偏差小、准确率高地识别多个中文地址是否为同一POI的操作或者处理。
发明内容
有鉴于此,本说明书实施例提供了一种识别方法。本说明书同时涉及一种识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种识别方法,包括:
获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;
根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;
将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
可选地,识别方法还包括:
确定识别为对应于所述目标兴趣点的第一结构化地址中出现次数最多的结构化地址;
将识别为对应于所述目标兴趣点的第一结构化地址修改为所述出现次数最多的结构化地址。
可选地,根据所述第一结构化地址获得对应的包括字母的表征信息包括:
将所述第一结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
可选地,根据所述第一结构化地址获得对应的包括字母的表征信息包括:
提取所述第一结构化地址中的除所述第一地址范围以外的第二地址范围,作为第二结构化地址;
将所述第二结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
可选地,所述多个地址范围包括多个地址类型以及与每个地址类型对应的地址数据,所述第一地址范围包括目标地址类型及对应的地址数据以及目标地址类型之前的地址类型及对应的地址数据,
在获取与目标兴趣点相关的多个中文的第一结构化地址之前,还包括:
根据目标兴趣点,确定目标地址类型。
可选地,计算所述表征信息之间的相似度包括:
基于文本相似度算法计算所述表征信息之间的相似度二维矩阵。
可选地,识别方法还包括:
根据修改后的结构化地址,分配订单。
根据本说明书实施例的第二方面,提供了一种识别装置,包括:
获取模块,被配置为获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;
计算模块,被配置为根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;
识别模块,被配置为将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
可选地,识别装置还包括:
第一确定模块,被配置为确定识别为对应于所述目标兴趣点的第一结构化地址中出现次数最多的结构化地址;
修改模块,被配置为将识别为对应于所述目标兴趣点的第一结构化地址修改为所述出现次数最多的结构化地址。
可选地,所述计算模块还被配置为:
将所述第一结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
可选地,所述计算模块还被配置为:
提取所述第一结构化地址中的除所述第一地址范围以外的第二地址范围,作为第二结构化地址;
将所述第二结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
可选地,所述多个地址范围包括多个地址类型以及与每个地址类型对应的地址数据,所述第一地址范围包括目标地址类型及对应的地址数据以及目标地址类型之前的地址类型及对应的地址数据,所述识别装置还包括:
第二确定模块,被配置为根据目标兴趣点,确定目标地址类型。
可选地,所述计算模块还被配置为:
基于文本相似度算法计算所述表征信息之间的相似度二维矩阵。
可选地,识别装置还包括:
分配模块,被配置为根据修改后的结构化地址,分配订单。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;
根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;
将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述识别方法的步骤。
本说明书提供的识别方法,获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
本说明书提供的识别方法无需将中文地址转换成经纬度再转换成兴趣点,实现了偏差小、准确率高地识别与目标兴趣点相关的、预定地址范围内的多个结构化地址是否表征同一POI。
附图说明
图1示出了本说明书一实施例提供的一种识别方法的流程图;
图2示出了本说明书一实施例提供的一种应用于分配取货订单的识别方法的处理流程图;
图3示出了本说明书一实施例提供的一种应用于分配配送订单的识别方法的处理流程图;
图4示出了本说明书一实施例提供的一种识别装置的结构示意图;
图5示出了本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
兴趣点(POI,point of information或point of interest):对于地图产品而言,某个地理位置周边的信息,即为POI。在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
在本说明书中,提供了一种识别方法,本说明书同时涉及一种识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例提供的一种识别方法的流程图,具体包括步骤102至106。
步骤102:获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同。
以物流配送平台或网上订餐平台接收到多个配送订单或取货订单为例进行说明,其中一个订单对应地址的POI名称为目标兴趣点。与目标兴趣点相关的结构化地址是指与目标兴趣点相关的配送地址或取货地址。结构化地址可以采用A省B市C区(县)D街道(乡镇)E路F号POI名称的形式,其中,A省、B市、C区(县)、D街道(乡镇)、E路、F号、POI名称为不同的地址范围。结构化地址的前部分(省、市、区、街道或省、市、区)可以由订餐平台、物流配送平台等提供以供用户选择,后部分由用户自行填写。第一结构化地址的第一地址范围彼此相同,第一地址范围包括第一结构化地址的多个地址范围中的前预定数目的地址范围。例如,第一结构化地址包括均为A省B市C区(县)的相同地址范围或包括均为A省B市C区(县)D街道(乡镇)的相同地址范围。在本说明书一实施例中,第一结构化地址的多个地址范围包括多个地址类型以及与每个地址类型对应的地址数据,第一地址范围包括目标地址类型及对应的地址数据以及目标地址类型之前的地址类型及对应的地址数据。目标地址类型决定获取的第一结构化地址,目标地址类型是根据目标兴趣点确定的,在目标兴趣点为某一全国连锁且分布在每个区数量较多但街道中数量较少的POI(AA饭店)的情况下,可以将目标地址类型确定为街道;在目标兴趣点为一个城市内数量较多但区中数量较少的POI(BB广场、CC超市)时,可以将目标地址类型确定为区。目标地址类型确定为街道范围,会更准确,但并不针对所有POI均采用街道地域范围,要根据要识别的POI来决定地域范围选择街道还是区或市。
在目标地址类型为街道的情况下,第一结构化地址为省、市、区(县)、街道(乡镇)对应的地址数据完全相同的中文地址。在目标地址类型为区的情况下,第一结构化地址为省、市、区(县)对应的地址数据完全相同的中文地址。
步骤104:根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度。
在本说明书一实施例中,根据所述第一结构化地址获得对应的包括字母的表征信息通过以下实现:
将所述第一结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
例如,将A省B市C区D街道(乡镇)E路F号POI名称中的所有中文字符转换为拼音,获得包括字母的表征信息,或者包括字母与数字的表征信息。在本实施例中,将全部第一结构化地址转换成拼音计算相似度。实际应用中,地址类型区之前甚至街道之前的地址数据都是标准化的,将区之后或街道之后不标准化的地址数据转换成拼音计算相似度即可。因此在本说明书另一实施例中,根据所述第一结构化地址获得对应的包括字母的表征信息通过以下实现:
提取所述第一结构化地址中的除所述第一地址范围以外的第二地址范围,作为第二结构化地址;
将所述第二结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
例如,在目标地址类型确定为区的情况下,提取A省B市C区D街道(乡镇)E路F号POI名称中的D街道(乡镇)E路F号POI名称,作为第二结构化地址,将D街道(乡镇)E路F号POI名称转换为拼音来计算与其他第二结构化地址的相似度。在目标地址类型确定为街道的情况下,提取A省B市C区D街道(乡镇)E路F号POI名称中的E路F号POI名称,作为第二结构化地址,将E路F号POI名称转换为拼音来计算与其他第二结构化地址的相似度。
在一实施例中,计算所述表征信息之间的相似度可以通过以下实现:
基于文本相似度算法计算所述表征信息之间的相似度二维矩阵。
文本相似度算法可以采用编辑距离算法、Jaro Winkler Distance、LevenshteinDistance算法等,此处列出的算法仅为示例,不对本说明书作出限制。计算每个第一结构化地址或第二结构化地址对应的表征信息与其他第一结构化地址或第二结构化地址对应的表征信息之间的相似度,得到相似度二维矩阵。
步骤106:将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
具体地,将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为同一兴趣点。预设相似度阈值是在平衡准确率与覆盖率的情况下选取的。相似度阈值高,准确率高,但覆盖率会降低,相似度阈值低,准确率低,但覆盖率会提高。可以根据实际需求确定或调节相似度阈值。
根据本说明书的识别方法无需将中文地址转换成经纬度再转换成兴趣点,实现了偏差小、准确率高地识别与目标兴趣点相关的、预定地址范围内的多个结构化地址是否表征同一POI。
在一实施例中,识别方法还包括:
确定识别为对应于所述目标兴趣点的第一结构化地址中出现次数最多的结构化地址;
将识别为对应于所述目标兴趣点的第一结构化地址修改为所述出现次数最多的结构化地址。
将高于预设相似度阈值的POI地址标记为标识相同POI的POI地址,对于标识相同POI的POI地址,取出现次数最多的POI地址作为标准POI地址,分配给标记为标识相同POI的POI地址。
例如,将10个POI地址识别为对应于同一POI,有五个以上的人使用某一个POI地址,则将该POI地址作为标准POI地址,分配给这10个POI地址,从而实现对不同中文写法的POI地址进行标准化,实现POI地址统一。
在一实施例中,识别方法还包括:根据修改后的结构化地址,分配订单。
具体地,在将多个POI地址识别为标识同一POI并将地址修改为相同的情况下,网上订餐平台或物流配送平台根据修改后的地址分配订单。可以将取货地址或送货地址标识同一POI的订单分配给同一配送员,避免分配给多个配送员造成平台资源浪费,从而优化配送平台的资源分配。
下述结合附图2,以本说明书提供的识别方法在分配取货订单的应用为例,对所述识别方法进行进一步说明。其中,图2示出了本说明书一实施例提供的一种应用于分配取货订单的识别方法的处理流程图,具体包括步骤202至218。
步骤202:根据目标兴趣点“一二饭店”,确定目标地址类型为街道。
网上订餐平台接收到多个取货订单,根据其中一个取货订单对应的取货地址的POI名称为“一二饭店”,平台打算分配取货员到“一二饭店”取货,“一二饭店”是某一全国连锁且分布在每个区数量较多但街道中数量较少的POI。
步骤204:获取与“一二饭店”相关的多个中文的第一结构化地址,第一结构化地址中包括相同的第一地址范围:A省B市C区D街道。
例如,获取到取货订单中的五个与“一二饭店”相关的第一结构化地址,分别为A省B市C区D街道E路F号一二饭店、A省B市C区D街道E路一二饭店、A省B市C区D街道一三饭店、A省B市C区D街道E路一尔饭店、A省B市C区D街道E路F号一二饭店。
步骤206:提取所述第一结构化地址中的除A省B市C区D街道以外的第二地址范围,作为第二结构化地址。
例如,得到五个第二结构化地址:E路F号一二饭店、E路一二饭店、一三饭店、E路一尔饭店、E路F号一二饭店。
步骤208:将第二结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
POI名称之前的字段转换成对应的拼音,POI名称也转换为拼音,POI名称的拼音为yierfandian、yierfandian、yisanfandian、yierfandian、yierfandian。
步骤210:基于文本相似度算法计算表征信息之间的相似度二维矩阵。
文本相似度算法可以采用编辑距离算法、Jaro Winkler Distance、LevenshteinDistance算法等,此处列出的算法仅为示例,不对本说明书作出限制。
步骤212:将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于“一二饭店”。
在本实施例中,例如,若除“一三饭店“之外的四个第一结构化地址相似度高于预设相似度阈值,则将这四个第一结构化地址识别为同一POI名称。
步骤214:确定识别为对应于“一二饭店”的第一结构化地址中出现次数最多的结构化地址。
在本实施例中,出现次数最多的结构化地址为A省B市C区D街道E路F号一二饭店。
步骤216:将识别为对应于“一二饭店”的第一结构化地址修改为出现次数最多的结构化地址。
将所有四个第一结构化地址修改为A省B市C区D街道E路F号一二饭店。
步骤218:根据修改后的结构化地址,分配取货订单。
网上订餐平台识别四个结构化地址标识同一POI,将四个地址的订单分配给同一取货员,避免将订单分配给不同取货员造成平台资源浪费,从而优化配送平台的资源分配。
根据本实施例的识别方法,避免缺少路和/或路门牌号的同一POI名称被认为不同POI,而且将POI地址进行标准化,根据标准化后的POI地址分配取货订单,避免将四个地址的订单分配给不同取货员造成平台资源浪费,优化配送平台的资源分配。
下述结合附图3,以本说明书提供的识别方法在分配配送订单的应用为例,对所述识别方法进行进一步说明。其中,图3示出了本说明书一实施例提供的一种应用于分配配送订单的识别方法的处理流程图,具体包括步骤302至318。
步骤302:根据目标兴趣点“小屋超市”,确定目标地址类型为区。
物流配送平台或网上订餐平台接收到多个配送订单,根据其中一个配送订单对应的配送地址的POI名称为“小屋超市”,平台要分配配送员到“小屋超市”配送。
步骤304:获取与“小屋超市”相关的多个中文的第一结构化地址,第一结构化地址中包括相同的第一地址范围:A省B市C区。
例如,获取到配送订单中的与“小屋超市”相关的四个第一结构化地址,分别为A省B市C区D街道E路F号小屋超市、A省B市C区D街道E路F号小五超市、A省B市C区D街道E路F号屋超市、A省B市C区D街道E路F号小屋超市。
步骤306:提取所述第一结构化地址中的除A省B市C区以外的第二地址范围,作为第二结构化地址。
例如,得到四个第二结构化地址,其POI名称之前的字段相同,POI名称分别为小屋超市、小五超市、屋超市、小屋超市。
步骤308:将第二结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
POI名称之前的字段对应的拼音相同,POI名称的拼音分别为xiaowuchaoshi、xiaowuchaoshi、wuchaoshi以及xiaowuchaoshi。
步骤310:基于文本相似度算法计算表征信息之间的相似度二维矩阵。
文本相似度算法可以采用编辑距离算法、Jaro Winkler Distance、LevenshteinDistance算法等,此处列出的算法仅为示例,不对本说明书作出限制。
步骤312:将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于“小屋超市”。
在本实施例中,若四个第一结构化地址彼此的相似度高于预设相似度阈值,则将四个第一结构化地址识别为标识同一POI。
步骤314:确定识别为对应于“小屋超市”的第一结构化地址中出现次数最多的结构化地址。
在本实施例中,出现次数最多的结构化地址为A省B市C区D街道E路F号小屋超市。
步骤316:将识别为对应于“小屋超市”的第一结构化地址修改为出现次数最多的结构化地址。
将所有四个第一结构化地址修改为A省B市C区D街道E路F号小屋超市。
步骤318:根据修改后的结构化地址,分配配送订单。
平台将四个地址的订单分配给同一配送员,避免将四个地址的订单分配给不同配送员造成平台资源浪费,从而优化配送平台的资源分配。
根据本实施例的识别方法,避免同音不同写法以及遗漏文字的同一POI名称被认为不同POI,而且将同音不同写法以及遗漏文字的POI地址进行标准化,根据标准化后的POI地址分配配送订单,优化配送平台的资源分配。
与上述方法实施例相对应,本说明书还提供了识别装置实施例,图4示出了本说明书一实施例提供的一种识别装置的结构示意图。如图4所示,该装置包括:
获取模块402,被配置为获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;
计算模块404,被配置为根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;
识别模块406,被配置为将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
根据本实施例的识别装置无需将中文地址转换成经纬度再转换成兴趣点,实现了偏差小、准确率高地识别与目标兴趣点相关的、预定地址范围内的多个结构化地址是否表征同一POI。
可选地,识别装置还包括:
第一确定模块,被配置为确定识别为对应于所述目标兴趣点的第一结构化地址中出现次数最多的结构化地址;
修改模块,被配置为将识别为对应于所述目标兴趣点的第一结构化地址修改为所述出现次数最多的结构化地址。
可选地,所述计算模块404还被配置为:
将所述第一结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
可选地,所述计算模块404还被配置为:
提取所述第一结构化地址中的除所述第一地址范围以外的第二地址范围,作为第二结构化地址;
将所述第二结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
可选地,所述多个地址范围包括多个地址类型以及与每个地址类型对应的地址数据,第一地址范围包括目标地址类型及对应的地址数据以及目标地址类型之前的地址类型及对应的地址数据,所述识别装置还包括:
第二确定模块,被配置为根据目标兴趣点,确定目标地址类型。
可选地,所述计算模块404还被配置为:
基于文本相似度算法计算所述表征信息之间的相似度二维矩阵。
可选地,识别装置还包括:
分配模块,被配置为根据修改后的结构化地址,分配配送订单。
上述为本实施例的一种识别装置的示意性方案。需要说明的是,该识别装置的技术方案与上述的识别方法的技术方案属于同一构思,识别装置的技术方案未详细描述的细节内容,均可以参见上述识别方法的技术方案的描述。
图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令,以实现以下方法:
获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;
根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;
将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述识别方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;
根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;
将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述识别方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (16)

1.一种识别方法,包括:
获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;
根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;
将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
2.根据权利要求1所述的识别方法,还包括:
确定识别为对应于所述目标兴趣点的第一结构化地址中出现次数最多的结构化地址;
将识别为对应于所述目标兴趣点的第一结构化地址修改为所述出现次数最多的结构化地址。
3.根据权利要求1或2所述的识别方法,其中,根据所述第一结构化地址获得对应的包括字母的表征信息包括:
将所述第一结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
4.根据权利要求1或2所述的识别方法,其中,根据所述第一结构化地址获得对应的包括字母的表征信息包括:
提取所述第一结构化地址中的除所述第一地址范围以外的第二地址范围,作为第二结构化地址;
将所述第二结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
5.根据权利要求1或2所述的识别方法,其中,所述多个地址范围包括多个地址类型以及与每个地址类型对应的地址数据,所述第一地址范围包括目标地址类型及对应的地址数据以及目标地址类型之前的地址类型及对应的地址数据,
在获取与目标兴趣点相关的多个中文的第一结构化地址之前,还包括:
根据目标兴趣点,确定目标地址类型。
6.根据权利要求1或2所述的识别方法,其中,计算所述表征信息之间的相似度包括:
基于文本相似度算法计算所述表征信息之间的相似度二维矩阵。
7.根据权利要求2所述的识别方法,还包括:
根据修改后的结构化地址,分配订单。
8.一种识别装置,包括:
获取模块,被配置为获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;
计算模块,被配置为根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;
识别模块,被配置为将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
9.根据权利要求8所述的识别装置,还包括:
第一确定模块,被配置为确定识别为对应于所述目标兴趣点的第一结构化地址中出现次数最多的结构化地址;
修改模块,被配置为将识别为对应于所述目标兴趣点的第一结构化地址修改为所述出现次数最多的结构化地址。
10.根据权利要求8或9所述的识别装置,其中,所述计算模块还被配置为:
将所述第一结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
11.根据权利要求8或9所述的识别装置,其中,所述计算模块还被配置为:
提取所述第一结构化地址中的除所述第一地址范围以外的第二地址范围,作为第二结构化地址;
将所述第二结构化地址中的中文字符转换为拼音,获得包括字母的表征信息。
12.根据权利要求8或9所述的识别装置,其中,所述多个地址范围包括多个地址类型以及与每个地址类型对应的地址数据,所述第一地址范围包括目标地址类型及对应的地址数据以及目标地址类型之前的地址类型及对应的地址数据,所述识别装置还包括:
第二确定模块,被配置为根据目标兴趣点,确定目标地址类型。
13.根据权利要求8或9所述的识别装置,其中,所述计算模块还被配置为:
基于文本相似度算法计算所述表征信息之间的相似度二维矩阵。
14.根据权利要求9所述的识别装置,还包括:
分配模块,被配置为根据修改后的结构化地址,分配订单。
15.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
获取与目标兴趣点相关的多个中文的第一结构化地址,其中,所述第一结构化地址包括多个地址范围,并且每个第一结构化地址的第一地址范围彼此相同;
根据所述第一结构化地址获得对应的包括字母的表征信息,计算所述表征信息之间的相似度;
将相似度高于预设相似度阈值的表征信息对应的第一结构化地址识别为对应于所述目标兴趣点。
16.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至7任意一项所述识别方法的步骤。
CN202010876233.3A 2020-08-25 2020-08-25 识别方法及装置 Pending CN112001172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010876233.3A CN112001172A (zh) 2020-08-25 2020-08-25 识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010876233.3A CN112001172A (zh) 2020-08-25 2020-08-25 识别方法及装置

Publications (1)

Publication Number Publication Date
CN112001172A true CN112001172A (zh) 2020-11-27

Family

ID=73471962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010876233.3A Pending CN112001172A (zh) 2020-08-25 2020-08-25 识别方法及装置

Country Status (1)

Country Link
CN (1) CN112001172A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818666A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址识别方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572955A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类确定poi名称的系统及方法
WO2016165538A1 (zh) * 2015-04-13 2016-10-20 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
WO2017121262A1 (zh) * 2016-01-11 2017-07-20 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
CN109101474A (zh) * 2017-06-20 2018-12-28 菜鸟智能物流控股有限公司 一种地址聚合的方法、包裹聚合的方法以及设备
CN110263117A (zh) * 2019-06-25 2019-09-20 深圳市腾讯计算机系统有限公司 一种用于确定兴趣点poi数据的方法与装置
CN110334349A (zh) * 2019-06-28 2019-10-15 腾讯科技(深圳)有限公司 商圈自动命名的方法、装置、计算机设备及存储介质
CN110874442A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 处理信息的方法、装置、设备和介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572955A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类确定poi名称的系统及方法
WO2016165538A1 (zh) * 2015-04-13 2016-10-20 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
WO2017121262A1 (zh) * 2016-01-11 2017-07-20 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
CN109101474A (zh) * 2017-06-20 2018-12-28 菜鸟智能物流控股有限公司 一种地址聚合的方法、包裹聚合的方法以及设备
CN110874442A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 处理信息的方法、装置、设备和介质
CN110263117A (zh) * 2019-06-25 2019-09-20 深圳市腾讯计算机系统有限公司 一种用于确定兴趣点poi数据的方法与装置
CN110334349A (zh) * 2019-06-28 2019-10-15 腾讯科技(深圳)有限公司 商圈自动命名的方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
向雯婷;郭旦怀;: "基于地名相似度算法与空间场景相似性评价的地址规范化研究", 科研信息化技术与应用, no. 01 *
王勇;刘纪平;郭庆胜;罗安;: "顾及位置关系的网络POI地址信息标准化处理方法", 测绘学报, no. 05 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818666A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址识别方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109074396B (zh) 推荐个性化内容的系统和方法
JP6991163B2 (ja) 情報をプッシュする方法及びデバイス
CN106296281B (zh) 一种用户个性化行程信息推送方法、装置以及系统
CN108182253B (zh) 用于生成信息的方法和装置
CN110929162A (zh) 基于兴趣点的推荐方法、装置、计算机设备和存储介质
CN108268573B (zh) 用于推送信息的方法和装置
CN107124476B (zh) 信息推送方法和装置
WO2019141109A1 (zh) 内容推荐方法及装置
US20180109909A1 (en) Geographic location mapping using network signal strength
CN105354226B (zh) 将Wi-Fi信号发射设备定位到地理信息点的方法和装置
CN111757464B (zh) 一种区域轮廓提取方法及装置
CN107633022A (zh) 人员画像分析方法、装置及存储介质
CN108550055A (zh) 基于地理位置的广告信息推送方法及系统
US20230049839A1 (en) Question Answering Method for Query Information, and Related Apparatus
CN112528639A (zh) 对象识别方法和装置、存储介质及电子设备
CN110781256B (zh) 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置
CN111274348B (zh) 服务特征数据提取方法、装置及电子设备
CN111460327A (zh) 兴趣地搜索方法及装置、存储介质、计算机设备
CN112001172A (zh) 识别方法及装置
CN114792111A (zh) 一种数据获取方法、装置、电子设备及存储介质
CN112711645B (zh) 一种位置点信息扩展方法、装置、存储介质和电子设备
CN104615620A (zh) 地图搜索类型识别方法及装置、地图搜索方法及系统
CN108153785A (zh) 生成展示信息的方法和装置
CN111046669A (zh) 一种兴趣点的匹配方法、装置及计算机系统
CN111369284B (zh) 目标对象类型确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination