CN110909110A - 地址的标准化方法、装置、存储介质及处理器 - Google Patents

地址的标准化方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN110909110A
CN110909110A CN201811083773.5A CN201811083773A CN110909110A CN 110909110 A CN110909110 A CN 110909110A CN 201811083773 A CN201811083773 A CN 201811083773A CN 110909110 A CN110909110 A CN 110909110A
Authority
CN
China
Prior art keywords
address
elements
indexed
address elements
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811083773.5A
Other languages
English (en)
Other versions
CN110909110B (zh
Inventor
谢朋峻
郑华飞
刘楚
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811083773.5A priority Critical patent/CN110909110B/zh
Priority to PCT/CN2019/105629 priority patent/WO2020057432A1/zh
Publication of CN110909110A publication Critical patent/CN110909110A/zh
Application granted granted Critical
Publication of CN110909110B publication Critical patent/CN110909110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Detection And Correction Of Errors (AREA)
  • Small-Scale Networks (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种地址的标准化方法、装置、存储介质及处理器。其中,该方法包括:获取多个地址数据;将多个地址数据中的每个地址数据划分为多个地址要素;从多个地址要素中确定待索引地址要素,并从多个地址数据中获取包含待索引地址要素的地址数据;对包含待索引地址要素的地址数据中除待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。本发明解决了无法对同一地址的不同写法进行统一的技术问题。

Description

地址的标准化方法、装置、存储介质及处理器
技术领域
本发明涉及计算机领域,具体而言,涉及一种地址的标准化方法、装置、存储介质及处理器。
背景技术
在很多行业中,需要使用不同来源的地址数据。但是地址的写法灵活多变,对同一个地址,往往存在成百上千种写法。比如“杭州阿里巴巴西溪园区”可以写成“杭州余杭文一西路969号”、“余杭区阿里巴巴西溪园区”、“杭州阿里巴巴淘宝城”等等。
不同写法的地址法,对依据地址进行业务的影响很大,例如公安希望统计每个地址的登记人口,由于地址写法不一样,就不能实现准确的统计。
要实现将不同写法的地址归一到同一个地址上,需要构建标准化的通讯地址库。
现有的标准通讯地址库的构建主要分为两种方式:
1.通过人工录入。就是通过人工录入的方式构建标准通讯地址库,例如公安部等进行的“一标三实”项目,也是通过民警上门登记,人工录入标注地址。
2.通过大数据自动生成。例如,通过对地址进行结构化,然后对每条地址缺失的部分进行尽可能的补齐,再将补齐后的地址合并到标注地址库中。
但是,通过人工录入的方式构建标注地址库,得到的标准地址库的准确率高,歧义少;但是缺点是成本巨大。全国数亿级别的POI(兴趣点),通过人工采集、核实,得到标注地址,耗时耗力。
另外,通过大数据自动生成标准通讯地址库,需要先对地址进行要素结构化,然后对缺失的要素部分依靠已有库进行补齐,再将补齐地址作为标注地址,汇集到标注地址库。但是这种方法存在以下限制:
a)补齐本身依赖一个已知的地址知识库,例如输入地址是“阿里巴巴西溪园区”,需要生成的结果是“浙江省杭州市区余杭区五常街道文一西路969号阿里巴巴西溪园区”;要实现上述结果,补齐过程所依赖的地址知识库就无法获取。
b)直接对地址进行补齐的结果,纳入标准地址库。会引入大量的歧义问题,因为输入的地址来源多样,会混入大量错误地址,对错误地址补齐后得到的标注地址,必然引来很大问题。比如“文一西路969号阿里巴巴西溪园区”和“文一西路111号阿里巴巴西溪园区”,通过大数据自动生成的方式就会生成2条标注地址,但是存在歧义。
针对上述无法对同一地址的不同写法进行统一的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种地址的标准化方法、装置、存储介质及处理器,以至少解决无法对同一地址的不同写法进行统一的技术问题。
根据本发明实施例的一个方面,提供了一种地址的标准化方法,包括:获取多个地址数据;将所述多个地址数据中的每个地址数据划分为多个地址要素;从所述多个地址要素中确定待索引地址要素,并从所述多个地址数据中获取包含所述待索引地址要素的地址数据;对所述包含所述待索引地址要素的地址数据中除所述待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。
根据本发明实施例的另一方面,还提供了一种标准化地址的获取装置,包括:获取单元,用于获取多个地址数据;划分单元,用于将所述多个地址数据中的每个地址数据划分为多个地址要素;确定单元,用于从所述多个地址要素中确定待索引地址要素,并从所述多个地址数据中获取包含所述待索引地址要素的包含所述待索引地址要素的地址数据;评估单元,用于对所述包含所述待索引地址要素的地址数据中除所述待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。
在本发明实施例中,可以获取多个地址数据,并将该多个地址数据中的每个地址数据划分为多个地址要素,可以从多个地址要素中确定待索引地址要素,并根据待索引地址要素从多个地址数据的多份地址数据中获取包含待索引地址要素的地址数据,再将包含所述待索引地址要素的地址数据中除待索引地址要素之外的其他地址要素进行可信度评估,得到评估结果,然后根据评估结果生成待使用的标准化地址,从而可以根据待索引地址要素对多个地址数据中的多份地址数据进行整合,得到待使用的标准化地址,实现了对同一地址的不同写法进行统一的技术效果,进而解决了无法对同一地址的不同写法进行统一的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现标准化地址的获取方法的计算机终端的硬件结构框图;
图2是根据本发明实施例1的一种标准化地址的获取方法的流程图;
图3是根据本发明实施例1的一种标准化地址的获取方法的流程图;
图4是根据本发明实施例1的一种标准化地址的获取方法的流程图;
图5是根据本发明实施例1的一种标准化地址的获取方法的流程图;
图6是根据本发明实施例1的一种基于多来源地址投票机制的标准化地址库自动生成装置的示意图;
图7是根据本发明实施例2的一种标准化地址的获取装置的流程图;
图8是根据本发明实施例2的一种标准化地址的获取装置的流程图;
图9是根据本发明实施例2的一种标准化地址的获取装置的流程图;
图10是根据本发明实施例2的一种标准化地址的获取装置的流程图;
图11是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
标准化地址:比如“杭州文一西路969号阿里巴巴”、“浙江余杭区新湖果岭”等文本地址。
地址要素:构成标准化地址的各个粒度的要素,例如“杭州文一西路969号阿里巴巴”;“杭州”表示城市、“文一西路”表示道路、“969号”表示路号、“阿里巴巴”表示POI(Pointof Interest,兴趣点)。
标准化地址库:对某个地点地址的标准化描述,通常要求包含所有的基本地址要素。比如“浙江省杭州市余杭区五常街道文一西路969号阿里巴巴西溪园区”,包含了“省、市、区、街道、路、路号、兴趣点(POI)”。
地址补齐:比如“余杭区阿里巴巴”,在知识库中,“余杭区”属于“浙江杭杭州市”,可以把“省”和“市”进行补齐,补齐结果为“浙江省杭州市余杭区阿里巴巴”。
实施例1
根据本发明实施例,还提供了一种地址的标准化方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现地址的标准化方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104。除此以外,还可以包括:以及用于通信功能的传输装置106、显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的地址的标准化方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的地址的标准化方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的一种地址的标准化方法。图2是根据本发明实施例1的一种地址的标准化方法的流程图,如图2所示的方法可以包括如下步骤:
步骤S202,获取多个地址数据。
在上述步骤S202中,多个地址数据中包括多份地址数据,其中,多份地址数据即为同一地址的不同写法。
步骤S204,将多个地址数据中的每个地址数据划分为多个地址要素。
在上述步骤S204中,多个地址数据中的每个地址数据中可以包括多个地址要素,例如,在地址数据为“杭州市文一西路969号阿里巴巴西溪园区”中的地址要素包括“杭州市”、“文一西路”、“969号”和“阿里巴巴西溪园区”,则可以根据将每个地址数据划分为多个地址要素。
作为一种可选的实施例,如图3所示,上述步骤S204中,将多个地址数据中的每个地址数据划分为多个地址要素包括:
步骤S2042,按照预设标准化地址结构统一将多个地址数据中的每个地址数据划分为多个地址要素;
步骤S2044,根据每个地址要素位于预设标准化地址结构的层级添加对应的标识。
本发明上述实施例,可以将多个地址中的每个地址数据,按照预设标准化地址结构划分为多个地址要素,并根据预设标准化地址结构的层级为每个地址要素添加对应的标识,从而实现对多个地址数据进行多个地址要素的划分,以及为划分后的地址要素添加标识。
作为一种可选的示例,地址数据为“杭州市文一西路969号阿里巴巴西溪园区”,则地址要素包括“杭州市”、“文一西路”、“969号”和“阿里巴巴西溪园区”,其中,“杭州市”的层级高于“文一西路”的层级,“文一西路”的层级高于“969号”的层级,“969号”的层级高于“阿里巴巴西溪园区”的层级。
可选地,每个地址要素对应的标识可以表示该地址要素位于预设标准化地址结构的层级位置。
例如,根据预设标准化地址结构表示的地址数据可以为:“浙江省杭州市余杭区文一西路969号阿里巴巴西溪园区”,其中,“浙江省”为第一层级,“杭州市”为第二层级,“余杭区”为第三层级,“文一西路”为第四层级,“969号”为第五层级,“阿里巴巴西溪园区”为第六层级;则在地址数据为“杭州市文一西路969号阿里巴巴西溪园区”的情况下,划分的地址要素包括“杭州市”、“文一西路”、“969号”和“阿里巴巴西溪园区”,则每个地址要素对应的标识所表示的层级为:“杭州市”表示第二层级,“文一西路”表示第四层级、“969号”表示第五层级,“阿里巴巴西溪园区”表示第六层级。
步骤S206,从多个地址要素中确定待索引地址要素,并从多个地址数据中获取包含待索引地址要素的地址数据。
在上述步骤S206中,可以在地址数据划分的多个地址要素中确定待索引地址要素,然后再根据待索引地址从多个地址数据中查询包含待索引地址要素的地址数据。
作为一种可选的示例,多个地址数据中包括:“杭州市文一西路969号阿里巴巴西溪园区”、“五常街道文一西路阿里巴巴西溪园区”、以及“浙江省余杭区文一西路969号阿里巴巴西溪园区”等地址数据,则在确定待索引地址要素为“阿里巴巴西溪园区”的情况下,从多个地址数据中查询到的包含待索引地址要素的地址数据即为上述地址数据。
作为一种可选的实施例,如图4所示,上述步骤S206中,从多个地址要素中确定待索引地址要素,并从多个地址数据中获取包含待索引地址要素的地址数据包括:
步骤S2062,从多个地址要素中随机选取待索引地址要素;
步骤S2064,为待索引地址要素构建索引,并通过索引从多个地址数据中查找包含待索引地址要素的地址数据。
本发明上述实施例,在地址数据划分为多个地址要素后,可以在划分的多个地址要素中随机选取其中的一个地址要素作为待索引地址要素,然后根据待索引地址要素构建索引,可以从多个地址数据中查找包含待索引地址要素的地址数据。
步骤S208,对包含待索引地址要素的地址数据中除待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。
在上述步骤S208中,在确定包含待索引地址要素的地址数据后,可以对包含待索引地址要素的地址数据中除待索引地址要素之外的其他地址要素进行可信度评估,然后根据评估结果确定待索引要素对应的待使用的通信地址。
可选地,可以采用投票机制完成可信度评分。
作为一种可选的实施例,如图5所示,上述步骤S208中,对包含待索引地址要素的地址数据中除待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址包括:
步骤S2082,对其余地址要素中位于预设标准化地址结构的同一层级的多个备选地址要素进行可信度评分,并根据可信度评分结果从多个备选地址要素中确定待使用的地址要素;
步骤S2084,将确定出的各个待使用的地址要素进行合并,生成待使用的标准化地址。
本发明上述实施例,可以在包含待索引地址要素的地址数据中,对除待索引地址要素以外的其余地址要素,按照预设标准化地址结构的同一层级的多个备选地址要素进行可信度评分,并根据可信度评分结果确定待使用的地址要素,然后将确定出的多个层级的待使用的地址要素进行合并,即可生成待使用的标准化地址。
可选地,步骤S2082中,多份地址数据中,除待索引地址要素以外的其余地址要素中,位于同一预设标准化地址结构的同一层级的地址要素即为备选地址要素。
可选地,备选地址要素的可信度评分,可以根据多个地址数据中,相同的备选地址要素的数量确定。
例如,备选地址要素包括“杭州市”、“临安市”和“绍兴市”,则多个地址数据中,包括“杭州市”的地址数据存在2900份,则备选地址要素“杭州市”的可信度评分可以为2900分;同样,备选地址要素“临安市”的地址数据存在180份,则备选地址要素“临安市”的可信度评分可以为180分;备选地址要素“绍兴市”的地址数据存在31份,则备选地址要素“绍兴市”的可信度评分可以为31分。
作为一种可选的示例,地址要素“浙江省”和“山东省”位于同一层级;地址要素“杭州市”、“临安市”和“绍兴市”位于同一层级,其中,“浙江省”的可信度评分为1000,“山东省”的可信度评分为“2”;“杭州市”的可信度评分为“2900”、“临安市”的可信度评分为“180”、“绍兴市”的可信度评分为“31”,则确定不同层级的待使用的地址要素分别为“浙江省”和“杭州市”,则根据待使用的地址要素合并的待使用的标准化地址包括“浙江省杭州市”。
作为一种可选的实施例,上述步骤S2082中,根据可信度评分结果从多个备选地址要素中确定待使用的地址要素包括:将多个备选地址要素中可信度评分最高的备选地址要素确定为待使用的地址要素。
本发明上述实施例,可以将可信度评分最高的备选地址要素确定为待使用的地址要素,可以使确定的待使用的标准化地址更加可靠。
作为一种可选的实施例,上述步骤S2082中,根据可信度评分结果从多个备选地址要素中确定待使用的地址要素包括:将多个备选地址要素中选取可信度评分超过预设阈值的备选地址要素确定为待使用的地址要素,并且当超过预设阈值的备选地址要素的数量多于一个时,则将超过预设阈值的备选地址要素中可信度评分最高的备选地址要素确定为待使用的地址要素,其中,预设阈值是预估的经验值或者通过模型训练得到的参考值。
本发明上述实施例,在确定待使用的地址要素的过程中,可以选取可信度评分高于预设阈值的备选地址要素,再从高于预设阈值的备选地址要素中,选取可信度评分最高的备选地址要素为待使用的地址要素,从而可以确保选取的待使用的地址要素的可信度评分可以高于预设阈值,使确定待使用的地址要素更加可靠。
在本发明实施例中,可以获取多个地址数据,并将该多个地址数据中的每个地址数据划分为多个地址要素,可以从多个地址要素中确定待索引地址要素,并根据待索引地址要素从多个地址数据的多份地址数据中获取包含待索引地址要素的地址数据,再将包含待索引地址要素的地址数据中除待索引地址要素之外的其他地址要素进行可信度评估,得到评估结果,然后根据评估结果生成待使用的标准化地址,从而可以根据待索引地址要素对多个地址数据中的多份地址数据进行整合,得到待使用的标准化地址,实现了对同一地址的不同写法进行统一的技术效果,进而解决了无法对同一地址的不同写法进行统一的技术问题。
可选地,本发明上述地址的标准化方法可以用于导航地图中的地址标注,还可以用于公安领域的地址标注。
本发明还提供了一种优选实施例,该优选实施例提供了一种基于多来源地址投票机制的标准化地址库自动生成的方法和装置。
本发明提供的技术方案,可以基于多种来源的多个地址数据,结合统计投票的策略,自动生成标注化地址库,这种方式既省去了人工录入的巨大成本,又避免了地址库引入的歧义问题。
图6是根据本发明实施例1的一种基于多来源地址投票机制的标准化地址库自动生成装置的示意图,如图6所示,包括:获取模块、地址结构化模块、地址索引和投票模块、标准地址生成模块和标准地址库。
可选地,获取模块,用于获取多个地址数据,其中,多个地址数据包括:地址数据A、地址数据B、以及地址数据C等。
可选地,地址结构化模块,用于对不同来源的地址进行统一的地址切分、打标,获取输入地址的不同要素。例如“阿里巴巴西溪园区”的不同地址处理结果,如表1所示:
表1
Figure BDA0001802593840000091
Figure BDA0001802593840000101
如表1所示,当输入的地址数据为“五常街道文一西路阿里巴巴西溪园区”的情况下,可以根据地址结构化模块将输入的地址数据划分为“五常街道”、“文一西路”、和“阿里巴巴西溪园区”多个地址要素,并确定“五常街道”的标识为“Town(镇)”;确定“文一西路”的标识为“Road(路)”;确定“阿里巴巴西溪园区”的标识为“POI(兴趣点)”,实现为不同层级的地址要素添加不同的标识。
如表1所示,当输入的地址数据为“杭州市文一西路969号阿里巴巴西溪园区”的情况下,可以根据地址结构化模块将输入的地址数据划分为“杭州市”、“文一西路”、“969号”和“阿里巴巴西溪园区”多个地址要素,并确定“杭州市”的标识为“City(城市)”;确定“文一西路”的标识为“Road(路)”;确定“969号”的标识为“RoadNo(路号)”;确定“阿里巴巴西溪园区”的标识为“POI(兴趣点)”实现为不同层级的地址要素添加不同的标识。
如表1所示,当输入的地址数据为“杭州市阿里巴巴西溪园区”的情况下,可以根据地址结构化模块将输入的地址数据划分为“杭州市”和“阿里巴巴西溪园区”多个地址要素,并确定“杭州市”的标识为“City(城市)”;确定“阿里巴巴西溪园区”的标识为“POI(兴趣点)”,实现为不同层级的地址要素添加不同的标识。
如表1所示,当输入的地址数据为“杭州市文一西路988号阿里巴巴西溪园区”的情况下,可以根据地址结构化模块将输入的地址数据划分为“杭州市”、“文一西路”、“988号”和“阿里巴巴西溪园区”多个地址要素,并确定“杭州市”的标识为“City(城市)”;确定“文一西路”的标识为“Road(路)”;确定“988号”的标识为“RoadNo(路号)”;确定“阿里巴巴西溪园区”的标识为“POI(兴趣点)”,实现为不同层级的地址要素添加不同的标识。
如表1所示,当输入的地址数据为“浙江省余杭区文一西路969号阿里巴巴西溪园区”的情况下,可以根据地址结构化模块将输入的地址数据划分为“浙江省”、“余杭区”、“文一西路”、“969号”和“阿里巴巴西溪园区”多个地址要素,并确定“浙江省”的标识为“Province(省)”;确定“余杭区”的标识为“District(地区)”;确定“文一西路”的标识为“Road(路)”;确定“969号”的标识为“RoadNo(路号)”;确定“阿里巴巴西溪园区”的标识为“POI(兴趣点)”,实现为不同层级的地址要素添加不同的标识。
可选地,地址索引和投票模块,用于对不同的地址要素,可以构建索引,获取包含该地址要素的地址数据,并对索引到的地址数据中的多个地址要素进行投票统计,获取票数最多的值作为标准值,票数最多的地址要素为标准地址要素(即待使用的地址要素),进而可以根据标准地址要素生成标准地址数据(即待使用的标准化地址)。
例如,地址要素为POI(兴趣点)=“阿里巴巴西溪园区”为例,得到的索引和统计投票结果如表2所示:
表2
Figure BDA0001802593840000111
如表2所示,以地址要素为“阿里巴巴西溪园区”进行索引,可以的至少一条包含该地址要素的地址数据,例如,索引到的地址数据可以为“杭州市文一西路969号阿里巴巴西溪园区”。
可选地,在如表2所示,以地址要素为“阿里巴巴西溪园区”进行索引,得出的地址数据中,除“阿里巴巴西溪园区”以外的其他地址要素包括:“浙江省”、“山东省”、“杭州市”、“临安市”、“绍兴市”、“五常街道”、“仓前街道”、“闲林街道”、“文一西路969号”和“文一西路911号”。
可选地,如表2所示,可以对同一层级的其他地址要素进行投票,在“浙江省”为1000票,“山东省”为2票的情况下,标准地址要素为“浙江省”;在“杭州市”为2900票,“临安市”为180票,“绍兴市”为31票的情况下,标准地址要素为“杭州市”;在“五常街道”为1000票,“仓前街道”为82票,“闲林街道”为10票的情况下,标准地址要素为“五常街道”;在“文一西路969号”为1800票,“文一西路911号”为100票的情况下,标准地址要素为“文一西路969号”。
可选地,标准地址生成模块,可以对上述确定的标准地址要素进行合并,就能生成无歧义的标准地址数据。例如,根据上述确定的标准地址要素,可以确定标准地址数据为“浙江省杭州市余杭区文一西路969号阿里巴巴西溪园区”。
可选地,在通过标准地址生成模块确定标准地址数据后,可以将确定的标准地址数据存入标准地址库中。
本发明上述实施例,可以基于多种来源的多个地址数据,结合统计投票的策略,自动生成标注地址库,这种方式既省去了人工录入的巨大成本,又避免了引入的歧义问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述地址的标准化方法的地址的标准化装置,如图7所示,该装置包括:获取单元71、划分单元73、确定单元75和评估单元77。
其中,获取单元71,用于获取多个地址数据;划分单元73,用于将多个地址数据中的每个地址数据划分为多个地址要素;确定单元75,用于从多个地址要素中确定待索引地址要素,并从多个地址数据中获取包含待索引地址要素的地址数据;评估单元77,用于对包含待索引地址要素的地址数据中除待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。
此处需要说明的是,上述获取单元71值评估单元77对应于实施例1中的步骤S202至步骤S208,上述各单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例1提供的计算机终端10中。
在本发明实施例中,可以获取多个地址数据,并将该多个地址数据中的每个地址数据划分为多个地址要素,可以从多个地址要素中确定待索引地址要素,并根据待索引地址要素从多个地址数据的多份地址数据中获取包含待索引地址要素的地址数据,再将包含待索引地址要素的地址数据中除待索引地址要素之外的其他地址要素进行可信度评估,得到评估结果,然后根据评估结果生成待使用的标准化地址,从而可以根据待索引地址要素对多个地址数据中的多份地址数据进行整合,得到待使用的标准化地址,实现了对同一地址的不同写法进行统一的技术效果,进而解决了无法对同一地址的不同写法进行统一的技术问题。
可选地,可以采用投票机制完成可信度评分。
作为一种可选的实施例,如图8所示,划分单元73包括:划分模块731和添加模块735。
其中,划分模块731,用于按照预设标准化地址结构统一将多个地址数据中的每个地址数据划分为多个地址要素;添加模块735,用于根据每个地址要素位于预设标准化地址结构的层级添加对应的标识。
此处需要说明的是,上述划分模块731和添加模块735对应于实施例1中的步骤S2042至步骤S2044,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
作为一种可选的实施例,如图9所示,确定单元75包括:选取模块751和构建模块753。
其中,选取模块751,用于从多个地址要素中随机选取待索引地址要素;构建模块753,用于为待索引地址要素构建索引,并通过索引从多个地址数据中查找包含待索引地址要素的地址数据。
此处需要说明的是,上述选取模块751和构建模块753对应于实施例1中的步骤S2062至步骤S2064,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
作为一种可选的实施例,如图10所示,评估单元77包括:评分模块771,用于对其余地址要素中位于预设标准化地址结构的同一层级的多个备选地址要素进行可信度评分,并根据可信度评分结果从多个备选地址要素中确定待使用的地址要素;合并模块773,用于将确定出的各个待使用的地址要素进行合并,生成待使用的标准化地址。
其中,评分模块771,用于对其余地址要素中位于预设标准化地址结构的同一层级的多个备选地址要素进行可信度评分,并根据可信度评分结果从多个备选地址要素中确定待使用的地址要素;合并模块773,用于将确定出的各个待使用的地址要素进行合并,生成待使用的标准化地址。
此处需要说明的是,上述评分模块771和合并模块773对应于实施例1中的步骤S2082至步骤S2084,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
作为一种可选的实施例,评分模块包括:第一确定模块,用于将多个备选地址要素中可信度评分最高的备选地址要素确定为待使用的地址要素。
作为一种可选的实施例,评分模块包括:第二确定模块,用于将多个备选地址要素中选取可信度评分超过预设阈值的备选地址要素确定为待使用的地址要素,并且当超过预设阈值的备选地址要素的数量多于一个时,则将超过预设阈值的备选地址要素中可信度评分最高的备选地址要素确定为待使用的地址要素,其中,预设阈值是预估的经验值或者通过模型训练得到的参考值。
可选地,本发明上述地址的标准化方法可以用于导航地图中的地址标注,还可以用于公安领域的地址标注。
实施例3
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的地址的标准化方法中以下步骤的程序代码:获取多个地址数据;将多个地址数据中的每个地址数据划分为多个地址要素;从多个地址要素中确定待索引地址要素,并从多个地址数据中获取包含待索引地址要素的地址数据;对包含待索引地址要素的地址数据中除待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。
可选地,图11是根据本发明实施例的一种计算机终端的结构框图。如图11所示,该计算机终端10可以包括:一个或多个(图中仅示出一个)处理器102、存储器104、以及通信装置106。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的地址的标准化方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的地址的标准化方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取多个地址数据;将多个地址数据中的每个地址数据划分为多个地址要素;从多个地址要素中确定待索引地址要素,并从多个地址数据中获取包含待索引地址要素的地址数据;对包含待索引地址要素的地址数据中除待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。
可选的,上述处理器还可以执行如下步骤的程序代码:按照预设标准化地址结构统一将多个地址数据中的每个地址数据划分为多个地址要素;根据每个地址要素位于预设标准化地址结构的层级添加对应的标识。
可选的,上述处理器还可以执行如下步骤的程序代码:从多个地址要素中随机选取待索引地址要素;为待索引地址要素构建索引,并通过索引从多个地址数据中查找包含待索引地址要素的地址数据。
可选的,上述处理器还可以执行如下步骤的程序代码:对其余地址要素中位于预设标准化地址结构的同一层级的多个备选地址要素进行可信度评分,并根据可信度评分结果从多个备选地址要素中确定待使用的地址要素;将确定出的各个待使用的地址要素进行合并,生成待使用的标准化地址。
可选的,上述处理器还可以执行如下步骤的程序代码:将多个备选地址要素中可信度评分最高的备选地址要素确定为待使用的地址要素。
可选的,上述处理器还可以执行如下步骤的程序代码:将多个备选地址要素中选取可信度评分超过预设阈值的备选地址要素确定为待使用的地址要素,并且当超过预设阈值的备选地址要素的数量多于一个时,则将超过预设阈值的备选地址要素中可信度评分最高的备选地址要素确定为待使用的地址要素,其中,预设阈值是预估的经验值或者通过模型训练得到的参考值。
采用本发明实施例,提供了一种标准化地址的获取的方案。可以获取多个地址数据,并将该多个地址数据中的每个地址数据划分为多个地址要素,可以从多个地址要素中确定待索引地址要素,并根据待索引地址要素从多个地址数据的多份地址数据中获取包含待索引地址要素的地址数据,再将包含待索引地址要素的地址数据中除待索引地址要素之外的其他地址要素进行可信度评估,得到评估结果,然后根据评估结果生成待使用的标准化地址,从而可以根据待索引地址要素对多个地址数据中的多份地址数据进行整合,得到待使用的标准化地址,实现了对同一地址的不同写法进行统一的技术效果,进而解决了无法对同一地址的不同写法进行统一的技术问题。
本领域普通技术人员可以理解,图11所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图11所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例1所提供的地址的标准化方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取多个地址数据;将多个地址数据中的每个地址数据划分为多个地址要素;从多个地址要素中确定待索引地址要素,并从多个地址数据中获取包含待索引地址要素的地址数据;对包含待索引地址要素的地址数据中除待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:按照预设标准化地址结构统一将多个地址数据中的每个地址数据划分为多个地址要素;根据每个地址要素位于预设标准化地址结构的层级添加对应的标识。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从多个地址要素中随机选取待索引地址要素;为待索引地址要素构建索引,并通过索引从多个地址数据中查找包含待索引地址要素的地址数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对其余地址要素中位于预设标准化地址结构的同一层级的多个备选地址要素进行可信度评分,并根据可信度评分结果从多个备选地址要素中确定待使用的地址要素;将确定出的各个待使用的地址要素进行合并,生成待使用的标准化地址。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将多个备选地址要素中可信度评分最高的备选地址要素确定为待使用的地址要素。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将多个备选地址要素中选取可信度评分超过预设阈值的备选地址要素确定为待使用的地址要素,并且当超过预设阈值的备选地址要素的数量多于一个时,则将超过预设阈值的备选地址要素中可信度评分最高的备选地址要素确定为待使用的地址要素,其中,预设阈值是预估的经验值或者通过模型训练得到的参考值。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种地址的标准化方法,其特征在于,包括:
获取多个地址数据;
将所述多个地址数据中的每个地址数据划分为多个地址要素;
从所述多个地址要素中确定待索引地址要素,并从所述多个地址数据中获取包含所述待索引地址要素的地址数据;
对所述包含所述待索引地址要素的地址数据中除所述待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。
2.根据权利要求1所述的方法,其特征在于,将所述多个地址数据中的每个地址数据划分为多个地址要素包括:
按照预设标准化地址结构统一将所述多个地址数据中的每个地址数据划分为所述多个地址要素;
根据每个地址要素位于所述预设标准化地址结构的层级添加对应的标识。
3.根据权利要求1所述的方法,其特征在于,从所述多个地址要素中确定所述待索引地址要素,并从所述多个地址数据中获取所述包含所述待索引地址要素的地址数据包括:
从所述多个地址要素中随机选取所述待索引地址要素;
为所述待索引地址要素构建索引,并通过所述索引从所述多个地址数据中查找所述包含所述待索引地址要素的地址数据。
4.根据权利要求2所述的方法,其特征在于,对所述包含所述待索引地址要素的地址数据中除所述待索引地址要素之外的其余地址要素进行可信度评估,并根据所述评估结果生成所述待使用的标准化地址包括:
对所述其余地址要素中位于所述预设标准化地址结构的同一层级的多个备选地址要素进行可信度评分,并根据可信度评分结果从所述多个备选地址要素中确定待使用的地址要素;
将确定出的各个待使用的地址要素进行合并,生成所述待使用的标准化地址。
5.根据权利要求4所述的方法,其特征在于,根据所述可信度评分结果从所述多个备选地址要素中确定所述待使用的地址要素包括:
将所述多个备选地址要素中可信度评分最高的备选地址要素确定为所述待使用的地址要素。
6.根据权利要求4所述的方法,其特征在于,根据所述可信度评分结果从所述多个备选地址要素中确定所述待使用的地址要素包括:
将所述多个备选地址要素中选取可信度评分超过预设阈值的备选地址要素确定为所述待使用的地址要素,并且当超过所述预设阈值的备选地址要素的数量多于一个时,则将超过所述预设阈值的备选地址要素中可信度评分最高的备选地址要素确定为所述待使用的地址要素,其中,所述预设阈值是预估的经验值或者通过模型训练得到的参考值。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法用于导航地图中的地址标注。
8.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法用于公安领域的地址标注。
9.根据权利要求4-6中任一项所述的方法,其特征在于,采用投票机制完成所述可信度评分。
10.一种地址的标准化装置,其特征在于,包括:
获取单元,用于获取多个地址数据;
划分单元,用于将所述多个地址数据中的每个地址数据划分为多个地址要素;
确定单元,用于从所述多个地址要素中确定待索引地址要素,并从所述多个地址数据中获取包含所述待索引地址要素的地址数据;
评估单元,用于对所述包含所述待索引地址要素的地址数据中除所述待索引地址要素之外的其余地址要素进行可信度评估,并根据评估结果生成待使用的标准化地址。
11.根据权利要求10所述的装置,其特征在于,所述划分单元包括:
划分模块,用于按照预设标准化地址结构统一将所述多个地址数据中的每个地址数据划分为所述多个地址要素;
添加模块,用于根据每个地址要素位于所述预设标准化地址结构的层级添加对应的标识。
12.根据权利要求10所述的装置,其特征在于,所述确定单元包括:
选取模块,用于从所述多个地址要素中随机选取所述待索引地址要素;
构建模块,用于为所述待索引地址要素构建索引,并通过所述索引从所述多个地址数据中查找所述包含所述待索引地址要素的地址数据。
13.根据权利要求11所述的装置,其特征在于,所述评估单元包括:
评分模块,用于对所述其余地址要素中位于所述预设标准化地址结构的同一层级的多个备选地址要素进行可信度评分,并根据可信度评分结果从所述多个备选地址要素中确定待使用的地址要素;
合并模块,用于将确定出的各个待使用的地址要素进行合并,生成所述待使用的标准化地址。
14.根据权利要求13所述的装置,其特征在于,所述评分模块包括:
第一确定模块,用于将所述多个备选地址要素中可信度评分最高的备选地址要素确定为所述待使用的地址要素。
15.根据权利要求13所述的装置,其特征在于,所述评分模块包括:
第二确定模块,用于将所述多个备选地址要素中选取可信度评分超过预设阈值的备选地址要素确定为所述待使用的地址要素,并且当超过所述预设阈值的备选地址要素的数量多于一个时,则将超过所述预设阈值的备选地址要素中可信度评分最高的备选地址要素确定为所述待使用的地址要素,其中,所述预设阈值是预估的经验值或者通过模型训练得到的参考值。
CN201811083773.5A 2018-09-17 2018-09-17 地址的标准化方法、装置、存储介质及处理器 Active CN110909110B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811083773.5A CN110909110B (zh) 2018-09-17 2018-09-17 地址的标准化方法、装置、存储介质及处理器
PCT/CN2019/105629 WO2020057432A1 (zh) 2018-09-17 2019-09-12 地址的标准化方法、装置、存储介质及计算机终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811083773.5A CN110909110B (zh) 2018-09-17 2018-09-17 地址的标准化方法、装置、存储介质及处理器

Publications (2)

Publication Number Publication Date
CN110909110A true CN110909110A (zh) 2020-03-24
CN110909110B CN110909110B (zh) 2023-05-30

Family

ID=69812671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811083773.5A Active CN110909110B (zh) 2018-09-17 2018-09-17 地址的标准化方法、装置、存储介质及处理器

Country Status (2)

Country Link
CN (1) CN110909110B (zh)
WO (1) WO2020057432A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015829A (zh) * 2020-08-28 2020-12-01 北京星天地信息科技有限公司 一种一标三实数据的管理方法及系统
CN113901792A (zh) * 2021-10-12 2022-01-07 广州汇智通信技术有限公司 一种快递地址标准化方法、系统和计算机程序
CN117312182A (zh) * 2023-11-29 2023-12-29 中国人民解放军国防科技大学 基于便签式存储的向量数据分散方法、装置及计算机设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642313B (zh) * 2021-09-02 2024-03-29 阿里巴巴达摩院(杭州)科技有限公司 地址文本的处理方法、装置、设备、存储介质及程序产品

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314099B1 (en) * 1997-11-28 2001-11-06 Mitsubishi Electric System Lsi Design Corporation Address match determining device, communication control system, and address match determining method
EP1197885A2 (en) * 2000-10-12 2002-04-17 QAS Limited Method of and apparatus for retrieving data representing a postal address from a database of postal addresses
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
KR101132150B1 (ko) * 2010-10-12 2012-07-11 (주)수지원넷소프트 주소 정형화를 위한 주소 처리방법 및 장치, 그리고 이를 위한 기록매체
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
TWM529889U (zh) * 2015-12-21 2016-10-01 郭巧玲 地址定位標準化轉換處理裝置
CN106055650A (zh) * 2016-05-31 2016-10-26 深圳市永兴元科技有限公司 地址标准化方法和装置
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机
CN108460046A (zh) * 2017-02-21 2018-08-28 菜鸟智能物流控股有限公司 一种地址聚合的方法以及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7870078B2 (en) * 2002-11-01 2011-01-11 Id Insight Incorporated System, method and computer program product for assessing risk of identity theft
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统
CN105760360B (zh) * 2014-12-16 2018-09-11 高德软件有限公司 一种地址纠正方法和装置
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314099B1 (en) * 1997-11-28 2001-11-06 Mitsubishi Electric System Lsi Design Corporation Address match determining device, communication control system, and address match determining method
EP1197885A2 (en) * 2000-10-12 2002-04-17 QAS Limited Method of and apparatus for retrieving data representing a postal address from a database of postal addresses
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
KR101132150B1 (ko) * 2010-10-12 2012-07-11 (주)수지원넷소프트 주소 정형화를 위한 주소 처리방법 및 장치, 그리고 이를 위한 기록매체
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
TWM529889U (zh) * 2015-12-21 2016-10-01 郭巧玲 地址定位標準化轉換處理裝置
CN106055650A (zh) * 2016-05-31 2016-10-26 深圳市永兴元科技有限公司 地址标准化方法和装置
CN108460046A (zh) * 2017-02-21 2018-08-28 菜鸟智能物流控股有限公司 一种地址聚合的方法以及设备
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JEANNE A. YEGGE R等: "Development of a standardized process improvement protocol to address elevated health care-associated infection rates on an incented quality scorecard" *
宋子辉;: "自然语言理解的中文地址匹配算法" *
王勇;刘纪平;郭庆胜;罗安;: "顾及位置关系的网络POI地址信息标准化处理方法" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015829A (zh) * 2020-08-28 2020-12-01 北京星天地信息科技有限公司 一种一标三实数据的管理方法及系统
CN113901792A (zh) * 2021-10-12 2022-01-07 广州汇智通信技术有限公司 一种快递地址标准化方法、系统和计算机程序
CN117312182A (zh) * 2023-11-29 2023-12-29 中国人民解放军国防科技大学 基于便签式存储的向量数据分散方法、装置及计算机设备
CN117312182B (zh) * 2023-11-29 2024-02-20 中国人民解放军国防科技大学 基于便签式存储的向量数据分散方法、装置及计算机设备

Also Published As

Publication number Publication date
WO2020057432A1 (zh) 2020-03-26
CN110909110B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN107656913B (zh) 地图兴趣点地址提取方法、装置、服务器和存储介质
CN110909110A (zh) 地址的标准化方法、装置、存储介质及处理器
CN112632213A (zh) 地址信息标准化方法及装置、电子设备、存储介质
CN108228657B (zh) 一种关键字检索的实现方法及装置
CN110705226A (zh) 电子表格的创建方法、装置及计算机设备
CN111522901A (zh) 文本中地址信息的处理方法及装置
CN111159329A (zh) 敏感词检测方法、装置、终端设备和计算机可读存储介质
CN110688434B (zh) 一种兴趣点处理方法、装置、设备和介质
CN113360789A (zh) 兴趣点数据处理方法、装置、电子设备及存储介质
CN114548059A (zh) 一种结构化数据的管理方法、装置、存储介质及电子设备
CN111930897A (zh) 专利检索方法、装置、电子设备及计算机可读存储介质
CN112069824B (zh) 基于上下文概率和引证的地域识别方法、装置及介质
CN113434542A (zh) 数据关系识别方法、装置、电子设备及存储介质
CN110688995B (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
CN112507249A (zh) 兴趣点生成的方法、装置、电子设备及存储介质
CN115052270B (zh) 业务指标确定方法、装置、电子设备及非易失性存储介质
CN116228374A (zh) 物流行业市场单量数据预警方法、装置、设备及存储介质
CN116186337A (zh) 一种业务场景数据处理方法、系统及电子设备
US20220188292A1 (en) Data processing method, apparatus, electronic device and readable storage medium
CN112861532B (zh) 地址标准化处理方法、装置、设备及在线搜索系统
CN114357318A (zh) 多维轨迹数据显示方法、装置和电子设备
CN114463033A (zh) 一种数据筛查方法、装置、电子设备、存储介质
CN114385776A (zh) 信息定位方法、存储介质及装置
CN107967300B (zh) 机构名称的检索方法、装置、设备及存储介质
CN109299439B (zh) 数字提取方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant