CN107145577A - 地址标准化方法、装置、存储介质及计算机 - Google Patents
地址标准化方法、装置、存储介质及计算机 Download PDFInfo
- Publication number
- CN107145577A CN107145577A CN201710316908.7A CN201710316908A CN107145577A CN 107145577 A CN107145577 A CN 107145577A CN 201710316908 A CN201710316908 A CN 201710316908A CN 107145577 A CN107145577 A CN 107145577A
- Authority
- CN
- China
- Prior art keywords
- address
- level
- address information
- unit
- amendment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种地址标准化方法。包括:建立地址分层系统模型,并针对每个层级预置字典库;根据所述字典库确定每个层级的地址要素通名;接收第三方地址信息;按照所述通名,利用正则表达式对所述第三方地址信息初步划分层级;将正则表达式划分的结果与所述地址分层系统进行正则匹配;对匹配成功后不完整的地址信息进行补齐;将补齐后的地址信息作为标准地址保存在标准地址库;以及将标准化结果汇总输出。此外,本发明还涉及一种地址标准化装置、存储介质及计算机。
Description
技术领域
本发明涉及一种地址标准化方法。
背景技术
百分之八十的商业活动都离不开地址。准确的地址,不仅可帮助商业机构和政府机关减少邮件费用,甚至还可降低欺诈风险,促进社会和谐发展。对于商业机构来说,如何能在第一时间判断出错误地址,不完整地址,并提醒客户相关的正确地址,进而通过地理信息系统将这些地址空间化表达,实现各种信息在不同部门,不同行业之间的数据共享,这是提升竞争力和获益能力的关键。
目前商业社会和政府部门都存有大量与地址有关的地理位置信息,这些数据大多是非空间信息,无法通过地理信息系统来实现行业之间的数据共享。因此,城市地址信息空间化是数字城市建设的重要组成部分。
地理编码技术正是实现城市地址信息空间化的方法,它提供了一种将文本描述的地址信息转换为地理坐标的方式,通过编码技术和地址匹配来确定此地址数据在电子地图上对应的地理实体位置。通过地理编码技术,大量的社会经济数据将变成坐标化的空间信息,从而进行更快速有效的空间分析,为政府决策和商业决策提供支持。
国内的地理编码技术研究起步比较晚而且进展比较缓慢,从上世纪80年代才逐步开展了城市地址编码的研究工作。最早是北京市城市规划设计研究院1988年开始《北京市城市地理编码》的研究,并组织相关单位编制了《城市基础地理信息系统技术规范》提出了地名、门牌和楼牌的采集原则。之后还建设了北京市的地址编码数据库,研究了地址数据的采集工艺流程,建立了标准地址模型。随后,国内的其他城市如上海、大连、广州等,在建设城市地理信息系统的同时也开展了地理编码的研究。
国内一些公司和科研单位也在研究适合我国使用的地址编码技术和标准,并开发了一些应用软件,例如:
北京长地公司的“寻址神”;北大方正的“小红帽物流管理系统”;超图的“客户关系管理系统”;SuperMap Objects.NET/Java 6R中的地址匹配模块提供了中文地址模糊匹配搜索的功能。
图信时代研发的地理编码系统MapWorld Geocoding System,包括数据转换、数据清洗以及地址匹配三个子系统。建设了基础地理信息库,可以对不同的精度要求提供地址匹配服务,并将结果定位到地图上进行可视化展示与应用。Geocoding服务返回的结果可包括:地址的经纬度信息,国家行政区划代码,6位邮编号码,人口普查信息乡镇街道名等等。
山海易绘的地址编码系统提供了比较全面的地址信息编码和匹配方案,可以快速地将以自然语言描述的地址信息定位到地图上,使得以前传统的MIS数据和GIS数据可以互相融合利用。
MAPGIS-EMS是中地公司自主研发的面向嵌入式终端的GIS开发平台,全面应用构件技术、中间件技术,整合最新的GIS技术、嵌入式操作系统和网络通讯技术,实现了利用地址簿进行快速地址查询及实现了模糊地址匹配。
由于区域面积比较小,地址编码的工作量相应的就比较小。因此,香港特别行政区和台湾省的地址匹配精确度相对于大陆是比较高的。香港的匹配精度可达到街道门牌和建筑物,台湾省可以达到街道和主要景点。
不同行业或部门都有自己不同的需求,以不同的形式采集、处理和传播空间信息,因此采集的地址数据的格式和质量有很大区别,存在输入拼写错误或者表达模糊、地址残缺等情况。比如由于地址规范不统一,同一个地址可能有好几种不同写法。同样一个小区,开发商可能一个叫法,销售商另外一个,老百姓约定俗成又是一个。银行A可能记下来一个,保险公司B又是另外一个,水,电,煤,有线,电信,宽带等等各行其是。
前述由于地址规范不统一,导致的同一个地址可能有好几种不同写法的问题,除了对商业机构本身造成困扰,也会对机关间的合作造成极大不便,客户信息无法充分整合,资源极大浪费。归根到底,这是由于地址不规范,不完整,不准确的原因。
因此,在进行地理编码之前,需要将这些来源不同的混乱数据进行清洗和预处理,并按照确定的标准地址模型进行修改,使地址数据用一致的形式表现出来。
发明内容
为解决地址不规范不统一造成的前述问题,根据本发明的一个方面,提出一种地址标准化方法,又叫做地址规范化方法,其通过地址拆分、修改或去除错误地址、完善模糊地址等方法对地址数据进行处理,使其满足确定的地址模型的要求。具体技术方案包括:
建立地址分层系统模型,并针对每个层级预置字典库;
根据字典库确定每个层级的地址要素通名;
接收第三方地址信息;
按照通名,利用正则表达式对第三方地址信息初步划分层级;
将正则表达式划分的结果与地址分层系统进行正则匹配;
对匹配成功后不完整的地址信息进行补齐;
将补齐后的地址信息作为标准地址保存在标准地址库;以及
将标准化结果汇总输出。
进一步地,在正则匹配的步骤之后还包括:
分词匹配步骤,对接收的无法匹配或无法拆分的部分地址信息进行分词匹配处理;以及
地址信息修正的步骤,将分词后仍无法匹配的地址信息按照预置的修正标准与标准地址库进行对比修正,如果得到的修正结果唯一,则将地址信息替换为修正后的地址信息,并将修正后的地址信息保存在标准地址库中。
进一步地,修正标准包括通名修正、别名修正、旧名修正、同音修正和别字修正。
进一步地,地址分层系统为四级六层地址分层系统;四级分别为行政区级、路弄级、楼栋级和室级;六层分别为属于行政区级的区县、街道、居委,属于路弄级的路弄,属于楼栋级的楼号和属于室级的室号。
进一步地,分词匹配处理采用逆向最大匹配法。
根据本发明的另一个方面,提出一种地址标准化装置,包括:
地址分层系统模型建立单元,地址分层系统模型建立单元被配置为建立地址分层系统模型,并针对每个层级预置字典库;
通名确定单元,通名确定单元根据字典库确定每个层级的地址要素通名;
接收单元,接收单元接收第三方地址信息;
层级划分单元,层级划分单元按照通名,利用正则表达式对第三方地址信息初步划分层级;
正则匹配单元,正则匹配单元将正则表达式划分的结果与地址分层系统进行正则匹配;
补齐单元,补齐单元对匹配成功后不完整的地址信息进行补齐;
存储单元,存储单元将补齐后的地址信息作为标准地址保存在标准地址库中;以及
输出单元,输出单元将标准化结果汇总输出。
进一步地,还包括:
分词匹配单元,分词匹配单元对接收的无法匹配或无法拆分的部分地址进行分词匹配处理;以及
地址信息修正单元,地址信息修正单元将分词后仍无法匹配的地址信息按照预置的修正标准与标准地址库进行对比修正,如果得到的修正结果唯一,则将地址信息替换为修正后的地址信息,并将修正后的地址信息保存在标准地址库中。
根据本发明的另一个方面,提出一种非易失性存储介质,在存储介质上存储有地址标准化程序,地址标准化程序被计算机执行以实施前述的地址标准化方法。
根据本发明的另一个方面,提出一种计算机,包括:
存储器,存储器存储有计算机可以执行的地址标准化程序;以及
处理器,连接至存储器,并且被配置为执行地址标准化程序以实现前述的地址标准化方法。
本发明是地址匹配的重要组成部分,不论是标准地址编码数据库的建设,还是原始地址匹配,都要通过地址标准化这一过程才能完成。本发明能够有效解决前述地址规范不统一的问题,为商业机构铺桥垫路,打造智慧城市的基础。
附图说明
图1是根据本发明的一个实施例的四级六层地址分层系统示意图。
图2是根据本发明的一个实施例的地址标准化方法流程图。
图3是根据本发明的另一实施例的地址标准化方法流程图。
图4是根据本发明的一个实施例的正向最大匹配法的分词流程示意图。
图5是根据本发明的一个实施例的更细层次的分层模型示意图。
图6是根据本发明的一个实施例的地址标准化装置示意图。
具体实施方式
下面结合具体实施例和附图对本发明做进一步说明。
要进行地址的标准化,首先要确定一个当前适用的标准地址模型。地址模型的建立要结合中文地址的特点。中文地址通常有以下特点:
1.日常生活中所用的地址很多都不是传统的街道地址形式。例如地址字段上海市武东路财大科技园13F,对比正确的地址上海市杨浦区武东路财大科技园13F,缺少了必要的“区”以及道路信息,这加大了地址匹配的难度。
2.由于一些历史遗留问题,或者地方性的约定俗成的习惯,有些地名地址还是历史地址,没有重新规划命名,也造成了城市地名地址的偏僻、混乱或重复现象。
3.汉语字符串的组成较之英文多了一层,英文单词独立成词且有符号进行分割,而汉语词组是由字组成的,而且中文地址的表达没有空格或者逗号之类的符号。
下面首先引入一些地址组成的基本概念:
1.地址串:就是一般的地址,日常的通信门牌地址。例如:上海市杨浦区武东路198号。
2.地址要素:组成地址串的若干词组,如前述的地址就是由4个地址要素组成的,分别是“上海市”、“杨浦区”、“武东路”和“198号”,每个地址要素相对独立。
3.地址通名:顾名思义,就是地址要素中通用的那些字段。例如:地址要素“杨浦区”中“区”为地址通名,“武东路”中“路”为地址通名。地址要素都表示一个地理区域,按照这个区域的范围大小,可以把地址要素分类。同一类地址要素的字符串中都有相同的字段,这些字段就是地址通名。
4.地址专名:例如:“杨浦区”中“杨浦”为地址专名。地址要素中去掉地址通名后剩余的部分就称为地址专名。城市的地址模型是一种复杂的层次模型。为了准确地分析并描述地址模型,需要确定最小地址要素,最小地址要素是指不可再分的地址要素,具有最小的地址意义。
例如,汉中路就是一个最小地址要素,如果再将汉中路拆分为汉、中和路就没有意义了。
根据本发明的一个实施例,可以将地址要素分为3大类,分别是:行政区界、地址部分和子地址部分。
1.行政区界
行政区划部分:它包括以下几层:
国家:可以缺省;
省级:可缺省。通名:省、直辖市、自治区、特别行政区;
市级:不能为空。通名:市、盟、自治州等;
区县:可以为空。通名:区、(县级)市、县、旗等;
乡级:乡、镇、街道办等;
村级:社区、小区、村、庄、屯、里等。
2.地址部分:它是一条地址数据的核心组成部分,描述地址的具体内容。这部分不可以为空。它主要包括:道路和门牌号。
道路通名:路、街、道、大街、大道、胡同、巷、弄、条等。
门牌通名:号、#等。
3.子地址部分:它是一条地址数据中剩余的部分,描述地址的补充信息。该部分可以为空。它包括楼牌号、住宅小区、社区。
社区通名:社区、园等。
住宅小区通名:小区、公寓、苑、花园、街坊等。例:翠园小区。
楼牌号通名:门、栋、号楼、楼、馆、堂等。
根据本发明的一个实施例,结合国家和区域标准,提出四级六层的地址分层系统模型,如图1所示,并针对每个层级预置一个字典库。字典库包括该层级的通用信息,例如,以上海为例,图1中的区县层可以包括上海的16个辖区。此外,地址旧名也可以纳入字典库中,并与新名建立映射关系,例如,原来的上海南市区,其对应于现在的黄浦区。
需要注意的是,该四级六层的地址分层系统仅仅是分层模型的一个示范性实例,在其他实施例中,也可以采用其他层级划分方式。
根据本发明的一个实施例的地址标准化装置如图6所示,包括:地址分层系统模型建立单元,所述地址分层系统模型建立单元被配置为建立地址分层系统模型,并针对每个层级预置字典库;通名确定单元,所述通名确定单元根据所述字典库确定每个层级的地址要素通名;接收单元(图中未示出),所述接收单元接收第三方地址信息;层级划分单元,所述层级划分单元按照所述通名,利用正则表达式对所述第三方地址信息初步划分层级;正则匹配单元,所述正则匹配单元将正则表达式划分的结果与所述地址分层系统进行正则匹配;分词匹配单元,所述分词匹配单元对接收的无法匹配或无法拆分的部分地址进行分词匹配处理;地址信息修正单元,所述地址信息修正单元将所述分词后仍无法匹配的地址信息按照预置的修正标准与标准地址库进行对比修正,如果得到的修正结果唯一,则将所述地址信息替换为修正后的地址信息,并将修正后的地址信息保存在所述标准地址库中;补齐单元,所述补齐单元对匹配成功后不完整的地址信息进行补齐;存储单元,所述存储单元将所述补齐后的地址信息作为标准地址保存在标准地址库中;以及输出单元(图中未示出),所述输出单元将标准化结果汇总输出。可选择地,在一些实施例中,根据不同需求,可以包括其他合适的单元,以上单元中的一部分也可以省略。
下面参照图2介绍根据本发明的一个实施例的地址标准化方法。根据本发明的一个实施例,建立四级六层的地址分层系统(步骤S201)后,根据所述字典库确定每个层级的地址要素通名(步骤S202),接收批量的第三方地址(步骤S203)后,按照所述通名,利用正则表达式对地址信息初步划分层级(步骤S204)。
根据本发明的一个实施例的地址解析正则表达式处理方法如下:
首先进行地址预处理,包括以下步骤:
1.去除地址进行前后和中间空格,去除“:”、“.”等特殊符号,去除地址中以“下”结尾的,县替换“区”,去除“农场村”(农场路除外);
2.去除区县(解析到区县返回)、镇,去除地址中的“复式”关键字;
3.去除带“层”信息,“号幢”替换“号”,去除带“幢”信息,去除带“单元”的信息。
可选择地,在其他实施例中,根据不同需求,以上地址预处理的步骤可以包括其他未示出的步骤,也可以省略其中的一些或者全部。
地址预处理后,首先利用正则表达式进行常规正则匹配(步骤S205),解析出路、弄、楼栋号、室等常规信息。
随后,进行非常规正则匹配,包括:小区楼栋匹配:小区、楼栋特殊关键字;路弄楼栋匹配:路弄、楼栋特殊关键字;小区楼栋房间匹配:小区、楼栋、房间特殊关键字匹配;房间解析方法:匹配地址中“全幢室”、“楼层-室”等。可选择地,根据不同地区的地址特点,还可以加入其它正则匹配方式。
查看匹配结果(步骤S206),对于匹配成功后的地址信息与地址分层系统模型进行对比,判断地址信息是否完整(步骤S207),对其中不完整的地址信息按照四级六层的系统模型进行补齐(步骤S208);对于补齐后的地址信息,将保存为标准地址库(步骤S210);对于其余匹配不上的地址信息,输出列表并保存(步骤S209);最后将信息汇总输出(步骤S211),可选择地,可以同时输出匹配率等信息,其中匹配率的计算方式为:匹配通过的地址数量/全部地址数量。
根据本发明的一个实施例,在以上步骤完成后,可选择地,可以人工对匹配不上的地址进行检查,确定入库或修改的地址,通过更新程序更新。
下面根据附图3介绍根据本发明的另一实施例的地址标准化方法。如图3所示,步骤S301-S306与前述实施例的步骤S201-S206相同,此处不再赘述。与前述实施例不同的是,在正则匹配的步骤之后,还包括分词匹配的步骤和地址信息修正的步骤。
而对于步骤S306中被判断为无法匹配或无法拆分的部分地址可以进行分词匹配处理(步骤S307)。现有的中文分词方法多种多样,都各有自己的特点。常用的中文分词方法概括可以分为四大类:基于字典匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法。由于基于语义的分词方法实现难度大,目前研究较少而不成熟,故不在本研究范围之内。下面详细的介绍其他几种方法。
1.基于字典的分词方法
又叫做基于字符串的分词方法或机械分词方法。由于这种方法是基于词典的,因此要事先准备好一个“充分大的”分词词典,“充分大”就是说字典包含的词语尽量多,尽可能的减少未登录词。然后将待切分的汉语字符串,如句子,按照一定的扫描规则与词典中的词条进行匹配。如果在词典中找到了句子中的某个字符串,则将这个词切分出来,这就成功匹配识别出一个词。待切分句子可以按照任意长度或顺序分为若干字符串,所以要进行数次匹配,才能将句子切分为词。
在字典中进行查询匹配时的规则有很多种,根据扫描方向的不同,可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。目前最常用的是最大匹配法,有正向和逆向两种方式。由于汉语单字成词的特点,最小匹配法一般很少使用。下面分别介绍基于字符串的几种分词方法:
(1)正向最大匹配法
最大匹配,意思就是说用最长的中文切分方式,使切分结果中的词组尽可能最大长度而其总数最少。例如,待切分的中文句子“武东路上的财大科技园”,如果在词典中匹配成功就将词切分出来,那么切分的结果应该是“武东路/上/的/财大/科技园”。而按照最大匹配的原则,“财大科技园”就是一个词,有时更符合我们的要求。
它的基本思想是:首先创建一个用于自动分词的中文词典,可以得知词典中的最长词条的汉字个数,假设个数为n。然后,取待切分句子的前n个字符作为匹配字段,在分词词典中进行字段的查询匹配。如果词典中有这样的字段,则匹配成功。这样,由n个字符组成的字段被切分出来,作为一个词。如果词典中不存在这样的字段,则匹配失败,将字段末尾减去一个汉字,剩下的n-1个字符作为新的字段,再进行匹配,如此重复,直到匹配成功为止。例如句子“武东路上的财大科技园”,假设字典的最长词长为5,它的正向最大匹配法的分词流程如图4所示。
这种分词方法过程比较简单,切分精度与中文词典的数据量和数据结构有关,分词正确率并不是很高。实验表明,该分词方法的错误率为1/169。
(2)逆向最大匹配法。
它的分词过程与正向最大匹配法基本相同,不再重复说明。它与正向最大匹配法不同的是从句子末尾开始切分,如果匹配不成功则减掉最前面的一个字。逆向最大匹配的切分精度略高于正向。通过实验表明,其分词错误率为1/245。从以上实验可以看出,逆向匹配的切分精度相对于正向匹配要略高,而且歧义现象也较少。
(3)最少切分词方法,就是使切分后得到得词组数量尽可能的少。
(4)逐词遍历法。
这种方法比较另类,它是把词典中的词与待切分句子进行匹配,词典中的每个词全部都要与切分目标句子匹配一遍。
另外还有很多中文分词方法,如设立切分标志法、最佳匹配法、联想匹配法、二次扫描法等等。
2.基于理解的分词方法
它一般有三个部分:分词子系统、句法语义子系统和总控部分。专家系统分词法和神经网络分词法等都是基于理解的分词方法。这种方法要利用语法、句法分析来进行分词,还要结合语义分析,根据上下文提供的信息来分析词的切分,判断分词歧义现象。这是一种人工智能的分词方法,需要使用大量的语言知识和信息,也可以应用在本发明的实施例中。
3.基于统计的分词方法
这种方法又称为无字典分词,也也就是说不用分词词典。在概率学上,单个字组合成词组的概率是比较大的。当相邻的字经常在语句中出现,那么这几个相邻字很有可能就是一个词。因此字与字相邻出现的概率或频率能较好反映成词的可信度。在对待切分语言资料分词的时候,统计相邻字组合出现的频度。如果相邻字组合出现的频率远大于单个字出现的频率之积,超过了某个阈值,则认为相邻的字串就是一个词组。该方法需要应用很多统计模型,主要有:N元文法模型、隐Markov模型和最大熵模型等。
以上分词方法各有优劣,根据本发明的一个实施例,优选基于字符串的逆向最大匹配法,在具体的应用中,这些方法均可以单独或组合使用,以便提高分词的速度和精度。
根据本发明的一个实施例,在分词阶段,可以不局限于标准地址四级六层的层次结构,先划分为较细的层次,如图5所示,以便于进行逻辑判断,在最终标准化输出时根据映射关系转化为标准层次。
分词匹配完后再次查看匹配结果(步骤S308),判断地址信息是否完整(步骤S312),对于其中不完整的地址信息按照四级六层的系统模型进行补齐(步骤S313)。
根据本发明的一个实施例,在分词匹配后,还包括对于无法匹配的部分地址按照层次结构分别进行修正的步骤(步骤S309)。修正可以包括以下几类:
1.通名修正
和标准库相比,名称相同而通名不同(或通名缺失),如果修正结果唯一,则进行自动修正,并标记类型为通名修正。
比如宝安路与宝安公路
比如号甲与甲号
2.别名修正
针对有多个别名的小区,小区名称无法与标准库中的小区名称匹配上,但可以和小区别名匹配上的,取得小区地址,并替换小区名称为标准名称,同时标记类型为别名修正。
除了名称之外,地址也存在地址别名的情况。如汉中路333弄。处理方法参照别名修正。
3.旧名修正
针对行政区、道路、地址存在旧名的情况,名称无法标准名称匹配,但可以和旧名匹配上的,用新名替换旧名,并标记类型为旧名修正。
4.同音修正
和标准库相比,文字不同而发音相同,如果修正结果唯一,则进行自动修正,并标记类型为同音修正。比如浦东大道与普东大道。
5.别字修正
和标准库相比,名称无法标准名称匹配,但可以和别字匹配上的,如果修正结果唯一,则进行自动修正,并标记类型为通名修正。比如大渡河路与大渡可路。
当然,修正的结果并不能保证百分百的正确,在本实施例中,可以根据统计结果为各种修正结果赋予不同的置信度,在出现冲突时,优选置信度较高的结果作为最终结果。
判断修正是否成功(步骤S310),对于修正成功的地址信息,判断地址信息是否完整(步骤S312),对其中不完整的地址信息按照四级六层的系统模型进行补齐(步骤S313)。
补齐操作后,将补齐后的地址信息保存为标准地址库(步骤S314)。对于其余匹配不上的、修正不成功的地址及小区,输出列表并保存(步骤S311),最后将信息汇总输出(步骤S315),可选择地,可以同时输出匹配率等信息,其中匹配率的计算方式为:匹配通过的地址数量/全部地址数量。
根据本发明的实施例,在修正完成后,可选择地,可以人工对匹配不上的地址进行检查,确定入库或修改的地址,通过更新程序更新。
下面介绍标准地址的匹配方法。地址数据经过清洗和规范化,并由地址分词处理得到一系列的地址要素词组,然后将这些地址要素按照一定的规则在标准地址库中进行查询匹配的过程,就是数据库匹配。显然,如何减少查询和比较的次数,关系到匹配的效率和成功率。一种方法是采集的地址信息和地址库中的信息一一对应,但该方法精度高却效率低。为了提高地址匹配的效率,在与数据库进行匹配之前,可以根据地址中地址要素的组成形式来制定地址匹配的规则,以及地址匹配的模式。地址的组成形式有很多,常见的包括以下几类,如:街道+门牌,街道+门牌+楼牌,住宅小区+楼牌,街道+建筑物等。
常见的地址匹配的方式有三种:定位到街道,定位到区域的,如居民小区、配送点式区域等,以及两种方式结合的方法。另外还有基于邮政编码的和基于边界的地址匹配方法。
1.定位到街道的方法
是通过道路名和门牌号码进行匹配。这种匹配方式的标准地址库中每一个路段都具有道路名和起止门牌号码信息,在地理编码时,首先根据地址信息中道路名找到参考主题中相同名称的路段(一般情况下有多个路段),然后根据地址信息中的门牌号及每个路段的起止门牌号码信息找到门牌号所在路段,最后根据门牌号及该路段的起止门牌号码信息进行内插确定该记录在该路段上的位置。这种方式利用了数值逼近方法中的插值原理进行模糊定位。另外,如果待匹配地址的门牌号在数据库中查找不到,可以查找和它最临近的建筑物门牌号,由此来辅助定位,可以提高插值定位的精度。
插值定位的方法不受道路形状的影响,定位的精度比较高,它是根据地址记录的门牌号以及其与街道的垂直距离进行准确的定位。这种方法比较适用于国外的定位到街道的地址匹配,因为国外的门牌号码一般是按奇偶数分别排在路的两端,门牌号的分布比较有规律,这样插值时点位的位置不会出现太大的误差。然而我国的道路门牌号体系复杂多样,存在很多问题。例如城市建设中道路拆除或者改名,但门牌号没有重新编制、门牌号丢失、门牌楼牌混编等情况。这些问题使得利用插值方法时容易出现较大的误差,定位的精确度不高。
2.定位到区域的方法
待匹配地址具有区域属性记录,在地址数据库中查询与之相应的区域属性记录并进行比较,若匹配成功,则将记录以点要素的形式生成在地图的相应区域内。若匹配失败,可以利用地址模型的层级关系,查找上一级地址要素来进行模糊定位。
这种方法的定位精度与数据库中地址的区域属性所代表的空间范围大小有关,空间范围越小则精度越高。如定位到居民小区的精度高于定位到行政区的精度。
优选地,本实施例中将定位到街道的方法与定位到区域的方法结合起来使用,以提高匹配的精度。在其他实施例中,也可以单独使用其中的一种或者其他未进行说明的匹配方法。
根据本发明的又一实施例,还包括一种分易失性存储介质,在存储介质上存储有地址标准化程序,地址标准化程序被计算机执行以实施前述地址标准化方法。
根据本发明的又一实施例,还包括一种计算机,包括:存储器,存储有计算机可以执行的地址标准化程序;以及处理器,连接至存储器,并且被配置为执行地址标准化程序以实现前述地址标准化。
上面结合附图对本发明的实施例做了详细说明,但本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,在不脱离本发明宗旨的前提下做出的各种变化,均应归属于本发明专利涵盖范围。
Claims (9)
1.一种地址标准化方法,其特征在于,包括:
建立地址分层系统模型,并针对每个层级预置字典库;
根据所述字典库确定每个层级的地址要素通名;
接收第三方地址信息;
按照所述通名,利用正则表达式对所述第三方地址信息初步划分层级;
将正则表达式划分的结果与所述地址分层系统进行正则匹配;
对匹配成功后不完整的地址信息进行补齐;
将补齐后的地址信息作为标准地址保存在标准地址库;以及
将标准化结果汇总输出。
2.根据权利要求1所述的地址标准化方法,其特征在于,在所述正则匹配的步骤之后还包括:
分词匹配步骤,对接收的无法匹配或无法拆分的部分地址信息进行分词匹配处理;以及
地址信息修正的步骤,将所述分词后仍无法匹配的地址信息按照预置的修正标准与标准地址库进行对比修正,如果得到的修正结果唯一,则将所述地址信息替换为修正后的地址信息,并将修正后的地址信息保存在所述标准地址库中。
3.根据权利要求2所述的地址标准化方法,其特征在于,所述修正标准包括通名修正、别名修正、旧名修正、同音修正和别字修正。
4.根据权利要求1所述的地址标准化方法,其特征在于,所述地址分层系统为四级六层地址分层系统;所述四级分别为行政区级、路弄级、楼栋级和室级;所述六层分别为属于行政区级的区县、街道、居委,属于路弄级的路弄,属于楼栋级的楼号和属于室级的室号。
5.根据权利要求1所述的地址标准化方法,其特征在于,所述分词匹配处理采用逆向最大匹配法。
6.一种地址标准化装置,其特征在于,包括:
地址分层系统模型建立单元,所述地址分层系统模型建立单元被配置为建立地址分层系统模型,并针对每个层级预置字典库;
通名确定单元,所述通名确定单元根据所述字典库确定每个层级的地址要素通名;
接收单元,所述接收单元接收第三方地址信息;
层级划分单元,所述层级划分单元按照所述通名,利用正则表达式对所述第三方地址信息初步划分层级;
正则匹配单元,所述正则匹配单元将正则表达式划分的结果与所述地址分层系统进行正则匹配;
补齐单元,所述补齐单元对匹配成功后不完整的地址信息进行补齐;
存储单元,所述存储单元将所述补齐后的地址信息作为标准地址保存在标准地址库中;以及
输出单元,所述输出单元将标准化结果汇总输出。
7.根据权利要求6所述的地址标准化装置,其特征在于,还包括:
分词匹配单元,所述分词匹配单元对接收的无法匹配或无法拆分的部分地址进行分词匹配处理;以及
地址信息修正单元,所述地址信息修正单元将所述分词后仍无法匹配的地址信息按照预置的修正标准与标准地址库进行对比修正,如果得到的修正结果唯一,则将所述地址信息替换为修正后的地址信息,并将修正后的地址信息保存在所述标准地址库中。
8.一种非易失性存储介质,在所述存储介质上存储有地址标准化程序,所述地址标准化程序被计算机执行以实施如权利要求1-5所述的地址标准化方法。
9.一种计算机,包括:
存储器,所述存储器存储有计算机可以执行的地址标准化程序;以及
处理器,连接至所述存储器,并且被配置为执行所述地址标准化程序以实现如权利要求1-5所述的地址标准化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710316908.7A CN107145577A (zh) | 2017-05-08 | 2017-05-08 | 地址标准化方法、装置、存储介质及计算机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710316908.7A CN107145577A (zh) | 2017-05-08 | 2017-05-08 | 地址标准化方法、装置、存储介质及计算机 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107145577A true CN107145577A (zh) | 2017-09-08 |
Family
ID=59777949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710316908.7A Pending CN107145577A (zh) | 2017-05-08 | 2017-05-08 | 地址标准化方法、装置、存储介质及计算机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107145577A (zh) |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062365A (zh) * | 2017-12-06 | 2018-05-22 | 吉旗(成都)科技有限公司 | 一种提高地址解析准确度的方法 |
CN108197188A (zh) * | 2017-12-26 | 2018-06-22 | 北京小度信息科技有限公司 | 地址信息处理方法及装置 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN108428187A (zh) * | 2017-12-21 | 2018-08-21 | 中国平安人寿保险股份有限公司 | 地址匹配方法、装置及存储介质 |
CN108733304A (zh) * | 2018-06-15 | 2018-11-02 | 蒋渊 | 一种自动识别及处理手写字符方法、装置 |
CN109033086A (zh) * | 2018-08-03 | 2018-12-18 | 银联数据服务有限公司 | 一种地址解析、匹配的方法及装置 |
CN109102303A (zh) * | 2018-06-28 | 2018-12-28 | 招联消费金融有限公司 | 风险检测方法和相关装置 |
CN109145073A (zh) * | 2018-08-28 | 2019-01-04 | 成都市映潮科技股份有限公司 | 一种基于分词算法的地址解析方法及装置 |
CN109190997A (zh) * | 2018-09-18 | 2019-01-11 | 广东电网有限责任公司 | 中文地址层级化解析与规范处理方法和系统 |
CN109359200A (zh) * | 2018-10-11 | 2019-02-19 | 北京国信达数据技术有限公司 | 地名地址数据智能解析系统 |
CN109446207A (zh) * | 2018-08-28 | 2019-03-08 | 广州城市信息研究所有限公司 | 一种标准地址数据库更新方法和地址匹配方法 |
CN109446284A (zh) * | 2018-09-17 | 2019-03-08 | 平安科技(深圳)有限公司 | 显示客户地址的方法、装置、计算机设备和存储介质 |
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN110046341A (zh) * | 2018-12-29 | 2019-07-23 | 中国银联股份有限公司 | 用于对信息进行匹配的方法和系统 |
CN110046343A (zh) * | 2019-03-01 | 2019-07-23 | 江苏横云智慧科技有限公司 | 非规范地址转换为规范地址及规范地址编码的方法 |
CN110147418A (zh) * | 2019-04-18 | 2019-08-20 | 厦门市美亚柏科信息股份有限公司 | 一种判断地址是否标准化、地址标准化的方法及系统 |
CN110175216A (zh) * | 2019-05-15 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 坐标纠错方法、装置和计算机设备 |
CN110209755A (zh) * | 2019-06-13 | 2019-09-06 | 苏州思必驰信息科技有限公司 | Poi导航地址的扩展方法及系统 |
CN110210020A (zh) * | 2019-05-22 | 2019-09-06 | 武汉虹信通信技术有限责任公司 | 通讯地址标准化的系统及其方法 |
CN110362646A (zh) * | 2019-07-17 | 2019-10-22 | 秒针信息技术有限公司 | 地址信息的处理方法及装置、存储介质和电子装置 |
CN110569239A (zh) * | 2019-09-19 | 2019-12-13 | 圆通速递有限公司 | 一种快递包裹地址标准化的方法和系统 |
CN110580270A (zh) * | 2018-06-07 | 2019-12-17 | 北京京东尚科信息技术有限公司 | 地址输出方法及系统、计算机系统和计算机可读存储介质 |
CN110688851A (zh) * | 2019-09-26 | 2020-01-14 | 税友软件集团股份有限公司 | 一种提取地址文本的关键信息的方法、装置及介质 |
CN110705214A (zh) * | 2019-08-27 | 2020-01-17 | 天津开心生活科技有限公司 | 一种自动编码方法及装置 |
CN110895651A (zh) * | 2018-08-23 | 2020-03-20 | 北京京东金融科技控股有限公司 | 地址标准化处理方法、装置、设备及计算机可读存储介质 |
CN110909110A (zh) * | 2018-09-17 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 地址的标准化方法、装置、存储介质及处理器 |
CN111222345A (zh) * | 2020-01-15 | 2020-06-02 | 合肥慧图软件有限公司 | 基于语义分词技术的地名地址可视化分析方法 |
CN111291277A (zh) * | 2020-01-14 | 2020-06-16 | 浙江邦盛科技有限公司 | 一种基于语义识别和高级语言搜索的地址标准化方法 |
CN111861733A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于地址模糊匹配的欺诈防控系统及方法 |
CN111930829A (zh) * | 2020-06-18 | 2020-11-13 | 中国移动通信集团内蒙古有限公司 | 标准地址的生成方法、装置、设备和介质 |
CN112015829A (zh) * | 2020-08-28 | 2020-12-01 | 北京星天地信息科技有限公司 | 一种一标三实数据的管理方法及系统 |
CN112115214A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN112232080A (zh) * | 2020-10-20 | 2021-01-15 | 大唐融合通信股份有限公司 | 命名实体识别方法、装置及电子设备 |
CN112395377A (zh) * | 2019-08-19 | 2021-02-23 | 中国电信股份有限公司 | 地址识别方法、装置和存储介质 |
CN112434160A (zh) * | 2020-11-23 | 2021-03-02 | 宁波市测绘和遥感技术研究院 | 一种地址信息数据的处理方法 |
CN112528174A (zh) * | 2020-11-27 | 2021-03-19 | 暨南大学 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
CN112836146A (zh) * | 2021-03-09 | 2021-05-25 | 威创集团股份有限公司 | 一种基于网络消息的地理空间坐标信息获取方法及装置 |
CN112836092A (zh) * | 2021-01-11 | 2021-05-25 | Oppo广东移动通信有限公司 | 一种数据处理方法、装置及存储介质 |
CN112835894A (zh) * | 2021-01-25 | 2021-05-25 | 武汉烽火普天信息技术有限公司 | 一种基于地址编码和相似计算的地址匹配方法 |
CN112949260A (zh) * | 2021-03-05 | 2021-06-11 | 浪潮云信息技术股份公司 | 一种加快非结构化企业地址转换为经纬度的方法 |
CN113157762A (zh) * | 2020-12-31 | 2021-07-23 | 南威软件股份有限公司 | 基于模糊层级地理位置的规范化方法、系统及数处理终端 |
CN113312356A (zh) * | 2021-06-22 | 2021-08-27 | 南方电网能源发展研究院有限责任公司 | 基于多模式字符串的设备材料名称匹配方法 |
EP4145300A4 (en) * | 2020-06-05 | 2024-05-08 | Beijing Jingdong Zhenshi Information Tech Co Ltd | METHOD AND DEVICE FOR PROCESSING ORDER DATA |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955832A (zh) * | 2011-08-31 | 2013-03-06 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的系统 |
CN102955833A (zh) * | 2011-08-31 | 2013-03-06 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的方法 |
CN104537062A (zh) * | 2014-12-29 | 2015-04-22 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种地址信息抽取方法及系统 |
CN106055650A (zh) * | 2016-05-31 | 2016-10-26 | 深圳市永兴元科技有限公司 | 地址标准化方法和装置 |
-
2017
- 2017-05-08 CN CN201710316908.7A patent/CN107145577A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955832A (zh) * | 2011-08-31 | 2013-03-06 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的系统 |
CN102955833A (zh) * | 2011-08-31 | 2013-03-06 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的方法 |
CN104537062A (zh) * | 2014-12-29 | 2015-04-22 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种地址信息抽取方法及系统 |
CN106055650A (zh) * | 2016-05-31 | 2016-10-26 | 深圳市永兴元科技有限公司 | 地址标准化方法和装置 |
Cited By (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062365A (zh) * | 2017-12-06 | 2018-05-22 | 吉旗(成都)科技有限公司 | 一种提高地址解析准确度的方法 |
CN108062365B (zh) * | 2017-12-06 | 2021-01-26 | 吉旗(成都)科技有限公司 | 一种提高地址解析准确度的方法 |
CN108428187A (zh) * | 2017-12-21 | 2018-08-21 | 中国平安人寿保险股份有限公司 | 地址匹配方法、装置及存储介质 |
CN108197188B (zh) * | 2017-12-26 | 2020-06-30 | 北京星选科技有限公司 | 地址信息处理方法及装置 |
CN108197188A (zh) * | 2017-12-26 | 2018-06-22 | 北京小度信息科技有限公司 | 地址信息处理方法及装置 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN110580270A (zh) * | 2018-06-07 | 2019-12-17 | 北京京东尚科信息技术有限公司 | 地址输出方法及系统、计算机系统和计算机可读存储介质 |
CN108733304A (zh) * | 2018-06-15 | 2018-11-02 | 蒋渊 | 一种自动识别及处理手写字符方法、装置 |
CN109102303A (zh) * | 2018-06-28 | 2018-12-28 | 招联消费金融有限公司 | 风险检测方法和相关装置 |
CN109102303B (zh) * | 2018-06-28 | 2021-06-08 | 招联消费金融有限公司 | 风险检测方法和相关装置 |
CN109033086A (zh) * | 2018-08-03 | 2018-12-18 | 银联数据服务有限公司 | 一种地址解析、匹配的方法及装置 |
CN110895651A (zh) * | 2018-08-23 | 2020-03-20 | 北京京东金融科技控股有限公司 | 地址标准化处理方法、装置、设备及计算机可读存储介质 |
CN110895651B (zh) * | 2018-08-23 | 2024-02-02 | 京东科技控股股份有限公司 | 地址标准化处理方法、装置、设备及计算机可读存储介质 |
CN109145073A (zh) * | 2018-08-28 | 2019-01-04 | 成都市映潮科技股份有限公司 | 一种基于分词算法的地址解析方法及装置 |
CN109446207A (zh) * | 2018-08-28 | 2019-03-08 | 广州城市信息研究所有限公司 | 一种标准地址数据库更新方法和地址匹配方法 |
CN110909110A (zh) * | 2018-09-17 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 地址的标准化方法、装置、存储介质及处理器 |
CN109446284A (zh) * | 2018-09-17 | 2019-03-08 | 平安科技(深圳)有限公司 | 显示客户地址的方法、装置、计算机设备和存储介质 |
CN110909110B (zh) * | 2018-09-17 | 2023-05-30 | 阿里巴巴集团控股有限公司 | 地址的标准化方法、装置、存储介质及处理器 |
CN109190997A (zh) * | 2018-09-18 | 2019-01-11 | 广东电网有限责任公司 | 中文地址层级化解析与规范处理方法和系统 |
CN109190997B (zh) * | 2018-09-18 | 2021-03-12 | 广东电网有限责任公司 | 中文地址层级化解析与规范处理方法和系统 |
CN109359200A (zh) * | 2018-10-11 | 2019-02-19 | 北京国信达数据技术有限公司 | 地名地址数据智能解析系统 |
CN110046341A (zh) * | 2018-12-29 | 2019-07-23 | 中国银联股份有限公司 | 用于对信息进行匹配的方法和系统 |
CN110046341B (zh) * | 2018-12-29 | 2023-06-09 | 中国银联股份有限公司 | 用于对信息进行匹配的方法和系统 |
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
WO2020168750A1 (zh) * | 2019-02-18 | 2020-08-27 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN109960795B (zh) * | 2019-02-18 | 2024-05-07 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN110046343A (zh) * | 2019-03-01 | 2019-07-23 | 江苏横云智慧科技有限公司 | 非规范地址转换为规范地址及规范地址编码的方法 |
CN110147418A (zh) * | 2019-04-18 | 2019-08-20 | 厦门市美亚柏科信息股份有限公司 | 一种判断地址是否标准化、地址标准化的方法及系统 |
CN110147418B (zh) * | 2019-04-18 | 2022-04-29 | 厦门市美亚柏科信息股份有限公司 | 一种判断地址是否标准化、地址标准化的方法及系统 |
CN110175216A (zh) * | 2019-05-15 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 坐标纠错方法、装置和计算机设备 |
CN110175216B (zh) * | 2019-05-15 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 坐标纠错方法、装置和计算机设备 |
CN110210020A (zh) * | 2019-05-22 | 2019-09-06 | 武汉虹信通信技术有限责任公司 | 通讯地址标准化的系统及其方法 |
CN110210020B (zh) * | 2019-05-22 | 2023-06-20 | 武汉虹旭信息技术有限责任公司 | 通讯地址标准化的系统及其方法 |
CN110209755B (zh) * | 2019-06-13 | 2021-06-18 | 思必驰科技股份有限公司 | Poi导航地址的扩展方法及系统 |
CN110209755A (zh) * | 2019-06-13 | 2019-09-06 | 苏州思必驰信息科技有限公司 | Poi导航地址的扩展方法及系统 |
CN112115214A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN112115214B (zh) * | 2019-06-20 | 2024-04-02 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN110362646A (zh) * | 2019-07-17 | 2019-10-22 | 秒针信息技术有限公司 | 地址信息的处理方法及装置、存储介质和电子装置 |
CN112395377A (zh) * | 2019-08-19 | 2021-02-23 | 中国电信股份有限公司 | 地址识别方法、装置和存储介质 |
CN110705214B (zh) * | 2019-08-27 | 2023-05-02 | 天津开心生活科技有限公司 | 一种自动编码方法及装置 |
CN110705214A (zh) * | 2019-08-27 | 2020-01-17 | 天津开心生活科技有限公司 | 一种自动编码方法及装置 |
CN110569239A (zh) * | 2019-09-19 | 2019-12-13 | 圆通速递有限公司 | 一种快递包裹地址标准化的方法和系统 |
CN110688851A (zh) * | 2019-09-26 | 2020-01-14 | 税友软件集团股份有限公司 | 一种提取地址文本的关键信息的方法、装置及介质 |
CN111291277A (zh) * | 2020-01-14 | 2020-06-16 | 浙江邦盛科技有限公司 | 一种基于语义识别和高级语言搜索的地址标准化方法 |
CN111222345A (zh) * | 2020-01-15 | 2020-06-02 | 合肥慧图软件有限公司 | 基于语义分词技术的地名地址可视化分析方法 |
EP4145300A4 (en) * | 2020-06-05 | 2024-05-08 | Beijing Jingdong Zhenshi Information Tech Co Ltd | METHOD AND DEVICE FOR PROCESSING ORDER DATA |
CN111930829A (zh) * | 2020-06-18 | 2020-11-13 | 中国移动通信集团内蒙古有限公司 | 标准地址的生成方法、装置、设备和介质 |
CN111861733B (zh) * | 2020-07-31 | 2023-09-15 | 重庆富民银行股份有限公司 | 基于地址模糊匹配的欺诈防控系统及方法 |
CN111861733A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于地址模糊匹配的欺诈防控系统及方法 |
CN112015829A (zh) * | 2020-08-28 | 2020-12-01 | 北京星天地信息科技有限公司 | 一种一标三实数据的管理方法及系统 |
CN112232080A (zh) * | 2020-10-20 | 2021-01-15 | 大唐融合通信股份有限公司 | 命名实体识别方法、装置及电子设备 |
CN112434160A (zh) * | 2020-11-23 | 2021-03-02 | 宁波市测绘和遥感技术研究院 | 一种地址信息数据的处理方法 |
CN112434160B (zh) * | 2020-11-23 | 2024-05-07 | 宁波市测绘和遥感技术研究院 | 一种地址信息数据的处理方法 |
CN112528174A (zh) * | 2020-11-27 | 2021-03-19 | 暨南大学 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
CN113157762A (zh) * | 2020-12-31 | 2021-07-23 | 南威软件股份有限公司 | 基于模糊层级地理位置的规范化方法、系统及数处理终端 |
CN112836092A (zh) * | 2021-01-11 | 2021-05-25 | Oppo广东移动通信有限公司 | 一种数据处理方法、装置及存储介质 |
CN112835894A (zh) * | 2021-01-25 | 2021-05-25 | 武汉烽火普天信息技术有限公司 | 一种基于地址编码和相似计算的地址匹配方法 |
CN112949260A (zh) * | 2021-03-05 | 2021-06-11 | 浪潮云信息技术股份公司 | 一种加快非结构化企业地址转换为经纬度的方法 |
CN112836146A (zh) * | 2021-03-09 | 2021-05-25 | 威创集团股份有限公司 | 一种基于网络消息的地理空间坐标信息获取方法及装置 |
CN112836146B (zh) * | 2021-03-09 | 2024-05-14 | 威创集团股份有限公司 | 一种基于网络消息的地理空间坐标信息获取方法及装置 |
CN113312356A (zh) * | 2021-06-22 | 2021-08-27 | 南方电网能源发展研究院有限责任公司 | 基于多模式字符串的设备材料名称匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107145577A (zh) | 地址标准化方法、装置、存储介质及计算机 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN100573506C (zh) | 一种自然语言表达动态交通信息的时空融合方法 | |
CN102395965B (zh) | 用于在数据库中搜索对象的方法 | |
CN101313300B (zh) | 本地搜索 | |
CN108628811B (zh) | 地址文本的匹配方法和装置 | |
US20030165254A1 (en) | Adapting point geometry for storing address density | |
WO2015027836A1 (zh) | 一种地名实体识别的方法及系统 | |
CN103440312A (zh) | 一种通信地址查询邮政编码的系统及终端 | |
CN112612863B (zh) | 一种基于中文分词器的地址匹配方法及系统 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
CN101542475A (zh) | 用于对具有象形表意内容的数据进行搜索和匹配的系统和方法 | |
CN106909611B (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
WO2022095256A1 (zh) | 一种地理编码方法、系统、终端以及存储介质 | |
CN103514235B (zh) | 一种增量码库的建立方法和装置 | |
CN111291277A (zh) | 一种基于语义识别和高级语言搜索的地址标准化方法 | |
CN101393544A (zh) | 面向地址编码的中文地址语义解析方法 | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
CN110990520B (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN111625732B (zh) | 地址匹配方法及装置 | |
CN108733810A (zh) | 一种地址数据匹配方法及装置 | |
CN112527933A (zh) | 一种基于空间位置和文本训练的中文地址关联方法 | |
CN111291099B (zh) | 一种地址模糊匹配方法、系统及计算机设备 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN115630648A (zh) | 面向人机对话的地址要素解析方法、系统与计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170908 |
|
WD01 | Invention patent application deemed withdrawn after publication |