CN112364114A - 地址标准化方法、装置、计算机设备和存储介质 - Google Patents
地址标准化方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112364114A CN112364114A CN202011278707.0A CN202011278707A CN112364114A CN 112364114 A CN112364114 A CN 112364114A CN 202011278707 A CN202011278707 A CN 202011278707A CN 112364114 A CN112364114 A CN 112364114A
- Authority
- CN
- China
- Prior art keywords
- address
- hierarchy
- field
- processed
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011425 standardization method Methods 0.000 title abstract description 8
- 230000011218 segmentation Effects 0.000 claims abstract description 165
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000012937 correction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 240000002853 Nelumbo nucifera Species 0.000 description 2
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 2
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 150000002148 esters Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及大数据技术领域,特别涉及一种地址标准化方法、装置、计算机设备和存储介质。方法包括:获取待处理地址对应的层级关键词列表;基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段;从层级关键词列表中查找与切分字段对应的区域层级,并将未能查找到区域层级的切分字段作为待处理切分字段;获取与待处理地址对应的地址配置库,从地址配置库中获取与待处理切分字段对应的区域层级;根据待处理地址对应的区域层级得到标准化的地址。其中,标准化的地址可以存储于区块链中,采用本方法能够提高地址标准化的效率。
Description
技术领域
本申请涉及大数据技术领域,特别是涉及一种地址标准化方法、装置、计算机设备和存储介质。
背景技术
随着物流技术的发展,快递在我们生活中越来越普遍,在寄快递的过程中都需要填写地址。而在一些情况下,地址是由人工填写,存在地址填写不规范的问题。
在传统技术中是通过人工的方式对不规范的地址进行标准化处理,导致对地址的标准化处理效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高地址标准化处理效率的地址标准化方法、装置、计算机设备和存储介质。
一种地址的标准化方法,方法包括:
获取待处理地址对应的层级关键词列表;
基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段;
从层级关键词列表中查找与切分字段对应的区域层级,并将未能查找到区域层级的切分字段作为待处理切分字段;
获取与待处理地址对应的地址配置库,从地址配置库中获取与待处理切分字段对应的区域层级;
根据待处理地址对应的区域层级得到标准化的地址。
在一个实施例中,获取待处理地址对应的层级关键词列表,包括:
获取历史地址数据,对历史地址数据中的区域层级进行标注得到层级标注值;
从历史地址数据中获取与层级标注值对应的层级字段值、层级字段值对应的层级关键词以及层级关键词的层级位置信息;
根据每一个区域层级对应的层级标注值、层级字段值、层级关键词以及层级关键词的层级位置信息,建立每一个区域层级对应的层级关键词列表,所述层级关键词列表存储于区块链中。
在一个实施例中,基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段,包括:
将待处理地址中的地址字段与层级关键词列表中的层级字段值进行匹配,将匹配成功的层级字段值提取为切分字段值,将匹配成功的地址字段提取为待切分字段;
从层级关键词列表中获取与切分字段值对应的层级关键词,以及层级关键词对应的层级位置信息;
获取层级位置信息对应的层级位置替换符,根据层级位置替换符对待切分字段进行替换处理得到待替换地址;
根据待替换地址中的位置替换符对待替换地址进行切分处理,得到多个切分字段。
在一个实施例中,基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段之后,方法还包括:
查找切分字段中对应的层级关键词的个数;
当层级关键词的个位为一个时,从层级关键词列表中查找与切分字段对应的区域层级;
当层级关键词的个数为多于一个时,继续对待处理字段进行切分处理,直至得到包括一个层级关键词的切分字段。
在一个实施例中,并将未能查找到区域层级的切分字段作为待处理切分字段之后,方法还包括:
在待处理地址中获取与待处理切分字段相邻的相邻切分字段;
获取相邻切分字段对应的相邻区域层级,以根据相邻区域层级确定待处理切分字段的区域层级;
根据各切分字段对应的区域层级得到待处理地址对应的标准化地址。
在一个实施例中,获取与待处理地址对应的地址配置库,包括:
获取地址标识对应的网页数据,地址标识是根据最大级别的层级深度对应的行政区域确定;
从网页数据中查找与地址标识对应的子行政区域,以及地址标识对应的区域层级、各子行政区域对应的子区域层级;
根据地址标识、子行政区域、区域层级以及子区域层级构建地址标识对应的地址配置库。
在一个实施例中,方法还包括:
获取地址配置库,从地址配置库中提取个性化配置信息;
按照预设规则对个性化配置信息进行通用化处理,以将地址配置库中的个性化配置信息转换为通用配置信息。
一种地址标准化装置,装置包括:
第一获取模块,用于获取待处理地址对应的层级关键词列表;
切分模块,用于基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段;
查找模块,用于从层级关键词列表中查找与切分字段对应的区域层级,并将未能查找到区域层级的切分字段作为待处理切分字段;
第二获取模块,用于获取与待处理地址对应的地址配置库,从地址配置库中获取与待处理切分字段对应的区域层级;
标准化模块,用于根据待处理地址对应的区域层级得到标准化的地址。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任意一项实施例中的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一项实施例中的方法的步骤。
上述地址标准化方法、装置、计算机设备和存储介质,获取待处理地址对应的层级关键词列表;基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段;层级关键词列表中查找与切分字段对应的区域层级,并将未能查找到区域层级的切分字段作为待处理切分字段;获取与待处理地址对应的地址配置库,从地址配置库中获取与待处理切分字段对应的区域层级;根据待处理地址对应的区域层级得到标准化的地址。通过预先配置地址配置库以及层级关键词列表,然后在具体实施中就可以直接根据预配置库获取对应的信息,进而根据获取到的信息实现对待处理地址的切分处理,进而得到标准化地址,提高了对地址的标准化处理效率。
附图说明
图1为一个实施例中地址标准化方法的应用环境图;
图2为一个实施例中地址标准化方法的流程示意图;
图3为一个实施例中提供了一种基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段的流程示意图;
图4为一个实施例中地址标准化装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的地址标准化方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取待处理地址对应的层级关键词列表;基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段;从层级关键词列表中查找与切分字段对应的区域层级,并将未能查找到区域层级的切分字段作为待处理切分字段;获取与待处理地址对应的地址配置库,从地址配置库中获取与待处理切分字段对应的区域层级;根据待处理地址对应的区域层级得到标准化的地址。并将标准化地址推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种地址标准化方法,该地址标准化方法具体可以应用于计算机设备,其中计算机设备具体可以是服务器或者终端,包括以下步骤:
步骤202,获取待处理地址对应的层级关键词列表。
其中,待处理地址是需要进行标准化处理的地址,标准化处理是指获知待处理地址中包括的区域层级的处理过程,如将待处理地址中的从属于不同区域层级的地址字段进行切分处理得到切分单元,并得到每一个切分单元对应的区域层级的过程。其中,区域层级是行政区域对应的行政等级,如可以是“省”、“市”或者“县”等,区域层级还可以包括“region”、“unit”等。
其中,层级关键词列表与区域层级对应,具体地,可以预先为每一个区域层级构建一个对应的层级关键词列表。在一个实施例中,计算机设备获取待处理地址,并将待处理地址与层级关键词列表中的区域层级进行匹配,并将匹配成功的区域层级对应的层级关键词列表作为与待处理地址对应的层级关键词列表。需要说明的是,当待处理地址中包括一个或者多个区域层级时,此时计算机设备可以从待处理地址中获取与每一个区域层级分别对应的层级关键词列表。例如,当待处理地址为“山东省日照市东港区****”时,此时待处理地址中包括的区域层级为“省”、“市”以及“区”,并且,计算机设备可以获取与每一个区域层级分别对应的层级关键词列表。
层级关键词列表中包括区域层级对应的层级信息,层级信息中包括但不限于该区域层级对应的层级字段值、层级关键词、以及层级位置信息中的一个或者多个。在具体实施中,计算机设备获取待处理地址对应的区域层级,并根据区域层级获取对应的层级关键词列表,以在层级关键词列表中查找区域层级对应的层级字段值、层级关键词以及层级位置关系等。
例如,一个具体的待处理地址为:“FLT 11 22/F BLK 33AAAHSE BBB EST CCCSTREET SHAM SHUI PO KLN”,该待处理地址中的区域层级包括“region”、“unit”。故而计算机设备可以分别获取与“region”以及“unit”对应的层级关键词列表。具体可以在“region”关键词列表中获取到区域层级“region”的层级字段值为“KLN”,并且对应的层级关键词为“KLN”,对应的层级位置信息是“位置同时在前后”。计算机设备在“unit”关键词列表中获取到区域层级“unit”的层级字段值为“FLT 11”,其中层级关键词为“FLT”,对应的层级位置信息是“位置在前”,其他同理。
在一个具体的实施例中,层级关键词列表中表示区域层级“unit”的在前关键词有:“FLAT”、“FLT”、“RM”、“ROOM”、“SHOP”、“UNIT”等,其他关键词无。表示区域层级“street”的在后关键词有:“AVENUE”、“LANE”、“RD”、“ROAD”、“ST”、“STREET”、“TERRACE”等,其他关键词无。表示区域层级“floor”的在前关键词有:“FLOOR”,在后关键词有:“/F”,其他关键词无。表示区域层级“region”的同时在前后的关键词有“KOWLOON”、“KLN”、“KOWLOON”、“NT”等,其他关键词无。需要说明的是,计算机设备可以基于每一个区域层级分别构建与每一个区域层级分别对应的区域层级关键词列表,这样,得到的区域层级关键词列表的数量与区域层级的数量是一致的。计算机设备还可以基于所有的区域层级构建在同一个区域层级关键词列表中,在此不作限制。
步骤204,基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段。
其中,切分字段是待处理地址中的需要进行标准化处理的字段,即是需要获取区域层级信息的字段。具体地,计算机设备将待处理地址中的地址字段与层级关键词列表中的层级字段值进行匹配,根据匹配结果对待处理地址进行切分处理,得到切分字段。如可以将匹配成功的地址字段从待处理地址中切分出来,并作为切分字段。
其中,切分字段的数量为一个或者多个,在此不做限制。一般来说,每一个切分字段都可以对应一个或者多个区域层级。需要说明的是,当待处理地址对应多个层级关键词列表时,还包括根据多个层级关键词列表对待处理地址分别进行切分处理,得到多于一个的切分字段。
步骤206,从层级关键词列表中查找与切分字段对应的区域层级,并将未能查找到区域层级的切分字段作为待处理切分字段。
层级关键词列表中包括区域层级与层级字段值的对应关系,由于切分子段是与层级字段值相对应的,故而也能在层级关键词列表中查找到与切分字段对应的区域层级。
在一个实施例中,计算机设备得到的每一个切分字段都有对应的层级字段值,此时可以基于层级关键词列表查找到与每一个切分字段对应的区域层级。在另一个实施例中,计算机设备得到的切分字段中存在未与层级字段值对应的字段,此时存在无法从层级关键词列表中查找到与该切分字段对应的区域层级。
步骤208,获取与待处理地址对应的地址配置库,从地址配置库中获取与待处理切分字段对应的区域层级。
地址配置库中包括待处理地址对应的地址标识,进而可以根据地址标识从地址配置库中获取与地址标识对应的配置信息。
具体地,地址配置库是预先构建的,并且在具体实施中可以构建不同省份分别对应的地址配置库,并将对应的省份与地址配置库进行关联,以在具体实施中可以快速地获取与对应省份关联的地址配置库,并根据对应的地址配置库获取对应省份的地址信息。可以理解的是,在其他实施例中,还可以将多个省份的地址信息构建同一个地址配置库中,在具体实施例中在同一个地址配置库中查找与对应省份的地址配置信息。需要说明的是,由于在国内邮寄快递的地址中,是以省份为最高级别的行政单位,故而,在具体实施例中,可以以省份为最小单元构建每一个省份对应的地址配置库。
生活中,不论是网上购物、寄快递等,都需要填写地址。在一些情况下,地址由用户自己填写,免不了会有缺失和错误,即便完全填写正确,如何明确知道地址的各个字段也非易事。而除了中文地址,还有英文地址等其他语言的地址。对于“xxx省xx市”这样的中文地址,关键词都在后面,且有比较明确的行政区划,地址的标准化相对简单一些。而对于类似“FLT 11 22/F BLK 33AAA HSE BBB EST CCC STREET SHAM SHUI PO KLN”这样的英文地址(香港),则没有特别好的方法。
在另一个实施例中,还包括构建香港行政区对应的地址配置库,具体以香港英文地址为例进行说明。首先确定地址配置库对应的一个或者多个字段名,其中字段名可包括字段标识(ID)、地址标识、区域层级、层级深度以及不同地区之间的层级关系等。具体地,香港的地址标识可同时或者分别为地址英文名“Hong Kong”,以及地址中文名“香港”。由于香港在地理行政划分中是最高级的行政区域,故而,将香港的上一个区域层级的级别记作“”,即记作为空,香港的区域层级可以记作“region”,香港的层级深度记作“1”,并且,由于香港为最高层级的行政区域,故而可以将香港在地址配置库中的字段标识(ID)自动记作为1。需要说明的是,在其他实施例中,还可以通过其他形式来标记香港行政区域对应的字段值。其中,区域层级代表了行政区域的级别,一般来讲,对应的区域层级的等级越高(如1的等级大于2)说明对应的行政区域对应的地理范更大,以及对应的地址范围也越大。
其中,地址配置库中预先配置了不同地址标识对应的地址信息,地址信息中具体可包括区域层级。故而在具体实施中可以根据地址标识从地址配置库中获取与其对应的区域层级。需要说明的是,待处理地址中可包括多个的行政区域,如可包括层级深度为1的行政区域,还可以包括层级深度为2的行政区域等,并且不同层级深度对应的区域层级是不同的。如以香港为例进行说明,其中,香港对应的层级深度为1,对应的区域层级为“region”、香港岛对应的层级深度为2,对应的区域层级为“district”,以及九龙对应的层级深度为2,对应的区域层级为“district”。
具体地,计算机设备从地址配置库中查找切分字段对应的区域层级。由于地址配置库中存在预先配置的区域层级信息,故而可以根据地址配置库获取切分字段对应的区域层级。通过将地址配置库以及层级关键词列表进行结合,以确定切分字段对应的区域层级,使得区域层级的获取更加精准以及快速。
步骤208,根据待处理地址对应的区域层级得到标准化的地址。
具体地,计算机设备根据预先构建的地址配置库以及层级关键词列表,并从地址配置库中查找每一个切分字段对应的区域层级,进而实现了对待处理地址中的待标准化的待处理字段的标准化处理,得到待处理字段对应的区域层级,以实现获取待处理地址中的字段对应的区域层级。
上述实施例中,通过预先配置地址配置库以及层级关键词列表,然后在具体实施例中就可以直接根据预配置库获取对应的信息,进而根据获取到的信息实现对待处理地址的切分处理,进而得到标准化地址,提高了对地址的标准化处理效率。
在一个实施例中,获取待处理地址对应的层级关键词列表,包括:获取历史地址数据,对历史地址数据中的区域层级进行标注得到层级标注值;从历史地址数据中获取与层级标注值对应的层级字段值、层级字段值对应的层级关键词以及层级关键词的层级位置信息;根据每一个区域层级对应的层级标注值、层级字段值、层级关键词以及层级关键词的层级位置信息,建立每一个区域层级对应的层级关键词列表,所述层级关键词列表存储于区块链中。
考虑到地址信息的不规范,在不同的地址中,对同一个区域层级的表达方式存在区别,还包括通过在计算机设备中获取大量的历史地址数据,通过对历史地址数据进行分析,得到不同区域层级对应的层级字段值、层级关键词、以及层级关键词对应的层级位置信息,并根据层级字段值、层级关键词以及层级位置信息中的至少一个构建层级关键词列表。在一个具体的实施例中,计算机设备随机选择大约200份地址数据,并标注出地址里面“region”、“district”、“street”、“estate”、“building”、“block”、“floor”、“unit”八个区域层级的层级字段值、层级字段值对应的层级关键词以及层级关键词对应的层级位置信息(位置在前、位置在后、位置同时在前后或无)。并且,可以根据每一个区域层级建立对应的层级关键词列表,也可以将多个区域层级的层级关键词列表形成一个列列表文档,在此不作限制。
需要强调的是,为进一步保证上述层级关键词列表的私密和安全性,上述层级关键词列表还可以存储于一区块链的节点中。
上述实施例中,通过获取大量的地址数据构建层级关键词列表,使得层级关键词列表中包含的数据信息更加全面,进一步提高了后续根据层级关键词列表确定待处理地址对应的区域层级的准确性以及效率性。
在一个实施例中,如图3所示,提供了一种基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段的流程示意图,具体地,基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段,包括:
步骤302,将待处理地址中的地址字段与层级关键词列表中的层级字段值进行匹配,将匹配成功的层级字段值提取为切分字段值,将匹配成功的地址字段提取为待切分字段。
具体地,层级关键词列表中包括对应区域层级的层级标注值、层级字段值、层级关键词以及层级关键词的层级位置信息。待处理地址中包括一个或者多个的地址字段。在一个实施例中,计算机设备将待处理地址中的地址字段与各层级关键词列表中的层级字段值分别进行匹配,并将匹配成功的层级字段值提取为切分字段值,将匹配成功的地址字段提取为待切分字段。
步骤304,从层级关键词列表中获取与切分字段值对应的层级关键词,以及层级关键词对应的层级位置信息。
可以理解,待切分字段是指在层级关键词列表中具有相匹配的配置信息的字段。故而计算机设备可以根据待切分字段从对应的层级关键词列表中获取对应的配置信息,其中配置信息包括但不限于与切分字段值对应的层级标注值、层级字段值以及层级关键词的层级位置信息等。
步骤306,获取层级位置信息对应的层级位置替换符,根据层级位置替换符对待切分字段进行替换处理得到待替换地址。
具体地,计算机设备可以预先为不同的层级位置信息配置对应的层级位置替换符,如为将层级位置对应为在前关键词的位置替换符设置为“|在前关键词”,为在后关键词设置的位置替换符为“在后关键词|”等。当计算机设备根据层级关键词列表确定对应的信息为在前关键词时,执行将“在前关键词”替换为“|在前关键词”,当为在后关键词时,执行将“在后关键词”替换为“在后关键词|”,当为同时在前后关键词时,执行将“同时在前后关键词”替换为“|同时在前后关键词|”的步骤,进而得到待替换地址。
进一步地,在待处理地址中替换关键词并得到待替换地址之后,计算机设备还可以将连续的多个的“|”替换为单个的“|”,以及将首尾的“|”进行去除处理,并根据位置替换符“|”将待替换地址进行切分处理,即可得到待处理地址对应的切分字段。
步骤308,根据待替换地址中的位置替换符对待替换地址进行切分处理,得到多个切分字段。
例如待处理地址为“FLT 11 22/F BLK 33AAA HSE BBB EST CCC STREET SHAMSHUI PO KLN”,根据位置替换符“|”对待处理字段进行替换处理得到待替换地址为“FLT 1122/F|BLK 33AAA HSE|BBB EST|CCC STREET|SHAM SHUI PO|KLN”,然后以“|”字符作为切分字符,对待处理地址进行切分处理,得到包含对各切分字段对应的地址为[“FLT 11 22/F”,“BLK 33\n AAA HSE”,“BBB EST”,“CCC STREET”,“SHAM SHUI PO”,“KLN”]。其中,每一个引号中的地址信息作为一个切分字段。
上述实施例中,根据层级关键词列表实现对待处理地址的切分处理,简单易行,提高了对待处理地址的切分效率。并且层级关键词列表中的配置信息是可以随时维护的,也使得根据层级关键词列表进行切分处理更加灵活,以及适用于更多的场景。
在一个实施例中,基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段之后,方法还包括:查找切分字段中对应的层级关键词的个数;当层级关键词的个位为一个时,从层级关键词列表中查找与切分字段对应的区域层级;当层级关键词的个数为多于一个时,继续对待处理字段进行切分处理,直至得到包括一个层级关键词的切分字段。
具体地,对于切分字段中出现两个层级关键词及以上的切分字段做进一步处理。在一个具体地实施例中,区域层级“unit”和“block”对应的层级字段值中若包括两个切分字段时,两个切分字段之间会通过“,”、“\n”等标点符号分开。利用这一特性,可以把待处理地址里面的“,”、“\n”等标点符号都替换为“|”,这时类似包括多个层级关键词的层级字段值“BLK 33\n AAA HSE”也被进一步进行切分处理了,如得到“BLK 33”以及“AAA HSE”。进而实现了一个切分字段中只包括一个层级关键词,以及一个区域层级。
在另一个实施例中,对于仍然存在两个层级关键词及以上的切分字段时,还可以通过判断切分字段中是否包含“unit”和“block”这种只由两个单词组成的字段,并根据对应层级关键词的层级位置信息(如在前/后的情况)通过正则进行替换。例如对于切分字段“FLT 11 22/F”,可以通过正则表达式r”%s.+?”%(在前关键词),先提取“FLT 11”并替换其为“FLT 11|”,关键词在后的情况同理。这时就得到了只包含一个层级关键词的切分字段,如[“FLT 11”,“22/F”,“BLK 33”,“AAA HSE”,“BBB EST”,“CCC STREET”,“SHAM SHUIPO”,“KLN”]。
需要说明的是,上述实施例中以香港英文地址为例,但思路对于其他地址的标准化依然适用,在此不作限制。
上述实施例中,通过检测切分字段中包括的层级关键词个数确定对切分字段的处理方式,使得包括不同个数层级关键词的切分字段都能匹配到对应的处理方式,并根据对应的处理方式对切分字段进行处理,使得对切分字段处理的方式更加灵活、快速。
在一个实施例中,并将未能查找到区域层级的切分字段作为待处理切分字段之后,方法还包括:在待处理地址中获取与待处理切分字段相邻的相邻切分字段;获取相邻切分字段对应的相邻区域层级,以根据相邻区域层级确定待处理切分字段的区域层级;根据各切分字段对应的区域层级得到待处理地址对应的标准化地址。
在一个具体的实施例中,在层级关键词列表中查询各切分字段对应的区域层级值,当在对应的层级关键词列表中匹配到切分字段对应的区域层级时,记录匹配到的切分字段(可以将每一个切分字段以一个地址行文本的形式进行显示)所在区域层级。例如对于包括多个切分字段的地址[“FLT 11”,“22/F”,“BLK33”,“AAA HSE”,“BBB EST”,“CCCSTREET”,“SHAM SHUI PO”,“KLN”],根据对应的层级关键词列表可以获取到切分字段“AAAHSE”之后的切分字段(地址行文本)对应的区域层级,即可得切分字段“KLN”对应的区域层级为“region”,切分字段“SHAM SHUI PO”对应的区域层级为“district”等。
但是,当在对应的层级关键词列表中无法匹配到切分字段对应的区域层级时,还包括将未能确定区域层级的切分字段作为待处理切分字段,并按照其他方式对待处理切分字段进行再次处理,以确定待处理切分字段对应的区域层级。在一个实施例中,可包括推导剩余的待处理切分字段所在的区域层级。具体的,当还存在待处理切分字段时,还包括根据位置信息确定待处理切分字段对应的区域层级,例如待处理切分字段“A B C”中的A的区域层级为“unit”,C的区域层级为“block”,那么可以认为B的区域层级为“floor”。
在另一个实施例中,对于剩下的待处理切分字段以地址行的形式进行展示,若待处理切分字段是连续2行以上的情况,还可以通过确定剩下的地址行在总的地址行的上半部分还是下半部分,然后采取从上而下/从下而上推理的方法来确定,直到所有地址行都确定所在区域层级,实现对待处理地址的标准化处理。在另外的实施例中,可能存在只匹配到最后的“KLN”的情况,因为有的待处理地址不一定规范,或者行政区划可能会存在更新的情况,或者预配置的数据库存在收录信息不完全的情况。
上述实施例中,通过预先配置地址配置库以及层级关键词列表,然后在具体实施例中就可以直接根据预配置库获取对应的信息,进而根据获取到的信息实现对待处理地址的切分处理,进而得到标准化地址,提高了对地址的标准化处理效率。
在一个实施例中,获取与待处理地址对应的地址配置库,包括:获取地址标识对应的网页数据,地址标识是根据最大级别的层级深度对应的行政区域确定;从网页数据中查找与地址标识对应的子行政区域,以及地址标识对应的区域层级、各子行政区域对应的子区域层级;根据地址标识、子行政区域、区域层级以及子区域层级构建地址标识对应的地址配置库。
其中,子行政区域是地址标识对应的行政区域的下级区域。如当地址标识对应的行政区域为香港时,那么子行政区域为香港岛、九龙以及新界。
具体地,通过访问网页上的“香港”的公开介绍,可以得知香港包括三个行政区,“香港岛”、“九龙半岛”以及“新界”,并继续分别访问这三个行政区的介绍之后可继续得知这三个行政区的下级行政区,以及还可以继续访问下级行政区,直至达到地址数据获取需求为止,停止访问,并将访问到的数据继续存入数据库中,得到地址配置库。
在一个实施例中,以“香港岛”为例,其中,字段标识(ID)在地址配置库中通过自增长的方式实现,具体地,在地址配置库中将香港岛的字段标识自增长为“2”,地址标识对应的地址中文名记作“香港岛”,地址标识对应的地址英文名记作“Hong Kong Island”,上一个层级深度记作“1”(香港的层级深度为“1”),区域层级记作“district”,层级深度记作“2”。同理,“九龙半岛”的字段标识也以ID自增长的方式,并记作“3”,地址标识中的地址中文名记作“九龙半岛”,地址标识中的地址英文名记作“Kowloon Peninsula”,以及上一个层级深度记作“1”,区域层级记作“district”,层级深度记作“2”。并且,继续通过访问下一级行政区的公开介绍,并将访问到的数据按照以上存储的方式将数据存入数据库中,即可建立行政区划数据库即包括地址信息的地址配置库。
需要说明的是,以上的数据存储方式中,其中区域层级就像“省/直辖市”、“地级市”、“县级市/区”一样,理应结合国家的行政区划来记录,这里因为香港地址没有明确的层级划分,所以具体实施中可以结合地址标准化的实际需求,人为地分为“region”、“district”、“street”、“estate”、“building”、“block”、“floor”、“unit”八个区域层级。在其他实施例中,还可以通过设置其他规则来进行区域层级的确定。
其中,地址配置库中包括一个或者多个行政区域的相关信息,如行政区域具体可以是某一个或者多个省份、市区以及县等。相关信息具体可以是对应的行政区域所属的区域层级、层级深度以及不同行政区域之间的层级关系。其中,区域层级可以分为“省”“市”“县”“镇”“村”等多个层级,层级深度可以是对区域层级的量化值,具体可用于表征对应区域层级的级别大小,如可以将对应为“省”的区域层级的层级深度设置为1,将对应为“市”的区域层级的层级深度设置为2,并且设置1的级别大于2。层级关系用于表征不同行政区域之间的级别关系,如层级深度为1的行政区域为层级深度为2的行政区域的上一个级别。
在一个实施例中,当地址配置库对应为山东省的配置库时,可知山东省为行政区类别“省”、山东省包括多个市区,并且每一个市区对应的行政区类别为“地级市”,以及地级市中还包括多个县,并且县对应的行政区类别为“县”。具体的,根据行政区划分规则可知,“省”的级别大于“地级市”,地级市的级别大于县,故而可以设定“省”的层级深度为1,地级市的层级深度为2,以及县的层级深度为3。以及,可知山东省的地级市包括济南市、青岛市、菏泽市等,菏泽市的下辖县包括曹县、巨野以及定陶等,故而,还可以设定山东省的区域层级设置为“省”、济南市、青岛市、菏泽市等区域层级设置为“市”、曹县、巨野以及定陶等区域层级设置为“县”。进一步地,还可以设置不同区域层级之间的层级关系,如设置区域层级为“省”的地区的上一个区域层级为“”(为空),设置区域层级值为“市”的地区的上一个区域层级为1(为省的区域层级),设置区域层级为“县”的地区的上一个区域层级为2(为地级市的区域层级)。
在另一个实施例中,在构建香港行政区对应的地址配置库时,首先以最高行政级别的香港为例,在数据库中首先存入第一条数据,各字段如下:字段标识(ID)通过自增长的方式确定,首先确定为“1”,并且地址标识中的中文名记作“香港”,地址标识中的地址英文名记作“Hong Kong”,上一个层级深度记作“”,区域层级记作“region”,以及层级深度记作“1”。然后继续获取香港对应的地级区域数据,并根据不同地级区域数据之间以及地级区域数据与香港之间的关系,继续配置数据库中的数据,以得到最终的地址配置库。通过预先配置规则的方式,然后在具体实施中可以按照预设的规则自动生成地址配置库,提高了地址配置库的生成效率,以及由于网站上的数据都是实时更新的,故而通过自动从网站中爬取数据的方式也保证了地址配置库中的数据是最新的数据,以及提高了地址配置库的准确性。
在一个实施例中,方法还包括:获取地址配置库,从地址配置库中提取个性化配置信息;按照预设规则对个性化配置信息进行通用化处理,以将地址配置库中的个性化配置信息转换为通用配置信息。
具体地,优化行政区划数据库。结合实际情况,人工对部分数据进行修改。例如“九龙半岛”,在实际应用中更多地使用“九龙”,英文一般也写成“Kowloon”而非“KowloonPeninsula”。
在一个实施例中,方法还包括:获取区域更新信息,根据区域更新对地址配置库进行更新处理。具体可以实现在地址配置库中补充未赋值的区域层级,或者对地址配置库中的地址进行纠错处理或者补全处理等。例如,在真实的地址书写中,可能存在漏写或者错写“district”等区域层级的情况,导致即使是标准化后的地址中也会存在区域层级信息的缺失。在一个实施例中,预先在地址配置库中存储了地址的配置信息,故而可以根据地址配置库获取待处理地址中未填写的地址信息。如可以通过查询地址配置库,以补充/更正这些区域层级的层级字段值。在具体实施中,对于任一个行政区域,可以通过在地址配置库中不断查询该行政区域的上一级的ID,进而可以获取当前行政区域所属的所有的上级的行政区域。并且地址配置库的数据是分别独立的,使得在具体的查询过程中就像一个行政区划树一样,查询效率很高。如只要“building”在待处理地址中出现,且在地址配置库中可以查询到,那么从“building”往上的每一级行政区划(到“region”)都是确定的,那么就可以进行补全和纠错。而对于同名的情况,也只需要多判断一个原始地址的其他字段是否存在于当前行政区划即可。
在一个具体的实施例中,首先设置地址配置库,地址配置库中预先存储了对应行政区域以及子行政区域分别对应的区域层级、层级深度以及层级关系。进而在实际应用时,可以通过地址配置库直接获取对应的区域层级等数据,提高了数据获取的效率。
并通过预先配置层级关键词列表,在具体实施例中就可以直接根据预配置的层级关键词列表获取对应的配置信息,进而根据获取到的配置信息实现对待处理地址的切分处理得到切分字段,并得到每一个切分字段对应的区域层级,进而得到包含区域层级信息的标准化地址,提高了对地址的标准化处理效率。
上述实施例中,上述实施例中采用地址配置库和层级关键词列表相结合的方式,可以比较精确地实现地址标准化,同时地址配置库的构建简单、快捷。且极少采用正则表达式,代码便于修改和维护。覆盖面广,对于填写不是特别完整的地址也可以实现标准化,具有一定的鲁棒性,以及同时还支持地址补全和纠错。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种地址标准化装置,包括:
第一获取模块402,用于获取待处理地址对应的层级关键词列表。
第一切分模块404,用于基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段。
查找模块406,用于从层级关键词列表中查找与切分字段对应的区域层级,并将未能查找到区域层级的切分字段作为待处理切分字段。
第二获取模块408,用于获取与待处理地址对应的地址配置库,从地址配置库中获取与待处理切分字段对应的区域层级。
标准化模块410,用于根据待处理地址对应的区域层级得到标准化的地址。
在一个实施例中,第一获取模块402还用于获取历史地址数据,对历史地址数据中的区域层级进行标注得到层级标注值;从历史地址数据中获取与层级标注值对应的层级字段值、层级字段值对应的层级关键词以及层级关键词的层级位置信息;根据每一个区域层级对应的层级标注值、层级字段值、层级关键词以及层级关键词的层级位置信息,建立每一个区域层级对应的层级关键词列表。
在一个实施例中,第一切分模块404还用于将待处理地址中的地址字段与层级关键词列表中的层级字段值进行匹配,将匹配成功的层级字段值提取为切分字段值,将匹配成功的地址字段提取为待切分字段;从层级关键词列表中获取与切分字段值对应的层级关键词,以及层级关键词对应的层级位置信息;获取层级位置信息对应的层级位置替换符,根据层级位置替换符对待切分字段进行替换处理得到待替换地址;根据待替换地址中的位置替换符对待替换地址进行切分处理,得到多个切分字段。
在一个实施例中,装置还包括第二切分模块,第二切分模块用于查找切分字段中对应的层级关键词的个数;当层级关键词的个位为一个时,从层级关键词列表中查找与切分字段对应的区域层级;当层级关键词的个数为多于一个时,继续对待处理字段进行切分处理,直至得到包括一个层级关键词的切分字段。
在一个实施例中,装置还包括第三切分模块,第三切分模块用于在待处理地址中获取与待处理切分字段相邻的相邻切分字段;获取相邻切分字段对应的相邻区域层级,以根据相邻区域层级确定待处理切分字段的区域层级;根据各切分字段对应的区域层级得到待处理地址对应的标准化地址。
在一个实施例中第二获取模块408还用于获取地址标识对应的网页数据,地址标识是根据最大级别的层级深度对应的行政区域确定;从网页数据中查找与地址标识对应的子行政区域,以及地址标识对应的区域层级、各子行政区域对应的子区域层级;根据地址标识、子行政区域、区域层级以及子区域层级构建地址标识对应的地址配置库。
关于地址标准化装置的具体限定可以参见上文中对于地址标准化方法的限定,在此不再赘述。上述地址标准化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器或者终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储地址标准化数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址标准化方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体地计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待处理地址对应的层级关键词列表;基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段;从层级关键词列表中查找与切分字段对应的区域层级,并将未能查找到区域层级的切分字段作为待处理切分字段;获取与待处理地址对应的地址配置库,从地址配置库中获取与待处理切分字段对应的区域层级;根据待处理地址对应的区域层级得到标准化的地址。
在一个实施例中,该处理器执行计算机程序时还用于实现以下步骤:获取历史地址数据,对历史地址数据中的区域层级进行标注得到层级标注值;从历史地址数据中获取与层级标注值对应的层级字段值、层级字段值对应的层级关键词以及层级关键词的层级位置信息;根据每一个区域层级对应的层级标注值、层级字段值、层级关键词以及层级关键词的层级位置信息,建立每一个区域层级对应的层级关键词列表。
在一个实施例中,该处理器执行计算机程序时还用于实现以下步骤:将待处理地址中的地址字段与层级关键词列表中的层级字段值进行匹配,将匹配成功的层级字段值提取为切分字段值,将匹配成功的地址字段提取为待切分字段;从层级关键词列表中获取与切分字段值对应的层级关键词,以及层级关键词对应的层级位置信息;获取层级位置信息对应的层级位置替换符,根据层级位置替换符对待切分字段进行替换处理得到待替换地址;根据待替换地址中的位置替换符对待替换地址进行切分处理,得到多个切分字段。
在一个实施例中,该处理器执行计算机程序时还用于实现以下步骤:查找切分字段中对应的层级关键词的个数;当层级关键词的个位为一个时,从层级关键词列表中查找与切分字段对应的区域层级;当层级关键词的个数为多于一个时,继续对待处理字段进行切分处理,直至得到包括一个层级关键词的切分字段。
在一个实施例中,该处理器执行计算机程序时还用于实现以下步骤:在待处理地址中获取与待处理切分字段相邻的相邻切分字段;获取相邻切分字段对应的相邻区域层级,以根据相邻区域层级确定待处理切分字段的区域层级;根据各切分字段对应的区域层级得到待处理地址对应的标准化地址。
在一个实施例中,该处理器执行计算机程序时还用于实现以下步骤:获取地址标识对应的网页数据,地址标识是根据最大级别的层级深度对应的行政区域确定;从网页数据中查找与地址标识对应的子行政区域,以及地址标识对应的区域层级、各子行政区域对应的子区域层级;根据地址标识、子行政区域、区域层级以及子区域层级构建地址标识对应的地址配置库。
在一个实施例中,该处理器执行计算机程序时还用于实现以下步骤:获取地址配置库,从地址配置库中提取个性化配置信息;按照预设规则对个性化配置信息进行通用化处理,以将地址配置库中的个性化配置信息转换为通用配置信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待处理地址对应的层级关键词列表;基于层级关键词列表中的层级字段值对待处理地址进行切分处理得到切分字段;从层级关键词列表中查找与切分字段对应的区域层级,并将未能查找到区域层级的切分字段作为待处理切分字段;获取与待处理地址对应的地址配置库,从地址配置库中获取与待处理切分字段对应的区域层级;根据待处理地址对应的区域层级得到标准化的地址。
在一个实施例中,计算机程序被处理器执行时还用于实现以下步骤:获取历史地址数据,对历史地址数据中的区域层级进行标注得到层级标注值;从历史地址数据中获取与层级标注值对应的层级字段值、层级字段值对应的层级关键词以及层级关键词的层级位置信息;根据每一个区域层级对应的层级标注值、层级字段值、层级关键词以及层级关键词的层级位置信息,建立每一个区域层级对应的层级关键词列表。
在一个实施例中,计算机程序被处理器执行时还用于实现以下步骤:将待处理地址中的地址字段与层级关键词列表中的层级字段值进行匹配,将匹配成功的层级字段值提取为切分字段值,将匹配成功的地址字段提取为待切分字段;从层级关键词列表中获取与切分字段值对应的层级关键词,以及层级关键词对应的层级位置信息;获取层级位置信息对应的层级位置替换符,根据层级位置替换符对待切分字段进行替换处理得到待替换地址;根据待替换地址中的位置替换符对待替换地址进行切分处理,得到多个切分字段。
在一个实施例中,计算机程序被处理器执行时还用于实现以下步骤:查找切分字段中对应的层级关键词的个数;当层级关键词的个位为一个时,从层级关键词列表中查找与切分字段对应的区域层级;当层级关键词的个数为多于一个时,继续对待处理字段进行切分处理,直至得到包括一个层级关键词的切分字段。
在一个实施例中,计算机程序被处理器执行时还用于实现以下步骤:在待处理地址中获取与待处理切分字段相邻的相邻切分字段;获取相邻切分字段对应的相邻区域层级,以根据相邻区域层级确定待处理切分字段的区域层级;根据各切分字段对应的区域层级得到待处理地址对应的标准化地址。
在一个实施例中,计算机程序被处理器执行时还用于实现以下步骤:获取地址标识对应的网页数据,地址标识是根据最大级别的层级深度对应的行政区域确定;从网页数据中查找与地址标识对应的子行政区域,以及地址标识对应的区域层级、各子行政区域对应的子区域层级;根据地址标识、子行政区域、区域层级以及子区域层级构建地址标识对应的地址配置库。
在一个实施例中,计算机程序被处理器执行时还用于实现以下步骤:获取地址配置库,从地址配置库中提取个性化配置信息;按照预设规则对个性化配置信息进行通用化处理,以将地址配置库中的个性化配置信息转换为通用配置信息。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种地址标准化方法,其特征在于,所述方法包括:
获取待处理地址对应的层级关键词列表;
基于所述层级关键词列表中的层级字段值对所述待处理地址进行切分处理得到切分字段;
从所述层级关键词列表中查找与所述切分字段对应的区域层级,并将未能查找到区域层级的所述切分字段作为待处理切分字段;
获取与所述待处理地址对应的地址配置库,从所述地址配置库中获取与所述待处理切分字段对应的区域层级;
根据所述待处理地址对应的区域层级得到标准化的地址。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理地址对应的层级关键词列表,包括:
获取历史地址数据,对所述历史地址数据中的区域层级进行标注得到层级标注值;
从所述历史地址数据中获取与所述层级标注值对应的层级字段值、所述层级字段值对应的层级关键词以及所述层级关键词的层级位置信息;
根据每一个所述区域层级对应的所述层级标注值、所述层级字段值、所述层级关键词以及所述层级关键词的层级位置信息,建立每一个区域层级对应的层级关键词列表,所述层级关键词列表存储于区块链中。
3.根据权利要求2所述的方法,其特征在于,所述基于所述层级关键词列表中的层级字段值对所述待处理地址进行切分处理得到切分字段,包括:
将所述待处理地址中的地址字段与所述层级关键词列表中的所述层级字段值进行匹配,将匹配成功的所述层级字段值提取为切分字段值,将匹配成功的所述地址字段提取为待切分字段;
从所述层级关键词列表中获取与所述切分字段值对应的层级关键词,以及所述层级关键词对应的层级位置信息;
获取所述层级位置信息对应的层级位置替换符,根据所述层级位置替换符对所述待切分字段进行替换处理得到待替换地址;
根据所述待替换地址中的所述位置替换符对所述待替换地址进行切分处理,得到多个切分字段。
4.根据权利要求3所述的方法,其特征在于,所述基于所述层级关键词列表中的层级字段值对所述待处理地址进行切分处理得到切分字段之后,所述方法还包括:
查找所述切分字段中对应的层级关键词的个数;
当所述层级关键词的个位为一个时,从所述层级关键词列表中查找与所述切分字段对应的区域层级;
当所述层级关键词的个数为多于一个时,继续对所述待处理字段进行切分处理,直至得到包括一个层级关键词的切分字段。
5.根据权利要求1所述的方法,其特征在于,所述并将未能查找到区域层级的所述切分字段作为待处理切分字段之后,所述方法还包括:
在所述待处理地址中获取与所述待处理切分字段相邻的相邻切分字段;
获取所述相邻切分字段对应的相邻区域层级,以根据所述相邻区域层级确定所述待处理切分字段的区域层级;
根据各所述切分字段对应的区域层级得到所述待处理地址对应的标准化地址。
6.根据权利要求1所述的方法,其特征在于,所述获取与所述待处理地址对应的地址配置库,包括:
获取地址标识对应的网页数据,所述地址标识是根据最大级别的层级深度对应的行政区域确定;
从所述网页数据中查找与所述地址标识对应的子行政区域,以及所述地址标识对应的区域层级、各所述子行政区域对应的子区域层级;
根据所述地址标识、所述子行政区域、所述区域层级以及所述子区域层级构建所述地址标识对应的地址配置库。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取地址配置库,从所述地址配置库中提取个性化配置信息;
按照预设规则对所述个性化配置信息进行通用化处理,以将所述地址配置库中的个性化配置信息转换为通用配置信息。
8.一种地址标准化装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理地址对应的层级关键词列表;
切分模块,用于基于所述层级关键词列表中的层级字段值对所述待处理地址进行切分处理得到切分字段;
查找模块,用于从所述层级关键词列表中查找与所述切分字段对应的区域层级,并将未能查找到区域层级的所述切分字段作为待处理切分字段;
第二获取模块,用于获取与所述待处理地址对应的地址配置库,从所述地址配置库中获取与所述待处理切分字段对应的区域层级;
标准化模块,用于根据所述待处理地址对应的区域层级得到标准化的地址。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011278707.0A CN112364114A (zh) | 2020-11-16 | 2020-11-16 | 地址标准化方法、装置、计算机设备和存储介质 |
PCT/CN2021/109461 WO2022100154A1 (zh) | 2020-11-16 | 2021-07-30 | 基于人工智能的地址标准化方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011278707.0A CN112364114A (zh) | 2020-11-16 | 2020-11-16 | 地址标准化方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364114A true CN112364114A (zh) | 2021-02-12 |
Family
ID=74514957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011278707.0A Pending CN112364114A (zh) | 2020-11-16 | 2020-11-16 | 地址标准化方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112364114A (zh) |
WO (1) | WO2022100154A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704574A (zh) * | 2021-08-27 | 2021-11-26 | 北京市律典通科技有限公司 | 地址标准化的方法及装置 |
CN114003812A (zh) * | 2021-10-29 | 2022-02-01 | 深圳壹账通智能科技有限公司 | 地址匹配方法、系统、设备及存储介质 |
WO2022100154A1 (zh) * | 2020-11-16 | 2022-05-19 | 深圳壹账通智能科技有限公司 | 基于人工智能的地址标准化方法、装置、设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251517B (zh) * | 2023-09-12 | 2024-05-17 | 河南省农业科学院农业经济与信息研究所 | 大数据视野下的年鉴行政区划信息匹配方法和模型 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182975A1 (en) * | 2008-01-11 | 2009-07-16 | International Business Machines Corporation | Dynamic address translation with load page table entry address |
CN106557896A (zh) * | 2015-09-25 | 2017-04-05 | 阿里巴巴集团控股有限公司 | 网络数据处理方法、装置及系统 |
CN109033086A (zh) * | 2018-08-03 | 2018-12-18 | 银联数据服务有限公司 | 一种地址解析、匹配的方法及装置 |
CN111724110A (zh) * | 2020-06-16 | 2020-09-29 | 苏宁云计算有限公司 | 地址信息处理方法、装置、计算机设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970903B (zh) * | 2016-01-13 | 2020-08-04 | 菜鸟智能物流控股有限公司 | 物流系统中地址信息的处理方法及装置 |
CN109670122A (zh) * | 2018-09-25 | 2019-04-23 | 平安科技(深圳)有限公司 | 地址信息回填方法、装置、设备及计算机可读存储介质 |
CN111914557A (zh) * | 2020-07-31 | 2020-11-10 | 上海燕汐软件信息科技有限公司 | 地址解析方法、装置、设备及计算机可读存储介质 |
CN112364114A (zh) * | 2020-11-16 | 2021-02-12 | 深圳壹账通智能科技有限公司 | 地址标准化方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-16 CN CN202011278707.0A patent/CN112364114A/zh active Pending
-
2021
- 2021-07-30 WO PCT/CN2021/109461 patent/WO2022100154A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182975A1 (en) * | 2008-01-11 | 2009-07-16 | International Business Machines Corporation | Dynamic address translation with load page table entry address |
CN106557896A (zh) * | 2015-09-25 | 2017-04-05 | 阿里巴巴集团控股有限公司 | 网络数据处理方法、装置及系统 |
CN109033086A (zh) * | 2018-08-03 | 2018-12-18 | 银联数据服务有限公司 | 一种地址解析、匹配的方法及装置 |
CN111724110A (zh) * | 2020-06-16 | 2020-09-29 | 苏宁云计算有限公司 | 地址信息处理方法、装置、计算机设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022100154A1 (zh) * | 2020-11-16 | 2022-05-19 | 深圳壹账通智能科技有限公司 | 基于人工智能的地址标准化方法、装置、设备和存储介质 |
CN113704574A (zh) * | 2021-08-27 | 2021-11-26 | 北京市律典通科技有限公司 | 地址标准化的方法及装置 |
CN113704574B (zh) * | 2021-08-27 | 2024-02-09 | 北京市律典通科技有限公司 | 地址标准化的方法及装置 |
CN114003812A (zh) * | 2021-10-29 | 2022-02-01 | 深圳壹账通智能科技有限公司 | 地址匹配方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022100154A1 (zh) | 2022-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364114A (zh) | 地址标准化方法、装置、计算机设备和存储介质 | |
WO2016165538A1 (zh) | 一种地址数据的管理方法和装置 | |
JP5917719B2 (ja) | 画像データベースにおける画像管理のための方法、装置、および、コンピュータで読取り可能な記録媒体 | |
CN112069276B (zh) | 地址编码方法、装置、计算机设备及计算机可读存储介质 | |
CN108228825B (zh) | 一种基于分词的用户地址数据清洗方法 | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN108733810B (zh) | 一种地址数据匹配方法及装置 | |
CN108228657B (zh) | 一种关键字检索的实现方法及装置 | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
US9542471B2 (en) | Method of building a geo-tree | |
CN111859093A (zh) | 敏感词处理方法、装置及可读存储介质 | |
CN109783589B (zh) | 电子地图解析地址的方法、装置及存储介质 | |
CN110557800B (zh) | 一种用于识别无线热点的类型的方法及其网络设备 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN114595302A (zh) | 空间要素的多层级空间关系构建方法、装置、介质及设备 | |
CN110688995B (zh) | 地图查询的处理方法,计算机可读存储介质和移动终端 | |
CN105930478A (zh) | 基于要素对象空间信息指纹的空间数据变化捕获方法 | |
CN116680278A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112307169A (zh) | 地址数据的匹配方法、装置、计算机设备及存储介质 | |
CN112433753A (zh) | 基于参数信息的接口文档生成方法、装置、设备和介质 | |
CN108572948B (zh) | 门牌信息的处理方法及装置 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
Christen et al. | A probabilistic geocoding system utilising a parcel based address file | |
CN112861532B (zh) | 地址标准化处理方法、装置、设备及在线搜索系统 | |
CN116431625A (zh) | 一种地理实体的定位分析方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40045442 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210212 |