CN116414808A - 详细地址规范化的方法、装置、计算机设备和存储介质 - Google Patents
详细地址规范化的方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116414808A CN116414808A CN202111640415.1A CN202111640415A CN116414808A CN 116414808 A CN116414808 A CN 116414808A CN 202111640415 A CN202111640415 A CN 202111640415A CN 116414808 A CN116414808 A CN 116414808A
- Authority
- CN
- China
- Prior art keywords
- address
- text
- normalized
- administrative division
- detailed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000010606 normalization Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000012937 correction Methods 0.000 claims abstract description 18
- 230000014509 gene expression Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 14
- 238000006467 substitution reaction Methods 0.000 claims description 6
- 108091026890 Coding region Proteins 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims 1
- 238000012217 deletion Methods 0.000 abstract description 7
- 230000037430 deletion Effects 0.000 abstract description 7
- 239000000203 mixture Substances 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 11
- 239000004576 sand Substances 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003997 social interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 108010015780 Viral Core Proteins Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 239000013535 sea water Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000008399 tap water Substances 0.000 description 1
- 235000020679 tap water Nutrition 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种详细地址规范化的方法、装置、计算机设备和存储介质,包括:获取行政区划规范后的预规范化地址文本;根据标准POI地址元数据库对预规范化地址文本中的冗余字段进行判定删除;对预规范化地址文本中下级行政单位进行规范;对预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理;对预规范化地址文本中非地址文本进行信息补全。该方法具体是将地址中行政区划归属识别规范化后的文本进一步的规范,并将文本中的详细地址文本根据字符组成通过选择文本纠正进行处理;同时对冗余地址文本信息进行判定后再删除,避免仅根据语义判断的误删,从而可以有效避免详细地址匹配出现漏识别或误识别等情况。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及详细地址规范化的方法、装置、计算机设备和存储介质。
背景技术
随着以计算机网络、卫星技术、光缆为代表的现代通讯技术和现代化交通的飞速发展,人类的活动空间迅速扩大、社会交往日益频繁,地名作为人们在社会交往中使用最频繁、用途最广泛的工具之一,一方面其社会价值和社会地位不断提高,表现为地名使用范围越来越大,频率越来越高,使用的手段越来越多,另一方面,也对地名称谓的统一,书写的一致性提出了更加严格的要求。地名称谓的不一致、书写和译写的不统一、一地多名、一名多地(重名)、一名多写(一个地名多种书写形式)等不规范问题。具体在地理信息导航、收派件业务的应用场景中,由于用户习惯、书写错误等原因,输入的部分地址存在信息缺失、信息错误、信息冗余等情况,从而造成算法难以对地址进行精准识别和定位,无法返回精准单元区域,而返回的不精准或错误单元区域,一方面会影响快件的时效性,另一方面还会导致运输或转寄成本的增加。
尽管可以通过有关系统和人工方式,针对非标准化的地址,进行了标准化的提升,但其效果差强人意。此外,原有的方法因为其系统不完善性,时常存在逆向错误的现象,即改写的过程中,将部分正确的地址修改错误的情况。
发明内容
有鉴于此,有必要针对上述技术问题,本发明第一方面提供一种详细地址规范化的方法,包括:
获取行政区划规范后的预规范化地址文本;
根据标准POI地址元数据库对所述预规范化地址文本中的冗余字段进行判定删除;
对所述预规范化地址文本中下级行政单位进行规范;
对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理;
对所述预规范化地址文本中非地址文本进行信息补全。
进一步地,所述对所述预规范化地址文本中的冗余字段进行判定删除包括:
如果对应的所述POI地址元数据包含与上一级重复的标准行政区划字段,则不对所述预规范化地址文本中相应的重复标准行政区划字段进行删除;
如果对应的所述POI地址元数据包含人名字段,则不对所述预规范化地址文本中相应的人名字段进行删除。
进一步地,所述对所述预规范化地址文本中下级行政单位进行规范包括:提取所述预规范化地址文本中的街道级行政区划字段后缀;
将所述后缀替换为与所述预规范化地址文本中上级行政区划链所匹配的行政单位。
进一步地,所述对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理包括:
提取所述预规范化地址文本中除行政区划外的多个详细地址字段;
对所述多个详细地址字段提取关键地址元素,根据所述关键地址元素和标准详细地址元数据库进行匹配替换;
或者,根据正则表达式对所述多个详细地址字段进行的匹配替换。
进一步地,所述对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理包括:
提取所述预规范化地址文本中除行政区划外的多个详细地址字段;
将每个所述详细地址字段切分为第一地址元素、第二地址元素;
根据所述第一地址元素将所述多个详细地址字段分配至至少一个对应的第二地址元素匹配节点;
在所述第二地址元素匹配节点中,根据正则表达式对所述第二地址元素进行匹配替换。
进一步地,所述获取行政区划规范后的预规范化地址文本包括:
获取原始地址编码和预处理后的第一地址文本;
对所述第一地址文本中行政区划进行命名实体识别,获取第二地址文本;
将原始地址编码进行扩展,形成覆盖所述第二地址文本对应的行政区划编码序列;
根据所述行政区划编码序列和标准行政区划元数据库,将所述第二地址文本替换为标准行政区划,从而获取预规范化地址文本。
进一步地,所述预处理包括冗余符号删减、半角转全角、小写转大写、繁体转简体中至少一种或者几种。
本发明第二方面提供一种详细地址规范化的装置,包括:
获取单元,用于获取行政区划规范后的预规范化地址文本;
冗余判定删除单元,用于根据标准POI地址元数据库对所述预规范化地址文本中的冗余字段进行判定删除;
行政单位规范单元,用于对所述预规范化地址文本中下级行政单位进行规范;
详细地址规范单元,用于对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理;
非地址信息补全单元,用于对所述预规范化地址文本中非地址文本进行信息补全。
本发明第三方面提供一种详细地址规范化系统,包括详细地址规范化的装置,所述装置用于:获取行政区划规范后的预规范化地址文本;根据标准POI地址元数据库对所述预规范化地址文本中的冗余字段进行判定删除;对所述预规范化地址文本中下级行政单位进行规范;对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理;对所述预规范化地址文本中非地址文本进行信息补全。
本发明第四方面提供一种地址标准化处理的方法,包括:
提供微服务架构,通过前端接口输入原始地址文本和原始地址编码;
调用如上所述的详细地址规范化系统,获取规范化详细地址;
监测所述的详细地址规范化系统运行异常次数超过给定阈值时,所述微服务执行熔断机制;
通过数据回溯与指标验证接口完成微服务架构数据迭代。
本发明第五方面提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法的步骤。
本发明第六方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
由以上技术方案可见,本发明提供的详细地址规范化的方法,通过冗余信息过滤方法剔除无意义的文本,提升地址文本的蕴含信息密度。通过对街道级地址进行拓展推断,可快速发现新地名并关联已有地址元数据库地名实体。再通过文本纠正和自动补全处理可进一步提升地址规范化的正确率、命中率,其具体处理逻辑主要来源于对海量地址数据的解逆向分析,通过评估解逆向结果,整理归纳得到文本优化处理规则。最后,对各环节处理的结果进行组合拼接,得到规范化的完整地址描述文本。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提出的详细地址规范化的方法的流程示意图;
图2为本发明一实施例提出的详细地址规范化的方法步骤S2的流程示意图;
图3为本发明一实施例提出的详细地址规范化的方法步骤S4的流程示意图。
具体实施方式
下为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本实施例中详细地址规范化方法可以被配置在详细地址规范化方法装置中,该装置可以设置在服务器或者微服务架构中,也可以设置在电子设备中,本发明对此不作限制。
在现有技术中,当前的地址标准化匹配识别的技术容易出现信息冗余、行政单元不规范、详细地址匹配出现漏识别或误识别等情况,识别效果不佳。
为了解决上述技术问题,本实施例以详细地址规范化的方法被配置在微服务架构中为例,提供一种详细地址规范化的方法,该方法具体是将地址中行政区划归属识别规范化后的文本进行进一步的规范,并根据文本中的详细地址的字符组成判断,来选择通过文本纠正、正则表达式和类似正则表达式的方法,文本纠正是将每个空间区域的地址都与唯一标准详细地址进行匹配,在通过正则表达对地址文本进行规范;同时对冗余的地址文本信息进行判定后再删除,避免仅根据语义判断的信息误删,从而可以有效避免详细地址匹配出现漏识别或误识别等情况;此外,还对地址文本进行行政单元规范、非地址文本信息的补全,能够有效提详细地址规范化的效果。
如图1为本发明第一个实施例提出的详细地址规范化的方法的流程示意图,本实施例以详细地址规范化的方法被配置在微服务架构中为例,该方法包括以下步骤:
S1:获取行政区划规范后的预规范化地址文本;
S2:根据标准POI地址元数据库对所述预规范化地址文本中的冗余字段进行判定删除;
S3:对所述预规范化地址文本中下级行政单位进行规范;
S4:对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理;
S5:对所述预规范化地址文本中非地址文本进行信息补全。
需要说明的是,详细地址是指地址文本具体到某一POI地址的楼栋号、单元号、楼层号、房间号,甚至可以进一步具体到房间的户主人、租房人、联系人、法人代表及相应电话联系方式等,该详细地址可以应用于物流妥投、管理部门(例如:供电局、自来水公司、物业)提供服务或者行政机构(例如:公安局、政府部门)提供管辖等应用场景。具体地,POI(英文全称Point of Interest),可以翻译成"兴趣点",也有些叫做"Point of Information",即"信息点",电子地图上的某一具体景点、政府机构、公司、商场、饭馆、小区、工业园区等。
具体地,在步骤S2中,根据标准POI地址元数据库对所述预规范化地址文本中的冗余字段进行判定删除,主要是为了剔除无意义的文本,提升地址文本的蕴含信息密度;更具体地,包括对地址中进行字符处理,遍历预规范化地址文本并删除地址文本中的无意义字符;提供一个示例,地址文本为“广东省深圳市南山区深圳市南山区粤海街道软件产业基地XX栋”会被精简描述为“广东省深圳市南山区粤海街道软件产业基地XX栋”。但需要注意的是,冗余信息过滤并不是简单地文本去重,需要充分的考虑文本是否冗余无意义。如图2所示,该判定环节主要包括以下两个逻辑步骤:
S21:地名删除处理:如果对应的所述POI地址元数据包含与上一级重复的标准行政区划字段,则不对所述预规范化地址文本中相应的重复标准行政区划字段进行删除;
S22:人名删除处理:如果对应的所述POI地址元数据包含人名字段,则不对所述预规范化地址文本中相应的人名字段进行删除。
具体地,在步骤S21中,由于用户的书写习惯,预规范化地址文本中可能由于一些POI地址名称中会包含行政区划会和前面规范化后的行政区划地址文本进行重复,而现有算法往往会对重复的行政区划字段进行直接删除,但这有可能会导致POI地址名称错误。提供一个示例,地址文本为“广东省深圳市南山区南山区税务局XX栋”不能精简描述为“广东省深圳市南山区税务局XX栋”,因为“南山区税务局”与POI地址元数据匹配,且南山区空间区域中可能同时存在“南山区税务局”和“深圳市税务局”,删除“南山区税务局”中的“南山区”的行政区划字段,可能会造成详细地址的不明。故增加判断处理配置,预规范化地址文本中对于含有固定行政区划字段的POI,不会进行重复行政区划文本的删除。
具体地,步骤S22中,由于部分用户会将人名写到地址文本中,导致地址中存在无效冗余信息,所以增加了人名删除配置。但是由于一些POI名称中会包含人名,而现有算法往往会对人名进行直接删除,但这有可能会导致POI地址名称错误。提供几个示例,地址文本为“屈原礁”、“仲恺农业工程学院”、“欧阳海水库”中的POI地址都包括地名,但不能对其中的人名进行删除,因为该人名是与POI地址元数据匹配,隶属地名命名规则,删除相应的人名则形成“礁”、“农业工程学院”、“海水库”,可能会造成详细地址的不明。故增加判断处理配置,预规范化地址文本中对于含有固定人名字段的POI,不会进行人名文本的删除。需要说明的是,一些行政区划中也包含人名,但一般在行政区划规范化中已经被识别和标准化了,因此在本次环节主要是对具体的POI地址名称。
根据一种具体的实施方式,步骤S2中冗余字段的删除主要借助字典树的思想,将配置特殊的POI地址数据以哈希树的方式导入微服务架构中,降低算法的时间复杂度,从而将预规范地址文本中特殊的POI进行快速匹配,并判断是否为冗余信息进行相应的保留或者删除的操作。字典树又称单词查找树,是一种树形结构,是哈希表的变种,利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较。字典树的每个节点包含多个属性,主要有字符值、(词组)是否结束、子节点地址、到根节点的路径长度。存储时,根节点的字符值为空,子节点地址为配置文件中每条文本的第一个字符,孙子节点地址为第二个字符,以此类推,直至结束。字典树的核心思想:利用字符串的公共前缀来降低查询时间的开销已达到提高查询的目的。基本性质:①根节点不包含字符,除根节点外每个节点都只包含一个字符;②从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;③每个节点的所有子节点包含的字符都不相同。
具体地,在步骤S3中,街道级地址拓展推断主要是针对“街道”、“乡”、“镇”、“街道办”、“办事处”、“农场”、“经济开发区”等候选地名实体做拓展推断,与省市区行政区划链进行匹配。具体步骤包括:
S31:提取所述预规范化地址文本中的街道级行政区划字段后缀;
S32:将所述后缀替换为与所述预规范化地址文本中上级行政区划链所匹配的行政单位。
根据一种具体地实施方式,将行政区划集合中属于乡镇街道级别的地名进行修改,具体方法步骤如下:
S31:遍历与规范化地址文本,识别出街道级行政区划地名的后缀,如果包含于:“街道”、“乡”、“镇”、“街道办”、“办事处”、“农场”、“经济开发区”集合,则删除该后缀;
S32:将后缀替换为与预规范化地址文本中上级行政区划链所匹配的行政单位,组成新的地名词条,需要注意的是,这些新的地名词条不能独立应用于行政区划推断,必须在省市区行政区划链完整的情况下进行拓展。如下表1所示:
表1预规范化地址文本中“广东省深圳市南山区”和“广东揭阳市惠来县”街道级地址扩展推断逻辑
更具体地,如上表1中序号1,预规范化地址文本为“广东省深圳市南山区沙河镇”根据行政区划链“广东省深圳市南山区”,将“沙河镇”规范为“沙河街道”。其中,在该行政区划下“沙河街道、沙河乡、沙河街道办、沙河办事处、沙河农场和沙河经济开发区”字段都会被规范为“沙河街道”。
更具体地,如上表1中序号2,预规范化地址文本为“广东揭阳市惠来县葵潭乡”根据行政区划链“广东揭阳市惠来县”,将“葵潭乡”规范为“葵潭农场”。其中,在该行政区划下“葵潭街道、葵潭乡、葵潭街道办、葵潭办事处、葵潭农场和葵潭经济开发区”字段都会被规范为“葵潭农场”。
具体地,在步骤S4中,主要是对预规范化地址文本中除行政区划外的详细地址字段进行文本纠正,如图3所示,主要运行逻辑包括二种逻辑匹配替换:
S41:根据标准详细地址元数据库对详细地址字段进行规范化,或者进行正则表达式处理;其中,标准详细地址元数据库中,每个空间区域地址都由唯一的标准详细地址限定;
S42:根据详细地址字段中普通字符归类至相应的逻辑节点,再在该逻辑节根据详细地址字段中特殊、限定字符进行正则表达式的匹配计算。
具体地,步骤S41中,处理逻辑主要包括文本替换类型和正则表达式类型,主要用于简单字符组成的问题地址。
更具体地,文本替换类型适用于高频易错类地址,优选根据标准详细地址元数据库对详细地址字段进行匹配替换,每个空间区域地址都由唯一的标准详细地址限定;标准详细地址元数据库可以由多个地名定义类型的元数据集构成,如:同名地址数据集、别名地址数据集、错别字地址数据集、地址缩写数据集,在上述数据集中以详细地址文本中的关键地址元素为索引,对相应地文本进行查找匹配,将匹配度最高的标准详细地址文本进行替换。应当遵守的原则:保证处理地址的唯一性,每个空间区域地址可能有多种语义表达,但每个地址名称语义表达都由唯一的标准详细地址限定。
根据一种具体地实施方式,文本替换是基于模式匹配算法实现的。较简单的规则是基于字典树匹配算法实现,例如由单一的词语组成的不确定地址(notRegion)词:“税务局”、“消防局”等,首先将这类POI地址字段按照字符顺序构建出哈希树索引,在微服务部署时存入服务器内存中,在匹配查找时可以以O(n)复杂度查找到。
更具体地,正则表达式类型是用于解决批量的、有规律的问题地址。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。在本发明的实施例运行中其遵守的原则仍然是保证处理地址的唯一性,防止混淆,并且需要合理的确定规则影响范围,确保正则表达式无误。对地址进行正则表达式替换,跟文本替换原理相同,不同的是正则表达式通过书写合理的正则表达式,可修改批量地址,即所校正的文本信息数量更大、范围更广。
根据一种具体地实施方式,可以将正则表达式设定为“^.+小区.+号楼.+单元.+(室|户).*$”或者“^.+(镇|乡|街).+(村|屯).+(组|号).*$”等不限于此;其中,用符号“|”来连接相应的地址。
具体地,步骤S42中,在通常应用情况下,本发明实施例不直接采用正则表达式匹配,一方面,这是因为其计算耗时较高,而整个详细地址规范化的方法在高并发时的耗时也要基本控制在1毫秒内,90%控制在0.1毫秒内;另一方面,普通字符、特殊字符、限定符组成,难以用字典树组织索引,此时需要对这类规则进行归纳分类。步骤S42主要用于复杂字符组成的问题地址,具体方法包括:
S421:提取所述预规范化地址文本中除行政区划外的多个详细地址字段;
S422:将每个所述详细地址字段切分为第一地址元素、第二地址元素;
S423:根据所述第一地址元素将所述多个详细地址字段分配至至少一个对应的第二地址元素匹配节点;
S424:在所述第二地址元素匹配节点中,根据正则表达式对所述第二地址元素进行匹配替换。
根据一种具体地实施方式,第一地址元素为普通字符,第二地址元素为特殊/限定字符,具体方法步骤如下:
S421:提取预规范化地址文本中除行政区划外的多个详细地址字段;
S422:在该详细地址字段中普通字符和特殊/限定字符;其中,普通字符即为可以设定某种规则提取的字符,更具体地,为POI地址名称的后缀,例如:“中学”、“税务局”、“副食店”;特殊/限定字符即为限定POI地址名称的后缀的字符,例如“文华中学”中的“文华”,“武昌区税务局”中的“武昌区”、“佳佳副食店”中的“佳佳”。
S423:抽取普通字符作为第一级匹配判断,如果预规范化地址命中其中的字符,则跳转到该条或者对应的多条逻辑的匹配代码区即第二级匹配节点;
S424:在第二级匹配节点,将特殊/限定字符通过正则表达式的语法进行匹配计算,根据映射对应的规则将相应的文本进行替换。其中,本实施例中正则表达式的匹配逻辑都是通过相应表达式实现,没有采用开源正则表达式的相关代码。
具体地,步骤S5中,上述步骤S2~S4主要针对写错的和写的不准确的地址文本,而步骤S5主要针对描述不完整或者漏写的非地址文本信息,提供一个提示:预规范化地址文本为“广东省深圳市南山区幸福小区15036751923”,其中“15036751923”会被判别为手机号码,所以地址会被补全为“广东省深圳市南山区幸福小区,手机号码:15036751923”。
具体地,根据以上步骤S2~S5对预规范化地址文本中的详细地址描述进行分析,得到细化到楼栋门户级别的地址,其中,使用步骤S2通过冗余信息过滤方法剔除无意义的文本,提升地址文本的蕴含信息密度。而针对中文复杂的句式语法以及现实地理空间实体存在多种命名和拓扑关系描述的现象,使用步骤S3对街道级地址进行拓展推断,可快速发现新地名并关联已有地址元数据库地名实体。步骤S4的文本纠正和步骤S5自动补全处理可进一步提升地址规范化的正确率、命中率,其具体处理逻辑主要来源于对海量地址数据的解逆向分析,通过评估解逆向结果,整理归纳得到文本优化处理规则。最后,对上述S2~S5各环节处理的结果进行组合拼接,得到规范化的完整地址描述文本。
这里需要说明的是,本发明实施例中,步骤S2、步骤S3、步骤S4和步骤S5在微服务架构中属于并行的环节,在运行过程中S2、步骤S3、步骤S4和步骤S5可以按任意顺序运行或者依照预规范化地址文本信息,优选为按照步骤S2→步骤S3→步骤S4→步骤S5顺序进行运行。
本发明中,步骤S1主要是对地址文本中的行政区划地址进行规范,其规划化的方法苦包括正则表达式处理、关键词匹配,本实施例提供一种特殊的实施方式,具体步骤如下:
S11:获取原始地址编码和预处理后的第一地址文本。
具体地,步骤S11中,主要先获取原始地址编码和原始地址文本,微服务可向web前端/移动前端页面提供接口,用户可通过PC终端/移动终输入原始地址,微服务可调用接口获取相关的原始地址信息。用户输入的原始地址应该包含原始地址文本和原始地址编码。其中,原始地址文本包含地址文本信息,原始地址编码包含有效且符合标准地址编码规则的地址编码信息。例如,原始地址编码为国家行政区划编码或邮政编码。更具体地,原始地址编码必须全部为阿拉伯数字,不能为空白或者数字与其他字符的拼接。然后遍历原始地址文本中的字符,并对各字符进行程序转换、扩展或删除,获取第一地址文本;即对校验通过后的原始地址文本进行预处理,具体包括:对原始地址文本中的标点字符、英文字符、阿拉伯数字符以及格式字符进行冗余删减、半角转全角、小写转大写的处理;对原始地址文本中的中文字符进行繁体转简体的处理。
S12:对所述第一地址文本中行政区划进行命名实体识别,获取第二地址文本。
具体地,步骤S12中,主要对所述第一地址文本进行切分,提取多个行政区划字段;并对多个所述行政区划字段进行命名实体识别,获取第二地址文本。即是对预处理后的地址进行行政区划切分,形成多个行政区划的地址字段,然后将每个地址字段分别和地名实体元数据进行文本匹配,并删除重复的行政区划字段并将所述行政区划字段进行初步的层级匹配,但不具体进行行政区划链上下级逻辑的核实,从而获取第二地址文本。具体包括:对第一地址文本进行切分,提取多个行政区划字段,并将提取的各级行政区划字段和地名实体元数据进行文本匹配;将文本匹配后的第一地址文本进行重复的行政区划字段删除,将无法匹配的行政区划字段与相似行政区划地名进行匹配,获取第二地址文本,其中,同一第一地址文本可对应多个不同的第二地址文本。
更具体地,微服务先对预处理后的地址文本进行语义切分,再提取行政区划字段,再根据行政区划字段和预先构建的地名实体元数据,进行文本匹配的操作,初步将不规范的地址名称进行规范化。其中,通过对地址文本做快速文本匹配,对照地名实体元数据,实现行政区划地名的命名实体识别。再对上述提取的行政区划信息进行初步的层次组合匹配,确定每个实体的可能行政区划级别及其所属的完整行政区划链,再通过去重鉴真算法处理后,即可得到地址文本信息描述的正确行政区划地址。所述的去重鉴真算法即是将文本匹配后的第一地址文本进行重复的行政区划字段删除,将无法匹配的行政区划字段与相似行政区划地名进行匹配。
S13:将原始地址编码进行扩展,形成覆盖所述第二地址文本对应的行政区划编码序列。
这里,由于原始地址编码只能显示到省、市、县(区),对于第二地址文本中所输入的街道、社区无法通过原始地址编码进行体现,因此对原始地址编码进行扩展,在原始地址编码中补充第二地址文本中所输入的街道、社区对应的编码,即将所述第二地址文本中命名实体识别后的行政区划字段解析成对应的编码,在原始地址编码基础上将所述编码按照行政区划层级顺序依次补入,形成行政区划编码序列。
具体地,步骤S13中,主要是将原始地址编码进行扩展,形成覆盖所述第二地址文本对应的行政区划编码序列;即将所述第二地址文本中命名实体识别后的行政区划字段解析成对应的编码,在原始地址编码基础上将所述编码按照行政区划层级顺序依次补入,形成行政区划编码序列。
更具体地,结合国家行政区划编码规则,从第二地址文本信息中将命名实体识别后的五级行政区划字段(可以识别提取到五级,如果地址文本信息中没有涉及到五级则提取到相应的行政区划级别),如“省、市、县(区)、乡(街道)、村(社区)”,将各级行政区划地名分别解析成相应的编码,合并后形成十二位编码,即将原六位地址编码扩充为十二位。十二位行政区划编码,格式为:AABBCCDDDEEE,该十二位的行政区划编码可具体指代至五级行政区划;更具体地,AA表示省、直辖市编码,BB表示市编码,CC表示县、区编码,DDD表示乡、镇、街道编码,EEE表示村、社区编码。同一第一地址文本在经过命名实体识别后可能形成多个第二地址文本,因此对应的多个第二地址文本可以在步骤S13中再次形成对应的多个行政区划编码序列,多个行政区划编码序列将会在同一环节进入下述步骤S14中。
S14:根据所述行政区划编码序列和标准行政区划元数据库,将所述第二地址文本替换为标准行政区划,从而获取预规范化地址文本。
具体地,步骤S14中,主要根据所述行政区划编码序列将所述第二地址文本中命名实体识别后的行政区划字段替换为标准行政区划字段。首先根据相同的行政区划编码序列规则为元数据建立行政区划字段的哈希树,从而可使提取候选行政区划字段即第二地址文本通过政区划编码序列与标准行政区划字段快速建立映射关系。这里,标准行政区划元数据库存储有标准行政区划元数据,标准行政区划元数据为预先输入的符合中华人民共和国指定并流通使用的国家行政区划编码或邮政编码和与预设的针对街道、社区所设计的编码,以及与行政区划编码或邮政编码和与预设的针对街道、社区所设计的编码对应的省、市、县(区)、乡(街道)、村(社区)等字符段。标准行政区划是指根据政区划编码序列与标准行政区划元数据比对后,所提取出的与行政区划编码对应的省、市、县(区)、乡(街道)、村(社区)等字符段信息。具体地,步骤S5中,首先根据相同的行政区划编码序列规则为元数据建立行政区划字段的哈希树,从而可使提取候选行政区划字段即第二地址文本通过政区划编码序列与预设标准行政区划字段快速建立映射关系。
更具体地,在进行步骤S11~S13后,对地址文本中的行政区划进行了提取,并进行了初步的标准化处理,但仍然会出现同名地址、别名地址、错别字地址、地址缩写等行政区划的地址错误,正对以上问题,除了建立相应的标准行政区划哈希表外,还分别建立对应的同名行政区划哈希表、别字行政区划哈希表、别名行政区划哈希表和缩写行政区划哈希表,包根据所述行政区划编码序列分别和标准行政区划哈希表、名行政区划哈希表、别名行政区划哈希表、别字行政区划哈希表、缩写行政区划哈希表进行匹配替换,形成完整的行政区划链。
更具体地,标准行政区划哈希表中各级标准行政区划都在行政区划编码序列中有对应的编码,遍历对应的编码将第二文本中行政区划字段替换成标准行政区划字段。将行政区划编码序列为主键(key),标准行政区划字段为值(value)载入哈希表中,使用值中对应的标准行政区划字段对第二地址文本进行替换,从而获得完成多级的行政区划信息。
更具体地,对应相同的文本序列在不同的上下文语境中可能有不同的语义情况。则需要通过地址文本中匹配到的上下级行政区划,结合行政区划地名集完成对该字段的归属判断。可以预先将所有的可能同名地址歧义词用语收录在配置文件中,建立同名行政区划哈希表,以哈希表的数据结构录入微服务架构的数据库中,哈希表的键(key)是十二位行政区划编码,值(value)是由输入的地址、对应的提取的行政区划。若行政区划后面紧接的字符串与值(value)值的同名地址一致,那么可以判定用户输入地址存在同名,使用值(value)中对应的提取的行政区划地址替换输入的地址。
更具体地,对应同一个行政区划命名往往存在多种名称,且不同的行政区划命名之间也存在重名情况。可以预先将所有的可能别名地址歧义词用语收录在配置文件中,建立别名行政区划哈希表,以哈希表的数据结构录入微服务架构的数据库中,哈希表的键(key)是十二位行政区划编码,值(value)是由输入的地址、对应的提取的行政区划。在行政区划推断时,若行政区划后面紧接的字符串与值(value)值的别名地址一致,那么可以判定用户输入地址存在同名,使用值(value)中对应的提取的行政区划地址替换输入的地址。
更具体地,对于错别字纠正包括地址的组合不对、词组逻辑错误以及用词的错误情况,在已推断出的行政区划基础上,对疑似地名词组进行判别,可以预先将常见错误地址用语收录在配置文件中,建立常见错误地址用语集,以哈希表的数据结构录入微服务架构的数据库中,哈希表的键(key)是十二位行政区划编码,值(value)是由错误地址、对应的正确地址、对应的行政区划编码组成的字符串。在行政区划推断时,若行政区划后面紧接的字符串与值(value)值的错误地址一致,那么可以判定用户输入地址存在错别字,使用值(value)中对应的正确地址替换错误地址。
更具体地,对于常见的缩写词组中推断地名情况,可以预先将所有的可能缩写地址词用语收录在配置文件中,建立缩写行政区划哈希表,以哈希表的数据结构录入微服务架构的数据库中,哈希表的键(key)是十二位行政区划编码,值(value)是由输入的地址、对应的提取的行政区划。在行政区划推断时,若行政区划后面紧接的字符串与值(value)值的别名地址一致,那么可以判定用户输入地址存在缩写特殊地名,使用值(value)中对应的提取的行政区划地址替换输入的地址。以上缩写地名词组存储在计算机内存中,通过字典树的方式进行文本匹配,将匹配到的一个或多个词组映射为对应的完整位置描述,参与到行政区划匹配过程中。
更具体地,由于在步骤S4中可能会出现一个第一地址文本对应多个第二地址文本,因此会基于十二位行政区划编码建立相似度匹配的权重累计表,各级行政区划都有对应的编码和累计权重,而后,分别遍历多个第二地址文本中所有的行政区划字段,解析出该字段对应的地址编码信息,遍历其中的所有编码信息,及权重,对编码信息进行五级行政区划的切分,将每一级的行政区划对应的编码信息,以及对应的权重累加至权重累计表的相应键(key),基于权重累计表,取出每一级行政区划中权重最高的作为目标行政区划,表示该目标行政区划有最多的字段匹配成功。
本发明第二个实施例提供一种详细地址规范化的装置,包括:
获取单元,用于获取行政区划规范后的预规范化地址文本;
冗余判定删除单元,用于根据标准POI地址元数据库对所述预规范化地址文本中的冗余字段进行判定删除;
行政单位规范单元,用于对所述预规范化地址文本中下级行政单位进行规范;
详细地址规范单元,用于对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理;
非地址信息补全单元,用于对所述预规范化地址文本中非地址文本进行信息补全。
关于详细地址规范化的装置的具体限定可以参见上文中对于详细地址规范化方法的限定,在此不再赘述。
本发明第三个实施例提供一种微服务架构下的详细地址规范化的装置系统,包括详细地址规范化的装置,该装置用于:获取行政区划规范后的预规范化地址文本;根据标准POI地址元数据库对所述预规范化地址文本中的冗余字段进行判定删除;对所述预规范化地址文本中下级行政单位进行规范;对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理;对所述预规范化地址文本中非地址文本进行信息补全。
本发明第四个实施例提供一种地址标准化处理的方法,包括:
S6:提供微服务架构,通过前端接口输入原始地址文本和原始地址编码;
S7:调用如第二个实施例所述的详细地址规范化系统,获取规范化详细地址;
S8:监测所述的详细地址规范化系统运行异常次数超过给定阈值时,所述微服务执行熔断机制;
S9:通过数据回溯与指标验证接口完成微服务架构数据迭代。
具体地,在步骤S7中,详细地址规范化系统是将第一个实施例中步骤S1~S5的详细地址规范化的方法与微服务进行封装,对外提供统一、标准接口服务;
更具体地,将详细地址规范化的方法打成JAR格式文件的软件包,并上传至Maven仓库中心。另一方面则构建基于Dubbo的java微服务项目,通过Maven引入规范化算法包,并调用jar包提供的java方法,输入城市+城市编码;等待方法返回规划化后的地址与城市编码。通过HTTP返回给用户。HTTP接口主要入参有授权AK、地址文本、地址编码,授权AK用于控制用户是否可以访问HTTP接口。
更具体地,JAR格式文件(Java归档,英语全称:Java Archive)是一种软件包文件格式,通常用于聚合大量的Java类文件、相关的元数据和资源(文本、图片等)文件到一个文件。Maven仓库是一种可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件,其可以在多个项目中共享JARs。Dubbo是一款高性能、轻量级的开源Java RPC框架,它提供了三大核心能力:面向接口的远程方法调用,智能容错和负载均衡,以及服务自动注册和发现。HTTP(英语全称:HyperText Transfer Protocol)为互联网上的一种网络协议。
更具体地,本发明中将所有规范化的方法通过Java语言表示,并将上述的Java格式文件进行打包,形成JAR格式文件,再通过Maven作为接口上传至Dubbo的架构中。再通过调用JAR软件包来运行Java语言的规范化方法,然后再通过HTTP网路协议和前端用户进行交互。交互的信息接口包括:访问AK、地址文本和地址编码,用户通过AK接口访问网络,再通过地址文本和地址编码的接口输入地址文本信息和地址编码信息。
具体地,在步骤S8中,当规范化算法出现异常时,当异常次数超过给定值时,将会走兜底逻辑;即当调用规范化算时出现异常、超时等情况时,且异常次数超过给定次数,即5s内出现10次异常,则会通过基于hytrix框架进行熔断,并返回事先通过文本加载到程序中的数据。
具体地,步骤S9中,主要功能就是采集地址数据,微服务提供数据回溯与指标验证接口,丰富地址库。
更具体地,本发明中种详细地址规范化的方法的存在是为了从地址中最大限度的提取有效地址,新版本的发布也是为了迎合不同用户的地址书写习惯,标准化的处理方法最终的地址是要保证能够根据用户输入地址的进行地址编码匹配返回物流网点。更标准化的处理方法的算法配置能够提升网点识别的覆盖率和准确率,数据来源包括人工规则和国家行政区划的变更。收到人工规则需求后,会根据需求修改对应的配置表,生成新版本。对新旧版本的标准化进行网点识别覆盖率和准确率指标测试,新版本指标测试会用新旧版本分别进行地理编码匹配,保证变更后的新版本不会对原网点识别结果有负向影响,产生正向影响的需求发版。
上述关于详细地址规范化的装置和微服务架构下的详细地址规范化的装置系统的具体限定可以参见上文中对于详细地址规范化方法的限定,在此不再赘述。中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储已训练好的地址文本字段模型与序列标注模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址文本字段方法。
本领域技术人员可以理解,上述对该装置的结构,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种详细地址规范化的方法,其特征在于,包括:
获取行政区划规范后的预规范化地址文本;
根据标准POI地址元数据库对所述预规范化地址文本中的冗余字段进行判定删除;
对所述预规范化地址文本中下级行政单位进行规范;
对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理;
对所述预规范化地址文本中非地址文本进行信息补全。
2.根据权利要求1所述的详细地址规范化的方法,其特征在于,所述对所述预规范化地址文本中的冗余字段进行判定删除包括:
如果对应的所述POI地址元数据包含与上一级重复的标准行政区划字段,则不对所述预规范化地址文本中相应的重复标准行政区划字段进行删除;
如果对应的所述POI地址元数据包含人名字段,则不对所述预规范化地址文本中相应的人名字段进行删除。
3.根据权利要求1所述的详细地址规范化的方法,其特征在于,所述对所述预规范化地址文本中下级行政单位进行规范包括:
提取所述预规范化地址文本中的街道级行政区划字段后缀;
将所述后缀替换为与所述预规范化地址文本中上级行政区划链所匹配的行政单位。
4.根据权利要求1所述的详细地址规范化的方法,其特征在于,所述对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理包括:
提取所述预规范化地址文本中除行政区划外的多个详细地址字段;
对所述多个详细地址字段提取关键地址元素,根据所述关键地址元素和标准详细地址元数据库进行匹配替换;
或者,根据正则表达式对所述多个详细地址字段进行的匹配替换。
5.根据权利要求1所述的详细地址规范化的方法,其特征在于,所述对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理包括:
提取所述预规范化地址文本中除行政区划外的多个详细地址字段;
将每个所述详细地址字段切分为第一地址元素、第二地址元素;
根据所述第一地址元素将所述多个详细地址字段分配至至少一个对应的第二地址元素匹配节点;
在所述第二地址元素匹配节点中,根据正则表达式对所述第二地址元素进行匹配替换。
6.根据权利要求1所述的详细地址规范化的方法,其特征在于,所述获取行政区划规范后的预规范化地址文本包括:
获取原始地址编码和预处理后的第一地址文本;
对所述第一地址文本中行政区划进行命名实体识别,获取第二地址文本;
将原始地址编码进行扩展,形成覆盖所述第二地址文本对应的行政区划编码序列;
根据所述行政区划编码序列和标准行政区划元数据库,将所述第二地址文本替换为标准行政区划,从而获取预规范化地址文本。
7.根据权利要求6所述的详细地址规范化的方法,其特征在于,所述预处理包括冗余符号删减、半角转全角、小写转大写、繁体转简体中至少一种或者几种。
8.一种详细地址规范化的装置,其特征在于,包括:
获取单元,用于获取行政区划规范后的预规范化地址文本;
冗余判定删除单元,用于根据标准POI地址元数据库对所述预规范化地址文本中的冗余字段进行判定删除;
行政单位规范单元,用于对所述预规范化地址文本中下级行政单位进行规范;
详细地址规范单元,用于对所述预规范化地址文本中除行政区划外的详细地址文本进行文本纠正处理;
非地址信息补全单元,用于对所述预规范化地址文本中非地址文本进行信息补全。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111640415.1A CN116414808A (zh) | 2021-12-29 | 2021-12-29 | 详细地址规范化的方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111640415.1A CN116414808A (zh) | 2021-12-29 | 2021-12-29 | 详细地址规范化的方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116414808A true CN116414808A (zh) | 2023-07-11 |
Family
ID=87053155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111640415.1A Pending CN116414808A (zh) | 2021-12-29 | 2021-12-29 | 详细地址规范化的方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116414808A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251517A (zh) * | 2023-09-12 | 2023-12-19 | 河南省农业科学院农业经济与信息研究所 | 大数据视野下的年鉴行政区划信息匹配方法和模型 |
-
2021
- 2021-12-29 CN CN202111640415.1A patent/CN116414808A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251517A (zh) * | 2023-09-12 | 2023-12-19 | 河南省农业科学院农业经济与信息研究所 | 大数据视野下的年鉴行政区划信息匹配方法和模型 |
CN117251517B (zh) * | 2023-09-12 | 2024-05-17 | 河南省农业科学院农业经济与信息研究所 | 大数据视野下的年鉴行政区划信息匹配方法和模型 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388559B (zh) | 地理空间应用下的命名实体识别方法及系统、计算机程序 | |
CN109657074B (zh) | 基于地址树的新闻知识图谱构建方法 | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN110909170B (zh) | 兴趣点知识图谱构建方法、装置、电子设备及存储介质 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN108733810B (zh) | 一种地址数据匹配方法及装置 | |
US20220300834A1 (en) | Knowledge-based validation of extracted entities with confidence calibration | |
CN106777118B (zh) | 一种基于模糊字典树的地理词汇快速抽取方法 | |
CN116414824A (zh) | 行政区划信息识别和标准化处理的方法、装置及存储介质 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN112434224A (zh) | 一种基于知识图谱的税收优惠政策推荐方法及其系统 | |
CN112650858A (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN110851546A (zh) | 一种验证、模型的训练、模型的共享方法、系统及介质 | |
Li et al. | Neural Chinese address parsing | |
Moura et al. | Reference data enhancement for geographic information retrieval using linked data | |
CN111899822A (zh) | 医疗机构数据库构建方法、查询方法、装置、设备和介质 | |
CN116303854A (zh) | 一种基于地址知识图谱的定位方法及装置 | |
CN115687787A (zh) | 产业政策目标群画像构建方法、系统及存储介质 | |
CN115185986A (zh) | 省市区地址信息匹配方法、装置、计算机设备及存储介质 | |
CN116414808A (zh) | 详细地址规范化的方法、装置、计算机设备和存储介质 | |
CN112328653B (zh) | 数据识别方法、装置、电子设备及存储介质 | |
CN117076590A (zh) | 地址标准化方法、装置、计算机设备及可读存储介质 | |
CN116431625A (zh) | 一种地理实体的定位分析方法、装置及计算机设备 | |
CN114880483A (zh) | 一种元数据知识图谱构建方法、存储介质及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |