CN113901792A - 一种快递地址标准化方法、系统和计算机程序 - Google Patents
一种快递地址标准化方法、系统和计算机程序 Download PDFInfo
- Publication number
- CN113901792A CN113901792A CN202111189109.0A CN202111189109A CN113901792A CN 113901792 A CN113901792 A CN 113901792A CN 202111189109 A CN202111189109 A CN 202111189109A CN 113901792 A CN113901792 A CN 113901792A
- Authority
- CN
- China
- Prior art keywords
- address
- word
- administrative
- matching
- standardized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011425 standardization method Methods 0.000 title claims abstract description 13
- 238000004590 computer program Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 238000003491 array Methods 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000272814 Anser sp. Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种快递地址标准化方法、系统和计算机程序。本发明对原始地址字符串基于国家行政区域划分进行分词,得到分词后的词语数组;获取词语数组的每个词语对应的行政地址;对于词语数组中的每个词语采用地址标准化算法进行标准化地址匹配,最终得到标准化地址。本发明通过对地址按照地址要素层级依次匹配以及对匹配的地址按照地址要素层级计算相对应的积分,实现对中文地址快速、高效的标准化。
Description
技术领域
本发明涉及算法领域,具体涉及一种快递地址标准化方法、系统和计算机程序。
背景技术
随着我国电子商务的快速发展以及快递行业的服务质量与配送效率的不断提升,每年产生的快递数量也在不断攀升,随之产生的快递信息数据也是企业的重要资产,因此需要对该数据进行保存与维护。快递数据中的面单地址是其中的重要组成部分,但是地址信息混乱是该数据无法发挥其价值的关键,其原因在于填写地址时没有统一的地址填写规范和命名规范,导致地址信息带有较重的地方特色、地址包含其他备注信息等。所以针对快递面单地址的格式化处理需求越来越迫切,同时对格式化的处理能力也提出了更高的要求。
地理编码的过程一般包括地址的分词、地址标准化、地址查询、空间定位等步骤。目前关于地址标准化的研究大体分为两大类:一种是基于机械分词的研究,另一种是基于自然语言理解方面的研究。基于机械分词的研究又可以分为以全文检索模型为核心的匹配方法和以地址要素层级模型为核心的匹配方法。全文检索地址匹配方法的前提是需要建立一个标准地址库作为参照,然后将待匹配地址作为检索条件进行匹配;地址要素层级模型认为地址要素都有层次级别的属性,每一类地址要素都有唯一的级别值,这类方法对地址的描述要求符合等级规则,对应的级别要按照升序排列。全文检索地址匹配模型在匹配过程中只考虑关键词匹配因素,匹配速度快,但缺点是由于全国范围内并不存在一个涵盖各级地址的标准化库,所以提前手工构建一个涵盖各级地址的标准地址库的工作量非常大。地址要素层级模型能够得到较高的地址匹配率,但是需要建立多种复杂的地址模型,并确定地址元素间的空间约束关系。基于自然语言理解的模型的不足在于模型较为复杂,对训练数据的依赖性较强。
发明内容
为解决现有技术存在的问题,本发明提供了一种快递地址标准化方法、系统和计算机程序,本发明的技术方案如下。
一种快递地址标准化方法,包括:
对原始地址字符串基于国家行政区域划分进行分词,得到分词后的词语数组;其中,所述词语数组包括若干词语,每个词语所代表一个行政区域;
获取词语数组的每个词语对应的行政地址;其中,词语数组中的一个词语对应若干个行政地址;所述行政地址由行政区划等级大于和等于所述词语代表的行政区域的若干行政区划依次组成;
对于词语数组中的每个词语采用地址标准化算法进行标准化地址匹配;其中,一个词语仅匹配一个标准化地址;
将第N个词语对应的标准化地址作为地址字符串的最终标准化地址,其中,所述第N个词语为词语数组中的所代表的行政区划等级最低的词语。
优选的,对于词语数组中的每个词语,按照所述词语所代表的行政区域等级大小依次进行标准化地址匹配。
优选的,遍历每个词语词语所对应的所有行政地址,统计所述词语所代表的行政区域在所述行政地址中出现的次数,选择出现次数最多的行政地址作为该词语对应的标准化地址。
优选的,将剩余地址返回至数据库;其中,剩余地址为原始地址字符串分词后的词语数组中第N+1个词语,且,第N+1个词语不能代表国家标准行政区域。
优选的,将第N个词语对应的标准化地址加上剩余地址作为地址字符串的最终标准化地址。
优选的,将每级行政区域赋予的1个积分,计算行政地址的匹配积分;其中,所述匹配积分为每个词语在标准化地址匹配过程中的累计积分,且每级行政区域匹配成功则增加1个积分。
优选的,所述标准地址匹配算法包括:若存在多个匹配成功的地址,则取匹配积分最高的地址作为标准化地址。
一种计算机程序,所述计算机程序被计算机执行时,实现上述的快递地址标准化方法。
一种快递派送系统,所述快递派送系统包括计算机,所述计算机执行上述述的计算机程序,从而实现快递地址标准化处理。
相对于现有技术,本发明的有益技术效果在于:本发明对地址按照地址要素层级依次匹配以及对匹配的地址按照地址要素层级计算相对应的积分,实现对中文地址快速、高效的标准化。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为快递地址标准化流程示意图;
图2为地址匹配算法流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
实施例一
如图1所示,本实施例提供了一种快递地址标准化方法,包括:
对地址字符串进行分词,得到分词后的词语数组;
读取全国的行政划分编码字典表,得到编码与城市的对应关系,以及地址与完整的行政区划记录,若同一个地址可能对应多条行政区划记录,即地址重名;
对于分词得到的词语数组中每一个词语,获取的词语数组对应的行政区划记录;对于每条行政区划,统计行政区划中的国家、省、市、县(区)、镇(街道)在所有的行政区划记录中出现的次数;
示例性的,将地址字符串“江苏省南京市鼓楼区鼓楼医院”分词得到的词语数组为:【江苏省 南京市 鼓楼区 鼓楼医院】
每个词语数组对应的行政区划为:
【江苏省】→中国 江苏省
【南京市】→中国 江苏省 南京市
【鼓楼区】→
中国 江苏省 南京市 鼓楼区
中国 江苏省 徐州市 鼓楼区
中国 河南省 开封市 鼓楼区
中国 福建省 福州市 鼓楼区
【鼓楼医院】→无
统计得出:
国家:中国6次
省:江苏省4次、河南省1次、福建省1次
市:南京市2次、徐州市1次、开封市1次、福州市1次
区:鼓楼区4次
对于标准地址匹配算法到的行政区划及其次数,选择出现次数最多的国家和省份作为标准化后的国家和省份;对于城市,选择该国家省份下出现次数最多的城市作为标准化后城市;同理得到标准化后的区县和镇/街道;最后将对剩余地址抽取备注信息,同时去除其中包含的国家、省、市/区、街道信息作为最终的剩余地址返回。其中,剩余地址为原始地址去掉国家字符串后的地址。
如图2所示,所述标准地址匹配算法包括:
根据行政区划字典表获取每个国家、省、市、区、街道名称对应的所有记录;
对于地址分词后的每个词语,从字典中获取对应的所有的行政区划记录,得到所有的地址集合;
获取地址集合中出现的国家并统计该国家的次数作为匹配次数,取匹配次数最大的作为匹配国家;
将地址集合中国家不匹配的记录过滤,并给过滤后集合中的地址加上国家匹配成功积分,同理处理省、市、区、街道信息;若一个层级的地址匹配成功,则累计一个对应的分值,最后计算一个总的加权累计积分。
如果匹配后的剩余地址中仍然包含省市区街道名称,则将其剔除后作为最终的剩余地址;
将匹配成功的地址记录返回作为标准化后的地址。如果匹配成功的地址有多个,则取匹配积分最高的地址返回;如果有多个积分相同并且分值最高,则随机取一个地址返回。
示例性的,以地址字符串“湖南省长沙市天心区先锋街道蓝光雍锦府”为例,
对地址字符串进行分词,得到词语数组为【湖南省 长沙市 天心区 先锋街道 蓝光 雍锦府】;
对词语数组的每个词语,与行政区划字典进行匹配,得到所有的行政区划为:
湖南省:[中国/湖南省],
长沙市:[中国/湖南省/长沙市],
天心区:[中国/湖南省/长沙市/天心区],
先锋街道:[中国/湖南省/长沙市/天心区/先锋街道;中国/吉林省/辽源市/西安区/先锋街道;中国/湖南省/湘潭市/雨湖区/先锋街道;中国/湖南省/衡阳市/雁峰区/先锋街道]。
对应的地址集合为:
{①中国湖南省
②中国湖南省长沙市
③中国湖南省长沙市天心区
④中国湖南省长沙市天心区先锋街道
⑤中国吉林省辽源市西安区先锋街道
⑥中国湖南省湘潭市雨湖区先锋街道
⑦中国湖南省衡阳市雁峰区先锋街道}
设每个层级的积分都为1个积分,按照地址层级从高到底进行匹配过滤并计算积分,每个层级的地址匹配成功都会有1个积分:
国家为中国出现的次数最多(7次),则国家层级为中国;地址集合中国家为中国的地址积1分,并将国家不是中国的地址过滤,符合条件的地址和积分分别为:①(1分)、②(1分)、③(1分)、④(1分)、⑤(1分)、⑥(1分)、⑦(1分);
省份为湖南省在剩余符合条件的地址中出现的次数最多,则省份为湖南省,将省份匹配成功的地址再积1分,并将省份不是湖南省的地址过滤,符合条件的地址分别为:②(2分)③(2分)、④(2分)、⑥(2分)、(2分);
同理,处理城市、区县、街道层级,最终积分最高的标准地址为【中国湖南省长沙市天心区先锋街道】,剩余地址为【蓝光雍锦府】。
实施例二
一种计算机程序,所述计算机程序被计算机执行时,实现实施例一所述的快递地址标准化的方法。
实施例三
一种快递派送系统,所述快递派送系统包括计算机,所述计算机执行实施例二所述的计算机程序,从而实现快递地址标准化处理。
以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种快递地址标准化方法,其特征在于,包括:
对原始地址字符串基于国家行政区域划分进行分词,得到分词后的词语数组;其中,所述词语数组包括若干词语,每个词语所代表一个行政区域且每个行政区域的等级不同;
获取词语数组的每个词语对应的行政地址;其中,词语数组中的一个词语对应若干个行政地址;所述行政地址由行政区划等级大于和等于所述词语代表的行政区域的若干行政区划依次组成;
对于词语数组中的每个词语采用地址标准化算法进行标准化地址匹配;其中,一个词语仅匹配一个标准化地址;
将第N个词语对应的标准化地址作为地址字符串的最终标准化地址,其中,所述第N个词语为词语数组中的所代表的行政区划等级最低的词语。
2.根据权利要求1所述的快递地址标准化方法,其特征在于,
对于词语数组中的每个词语,按照所述词语所代表的行政区域等级大小依次进行标准化地址匹配。
3.根据权利要求2所述的快递地址标准化方法,其特征在于,所述标准地址匹配算法包括:遍历每个词语词语所对应的所有行政地址,统计所述词语所代表的行政区域在所述行政地址中出现的次数,选择出现次数最多的行政地址作为该词语对应的标准化地址。
4.根据权利要求3所述的快递地址标准化方法,其特征在于,包括:
将剩余地址返回至数据库;其中,剩余地址为原始地址字符串分词后的词语数组中的第N+1个词语,且,第N+1个词语不能代表国家标准行政区域。
5.根据权利要求4所述的快递地址标准化方法,其特征在于,包括:
将第N个词语对应的标准化地址加上剩余地址作为地址字符串的最终标准化地址。
6.根据权利要求4所述的快递地址标准化方法,其特征在于,所述标准地址匹配算法包括:
将每级行政区域赋予的1个积分,计算行政地址的匹配积分;其中,所述匹配积分为每个词语在标准化地址匹配过程中的累计积分,且每级行政区域匹配成功则增加1个积分。
7.根据权利要求5所述的快递地址标准化方法,其特征在于,所述标准地址匹配算法包括:若存在多个匹配成功的地址,则取匹配积分最高的地址作为标准化地址。
8.一种计算机程序,其特征在于,所述计算机程序被计算机执行时,实现权利要求1-6所述的方法。
9.一种快递派送系统,其特征在于,所述快递派送系统包括计算机,所述计算机执行权利要求7所述的计算机程序,从而实现快递地址标准化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111189109.0A CN113901792A (zh) | 2021-10-12 | 2021-10-12 | 一种快递地址标准化方法、系统和计算机程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111189109.0A CN113901792A (zh) | 2021-10-12 | 2021-10-12 | 一种快递地址标准化方法、系统和计算机程序 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901792A true CN113901792A (zh) | 2022-01-07 |
Family
ID=79191675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111189109.0A Pending CN113901792A (zh) | 2021-10-12 | 2021-10-12 | 一种快递地址标准化方法、系统和计算机程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901792A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970518A (zh) * | 2022-02-15 | 2022-08-30 | 北京青萌数海科技有限公司 | 一种修正地址数据的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1959712A (zh) * | 2006-08-14 | 2007-05-09 | 深圳市络道科技有限公司 | 按投递地址段自动制作商函的方法及其系统 |
CN110909110A (zh) * | 2018-09-17 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 地址的标准化方法、装置、存储介质及处理器 |
CN112818665A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 结构化地址信息的方法、装置、电子设备及存储介质 |
-
2021
- 2021-10-12 CN CN202111189109.0A patent/CN113901792A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1959712A (zh) * | 2006-08-14 | 2007-05-09 | 深圳市络道科技有限公司 | 按投递地址段自动制作商函的方法及其系统 |
CN110909110A (zh) * | 2018-09-17 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 地址的标准化方法、装置、存储介质及处理器 |
CN112818665A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 结构化地址信息的方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970518A (zh) * | 2022-02-15 | 2022-08-30 | 北京青萌数海科技有限公司 | 一种修正地址数据的方法和装置 |
CN114970518B (zh) * | 2022-02-15 | 2022-12-16 | 北京青萌数海科技有限公司 | 一种修正地址数据的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107145577A (zh) | 地址标准化方法、装置、存储介质及计算机 | |
US7693853B2 (en) | Method and apparatus for retrieving data representing a postal address from a plurality of postal addresses | |
CN106909611B (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN102789464B (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
US8316041B1 (en) | Generation and processing of numerical identifiers | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
CN109033225A (zh) | 中文地址识别系统 | |
CN111625621A (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
CN113342923A (zh) | 数据查询方法、装置、电子设备及可读存储介质 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
CN111291099A (zh) | 一种地址模糊匹配方法、系统及计算机设备 | |
CN111222028B (zh) | 一种数据智能爬取方法 | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
CN114707003B (zh) | 一种论文作者姓名消歧的方法、设备及储存介质 | |
CN113901792A (zh) | 一种快递地址标准化方法、系统和计算机程序 | |
CN113722460B (zh) | 指标数据入库方法、装置、设备及存储介质 | |
CN117251517B (zh) | 大数据视野下的年鉴行政区划信息匹配方法和模型 | |
CN114201480A (zh) | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 | |
CN117494711A (zh) | 一种基于语义的用电地址相似度匹配的方法 | |
CN117493906A (zh) | 一种城市事件分拨方法、系统及存储介质 | |
CN116956930A (zh) | 一种融合规则和学习模型的短文本信息提取方法及系统 | |
CN112069824A (zh) | 基于上下文概率和引证的地域识别方法、装置及介质 | |
CN112148735A (zh) | 一种用于结构化表格数据知识图谱的构建方法 | |
CN109902148B (zh) | 一种通讯录联系人的企业名称自动补全的方法 | |
CN111325235A (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |