CN113761909B - 一种识别地址的方法及装置 - Google Patents

一种识别地址的方法及装置 Download PDF

Info

Publication number
CN113761909B
CN113761909B CN202110061427.2A CN202110061427A CN113761909B CN 113761909 B CN113761909 B CN 113761909B CN 202110061427 A CN202110061427 A CN 202110061427A CN 113761909 B CN113761909 B CN 113761909B
Authority
CN
China
Prior art keywords
address
node
determining
path
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110061427.2A
Other languages
English (en)
Other versions
CN113761909A (zh
Inventor
邓克捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Zhenshi Information Technology Co Ltd filed Critical Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority to CN202110061427.2A priority Critical patent/CN113761909B/zh
Publication of CN113761909A publication Critical patent/CN113761909A/zh
Application granted granted Critical
Publication of CN113761909B publication Critical patent/CN113761909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0835Relationships between shipper or supplier and carriers
    • G06Q10/08355Routing methods

Abstract

本发明公开了一种识别地址的方法及装置,涉及仓储物流技术领域。该方法的一具体实施方式包括:对待识别地址进行分词,得到一个或多个地址分词;根据地址树,确定所述地址分词对应的目标地址节点;所述地址树包括:多个行政区词分别对应的地址节点、所述地址节点对应的路径以及所述路径的权重值;确定所述待识别地址与所述目标地址节点对应的路径的重合度;根据大于预设阈值的重合度所对应路径的所述权重值,确定所述待识别地址对应的物流地址。该实施方式提高了地址识别的准确性。

Description

一种识别地址的方法及装置
技术领域
本发明涉及仓储物流技术领域,尤其涉及一种识别地址的方法及装置。
背景技术
物流公司在对包裹进行配运时,需要根据收寄地址计算物流费用,和实现包裹的中转和妥投等,因此,准确解析地址对于物流公司的费用计算、保证包裹配运的效率来说十分重要。
目前,一般通过识别地址中行政级别的结束词,即通过省、市、区或县等这种明显的行政区结束语来实现对地址的解析。然而,在提取行政区结束语时,可能会存在错误,如某小区命名为XX小镇,则提取行政区结束语时,可能将“小镇”作为镇级行政结束语。或者,由于包裹上的地址一般为用户手动编写,可能存在一些行政级别词汇的省略,如将“湖南省长沙市开福区某某路某某小区”缩写为“湖南长沙开福某某路某某小区”。在此情况下,现有技术的地址识别方式难以对地址进行准确识别。
发明内容
有鉴于此,本发明实施例提供一种识别地址的方法及装置,能够提高地址识别的准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种识别地址的方法。
本发明实施例的一种识别地址的方法包括:对待识别地址进行分词,得到一个或多个地址分词;
根据地址树,确定所述地址分词对应的目标地址节点;所述地址树包括:多个行政区词分别对应的地址节点、所述地址节点对应的路径以及所述路径的权重值;
确定所述待识别地址与所述目标地址节点对应的路径的重合度;
根据大于预设阈值的重合度所对应路径的所述权重值,确定所述待识别地址对应的物流地址。
可选地,所述根据大于预设阈值的重合度所对应路径的所述权重值,确定所述待识别地址对应的物流地址,包括:
针对每一个大于预设阈值的重合度所对应的路径,执行:
在所述地址树中确定所述路径所对应目标地址节点的至少一个上级节点、以及所述至少一个上级节点分别对应的上级路径;
根据所述路径的权重值以及所述上级路径的权重值,确定所述待识别地址对应的物流地址。
可选地,所述确定所述待识别地址与所述一个或多个目标地址节点分别对应的路径的重合度,包括:
确定所述目标地址节点所对应路径包含的所述地址分词的数量,根据所述数量确定所述重合度。
可选地,在确定所述待识别地址对应的物流地址之后,还包括:
确定所述待识别地址中未出现在所述物流地址中的地址分词所对应的路径,以及所述路径与所述物流地址的重合度;
当所述重合度小于预设预警级别时,输出冲突提示信息。
可选地,该方法还包括:
获取标准行政区级关联文件;
根据所述标准行政区级关联文件中的标准行政区词、所述标准行政区词对应的层级关系,生成所述地址树中的地址节点。
可选地,所述根据所述标准行政区级关联文件中的标准行政区词、所述标准行政区词对应的层级关系,生成所述地址树中的地址节点,包括:
根据所述标准行政区词的层级关系,确定所述标准行政区词对应的地址节点在所述地址树中的位置;
根据所述标准行政区词关联文件,确定与所述标准行政区词的第一行政后缀不同、且与所述标准行政区词属于同一级别的第二行政后缀;
根据所述第二行政后缀,生成所述标准行政区词的别名,并将所述标准行政区词与所述别名作为所述地址节点的名称;
根据所述位置和所述名称,生成所述地址节点。
可选地,根据所述地址节点在所述地址树中的位置,确定所述地址树的根节点到当前地址节点所历经的至少两个地址节点;
将确定出的所述至少两个地址节点按层级关系排列,作为所述地址节点对应的路径。
可选地,所述根据地址树,确定所述一个或多个地址分词对应的目标地址节点,包括:
根据所述地址节点的名称,在所述地址树中确定与所述地址分词相同的标准行政区词或所述标准行政区词的别名;
将确定出的所述标准行政区词或所述别名对应的地址节点作为所述目标地址节点。
可选地,该方法还包括:
获取已完成配送任务对应的物流地址数据集,所述物流地址数据集包括多个所述已完成配送任务对应的物流地址;
针对每一个所述地址节点对应的路径,执行:根据所述路径在所述物流地址数据集中出现的次数、以及所述路径对应的所述地址节点的名称在所述物流地址数据集中出现的次数,计算所述路径的权重值。
可选地,在所述对待识别地址进行分词之后,在所述根据地址树,确定所述地址分词对应的目标地址节点之前,进一步包括:
根据所述地址树中的地址节点的名称,对所述地址分词进行过滤;
针对过滤后的所述地址分词,确定所述地址分词对应的目标地址节点。
为实现上述目的,根据本发明实施例的又一方面,提供了一种识别地址的装置。
本发明实施例的一种识别地址的装置包括:分词模块、节点匹配模块和物流地址确定模块;其中,
所述分词模块,用于对待识别地址进行分词,得到一个或多个地址分词;
所述节点匹配模块,用于根据地址树,确定所述地址分词对应的目标地址节点;所述地址树包括:多个行政区分词分别对应的地址节点、所述地址节点对应的路径以及所述路径的权重值;
所述物流地址确定模块,用于确定所述待识别地址与所述目标地址节点对应路径的重合度,并根据大于预设阈值的重合度所对应路径的所述权重值,确定所述待识别地址对应的物流地址。
为实现上述目的,根据本发明实施例的又一方面,提供了一种识别地址的电子设备。
本发明实施例的一种识别地址的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种识别地址的方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读存储介质。
本发明实施例的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种识别地址的方法。
上述发明中的一个实施例具有如下优点或有益效果:根据待识别地址的分词结果所得到的地址分词,在预先构建的地址树中匹配相应的地址节点,该地址节点对应于行政区词,再进一步根据匹配得到的地址节点所对应的路径以及路径的权重值,确定出待识别地址对应的实际物流地址。由此,即使在待识别地址中存在省略行政级别词汇的情况下,也可通过确定相应地址分词在地址树中对应的地址节点,进而根据确定出的地址节点所对应的路径准确地确定出待识别地址对应的物流地址,从而提高了地址识别的准确性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种识别地址的方法的主要步骤的示意图;
图2是根据本发明实施例的一种待识别地址的分词结果的示意图;
图3是根据本发明实施例的一种标准行政区级关联文件的示意图;
图4是根据本发明实施例的一种地址树中地址节点的示意图;
图5是根据本发明实施例的一种物流地址数据集的示意图;
图6是根据本发明实施例的一种物流地址数据集中物流地址的分词结果的示意图;
图7是根据本发明实施例的一种地址树的构建流程示意图;
图8是根据本发明实施例的一种识别地址的装置的主要模块的示意图;
图9是本发明实施例可以应用于其中的示例性系统架构图;
图10是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
图1是根据本发明实施例的一种识别地址的方法的主要步骤的示意图。
如图1所示,本发明实施例的一种识别地址的方法主要包括以下步骤:
步骤S101:对待识别地址进行分词,得到一个或多个地址分词。
例如,可采用bi-lstm+crf模型进行分词操作,结果可如图2所示。分词模型可将待识别地址分为11类,具体类别可如下表1所示。在本发明实施例中,仅以“\t,\c,\r,\m”4个类型的地址分词为例,对本发明实施例提供的地址识别方法进行说明。也就是说,在对待识别地址进行分词之后,可仅提取“\t,\c,\r,\m”4个类型的地址分词。
表1地址分词的类别
步骤S102:根据地址树,确定所述地址分词对应的目标地址节点;所述地址树包括:多个行政区词分别对应的地址节点、所述地址节点对应的路径以及所述路径的权重值。
在本发明一个实施例中,在执行步骤S101之后,在执行步骤S102之前,可根据所述地址树中的地址节点的名称,对所述地址分词进行过滤;针对过滤后的所述地址分词,确定所述地址分词对应的目标地址节点。
以仅提取“\t,\c,\r,\m”4个类型的地址分词为例,对待识别地址“广东省深圳市坪山区龙田街道青松西路聚龙花园”进行分词,可得到的地址分词为:广东省、深圳市、坪山区、龙田街道。若地址树中的地址节点仅有三级,即地址树中仅包括省市区三级行政区词对应的地址节点,那么根据地址树中的地址节点的名称,对上述地址分词进行过滤,得到的结果是广东省、深圳市、坪山区。然后,再进一步针对过滤后的地址分词,在地址树中确定其对应的目标地址节点。由此,在对待识别地址进行分词后,即利用地址树中地址节点的名称对地址分词进行过滤,由此可减少后期地址识别过程中的数据处理量,从而有利于提高地址识别的效率。
另外,在本发明实施例中,可通过如下方式构建地址树:获取标准行政区级关联文件;根据所述标准行政区级关联文件中的标准行政区词、所述标准行政区词对应的层级关系,生成所述地址树中的地址节点。
具体地,在本发明一个实施方式中,可根据所述标准行政区词的层级关系,确定所述标准行政区词对应的地址节点在所述地址树中的位置;根据所述标准行政区词关联文件,确定与所述标准行政区词的第一行政后缀不同、且与所述标准行政区词属于同一级别的第二行政后缀;根据所述第二行政后缀,生成所述标准行政区词的别名,并将所述标准行政区词与所述别名作为所述地址节点的名称;根据所述位置和所述名称,生成所述地址节点。
标准行政区级关联文件可如图3所示,第一列为当前地址节点编号,第二列为当前地址节点名称,第三列为其父节点编号,即其上级节点编号,第四列为当前地址节点所在的层级。
然后,可根据标准行政区级关联文件中的层级关系,依次生成地址树中的地址节点。在地址树中,每个地址节点包含id、名称和路径等属性。其中,id为该地址节点在地址树中的唯一标识,每个地址节点的路径为根节点到自身位置的路径。例如,朝阳区对应的地址节点所对应的属性可如图4所示,从图4中可以看出,朝阳区的id为110105,其上级节点为北京,下级节点包括建外街道、朝外街道、呼家楼街道、三里屯街道、左家庄街道、香河园街道和和平街街道等。
值得一提的是,地址节点在地址树中的名称不是唯一的。每个地址节点的名称不仅包括其在标准行政区词关联文件中的名称,还包括其别名。具体地,可根据标准行政区词关联文件,确定与标准行政区词的第一行政后缀不同、且与所述标准行政区词属于同一级别的第二行政后缀;根据所述第二行政后缀,生成标准行政区词的别名,然后将所述标准行政区词与生成的别名作为地址节点的名称。
例如,对于四级行政区词,其行政后缀有街道、乡、镇和乡镇等;对于三级行政区词,其行政后缀有区、县、旗等;对于二级行政区词,其行政后缀有地区、市和州等。以上述朝阳区为例,其别名为朝阳县、朝阳旗等。由此,通过别名的设置,有利于地址分词与地址树中地址节点的匹配,对于待识别地址中行政后缀省略或行政后缀有误的情况,也能匹配到相应的地址节点,在后期再进一步根据匹配出的目标地址节点所对应路径的权重来确定物流地址,由此,对于“上海南京路”、“广州北京街道”等不同层级的行政区词同名的待识别地址,也能准确识别出其对应的物流地址。
在确定地址节点在地址树中的位置和名称,并生成地址节点后,可进一步确定地址节点的路径。如上所述,每个地址节点的路径也为根节点到自身位置的路径,也就是说,可以根据所述地址节点在所述地址树中的位置,确定所述地址树的根节点到当前地址节点所历经的至少两个地址节点;将确定出的所述至少两个地址节点按层级关系排列,作为所述地址节点对应的路径。仍以朝阳区为例,参考图4,其在地址树中为三级节点,从根据点到其地址节点所历经的地址节点为:中国、北京和其自身(朝阳区),则朝阳区对应的路径为中国-北京-朝阳区。而由于每个地址节点有别名,因此,每个地址节点所对应的路径可能存在多种表达方式,如朝阳区的别名为朝阳县和朝阳旗,则其路径的表达方式除了中国-北京-朝阳区,还可以表达为中国-北京-朝阳县、中国-北京-朝阳旗。
鉴于每个地址节点对应有多个路径,则可进一步确定每个路径的权重值,该权重值可表征该地址节点的名称被用户熟知或使用的程度,由此,根据权重值确定待识别地址对应的物流地址,可进一步提高待地址识别的准确性。
在本发明一个实施例中,获取已完成配送任务对应的物流地址数据集,所述物流地址数据集包括多个所述已完成配送任务对应的物流地址;针对每一个所述地址节点对应的路径,执行:根据所述路径在所述物流地址数据集中出现的次数、以及所述路径对应的所述地址节点的名称在所述物流地址数据集中出现的次数,计算所述路径的权重值。
其中,已完成配送任务对应的物流地址数据集中所包括的物流地址是配送完成以后回传的妥投地址,是经过用户验证过的准确数据,因此,根据已完成配送任务对应的物流地址数据集来确定地址节点所对饮路径的权重值,可使得权重值准确表征该地址节点的名称被用户熟知或使用的程度。物流地址数据集的一个示例可如图5所示,在图5中,第一列为物流地址对应的四级编码,其中,每一个四级编码可以在地址树中找到一个路径且是叶节点路径,第二列为物流地址。
分别对物流地址数据集中的多个物流地址进行分词,结果可如图6所示。然后,将标准行政区级关联文件中的数据转化为key为名称、value为路径的集合,呈现{“名称1””[“路径1”,“路径2”,…]}的数据结构。例如,朝阳区所对应的数据结构可以为{“朝阳区”[“中国-北京-朝阳区”,“中国-北京-朝阳县”,“中国-北京-朝阳旗”]}。
然后,根据每一个路径在物流地址数据集中出现的次数、以及所述路径对应的所述地址节点的名称在所述物流地址数据集中出现的次数,计算所述路径的权重值。具体地,可将每一个路径在地址集中出现的次数与路径所对应地址节点的名称在物流地址数据集中出现的次数的比值,作为该路径的权重值。也就是说,每个地址节点对应的路径的权重值等于该路径在物流地址数据集中出现的次数/地址节点的名称在物流地址数据集中出现的总次数。此过程至少可通过以下程序语言实现。
其中,key表示地址节点的名称,all_key表示名称集合,value_path表示一个key所对应的路径集合,key_path表示key所对应的路径集合的某一条路径,all_address表示已完成配送任务对应的物流地址数据集,address表示物流地址数据集中的其中一个物流地址,address_path:表示物流地址数据集中的一个物流地址的四级编码所对应的路径,total用于记录名称key在all_key中所有地址所出现的次数,non_path用于记录名称key在all_key中所有地址所出现,但是key所对应的value_path中,key_path和address_path相比较不被包含也不相等的次数,也就是说,non_path记录走不通的路径,count_key_path用于记录每一个key_path被all_address中所有address_path相等或包含的次数。
由此,通过确定各个地址节点在地址树中位置,并根据标准行政区词生成相应的别名,进而将标准行政区词以及生成的别名均作为地址节点的名称,以及确定每个地址节点所对应路径的权重值,由此构建出由多层级行政区词所对应的地址节点组成的地址树,并且地址树中的每个地址节点均有其对应的路径(根节点到其自身所历经的路径),以及每个路径对应的权重值。其中,地址树的构建流程可如图7所示。
在根据地址树对待识别地址对应的地址分词进行过滤后,可根据地址树中各个地址节点的名称,确定与地址分词对应的目标地址节点,即在所述地址树中确定与所述地址分词相同的标准行政区词或所述标准行政区词的别名;将确定出的所述标准行政区词或所述别名对应的地址节点作为所述目标地址节点。例如,对于地址分词“坪山”来说,地址树中包括名称分别为“坪山镇”、“坪山乡”和“坪山区”的多个地址节点,则可将这多个地址节点均作为地址分词“坪山”对应的目标地址节点。
步骤S103:确定所述待识别地址与所述目标地址节点对应的路径的重合度。
在本发明一个实施例中,可确定所述目标地址节点所对应路径包含的所述地址分词的数量,根据所述数量确定所述重合度。例如,可将目标地址节点所对应路径包含的所述地址分词的数量减1作为待识别地址与目标地址节点所对应路径的重合度。
仍以待识别地址为“广东省深圳市坪山区龙田街道青松西路聚龙花园”为例,根据地址树过滤后的地址分词为“广东省”、“深圳市”和“坪山区”。其中,“广东省”对应目标地址节点的路径为[广东省],深圳市对应目标地址节点的路径为[广东省-深圳市],坪山区对应目标地址节点有“坪山镇”、“坪山乡”和“坪山区”,其分别对应的路径为[重庆-垫江县-坪山镇],[贵州-铜仁市-石阡县-坪山乡],[广东省-深圳市-坪山区]。
例如,“深圳市”的路径为[广东省-深圳市],其包含地址分词的数量为2,则其与待识别地址的重合度为1。类似的,路径[重庆-垫江县-坪山镇]与待识别地址的重合度为0,路径[贵州-铜仁市-石阡县-坪山乡]与待识别地址的重合度也为0,路径[广东省-深圳市-坪山区]与待识别地址的重合度为2。
步骤S104:根据大于预设阈值的重合度所对应路径的所述权重值,确定所述待识别地址对应的物流地址。
在本发明一个实施例中,针对每一个大于预设阈值的重合度所对应的路径,执行:在所述地址树中确定所述路径所对应目标地址节点的至少一个上级节点、以及所述至少一个上级节点分别对应的上级路径;根据所述路径的权重值以及所述上级路径的权重值,确定所述待识别地址对应的物流地址。
例如,预设阈值可设置为0,即针对重合度大于0的路径,均可根据其对应的权重值来确定待识别地址对应的物流地址。仍以上述待识别地址“广东省深圳市坪山区龙田街道青松西路聚龙花园”为例,重合度大于0的路径为目标地址节点“深圳市”所对应的路径([广东省-深圳市])、以及目标地址节点“坪山区”所对应的路径([广东省-深圳市-坪山区])。
针对目标地址节点“深圳市”,其上级节点为广东省,广东省的路径为[广东省],则“深圳市”所对应路径的权重值为深圳市路径([广东省-深圳市])的权重值+广东省路径([广东省])的权重值。类似的,目标地址节点“坪山区”的上级节点为广东省和深圳市,则“坪山区”所对应路径([广东省-深圳市-坪山区])的权重值为坪山区对应路径([广东省-深圳市-坪山区])的权重值+深圳市路径([广东省-深圳市])的权重值+广东省路径([广东省])的权重值。
在本发明另一个实施例中,在计算路径的权重值时,还可加上相应目标地址节点自身不是行政区的权重值,目标地址节点自身不是行政区的权重值可以是non_path与total的比值。上例中“深圳市”所对应路径的权重值为深圳市路径([广东省-深圳市])的权重值+广东省路径([广东省])的权重值+深圳市本身不是行政区的权重值,“坪山区”所对应路径([广东省-深圳市-坪山区])的权重值为坪山区对应路径([广东省-深圳市-坪山区])的权重值+深圳市路径([广东省-深圳市])的权重值+广东省路径([广东省])的权重值+坪山区自身不是行政区的权重值。
在计算出目标地址节点所对应各个路径对应权重值之后,可将权重值最大的路径作为待识别地址所对应的物流地址,在后续物流配运中采用该物流地址。在上例中,待识别地址“广东省深圳市坪山区龙田街道青松西路聚龙花园”所对应的物流地址即为“广东省深圳市坪山区”。可以理解的是,在本发明实施例中,以最低区级别为示例,对地址识别过程进行说明,因此,本发明实施例的地址识别结果以区级结束。而在实际应用中,地址树中包括更低层级的树节点,因此可根据地址树匹配到道路、楼名和楼号等更细致的物流地址。
进一步地,在本发明实施例中,在确定所述待识别地址对应的物流地址之后,还可以包括:确定所述待识别地址中未出现在所述物流地址中的地址分词所对应的路径,以及所述路径与所述物流地址的重合度;当所述重合度小于预设预警级别时,输出冲突提示信息。
其中,预设预警级别可以表征可以容忍的行政冲突级别。例如设置冲突预警级别为2,待识别地址为“广东省深圳市坪山区福田区龙田街道青松西路聚龙花园”,其对应的物流地址为[广东省-深圳市-坪山区],其中,“福田区”未出现在物流地址中,且其对应的路径为[广东省-深圳市-福田区],该路径是与物流地址的重合度2,没有小于预警级别,不予报警。
然而,假设待识别地址为“广东省深圳市广州市坪山区龙田街道青松西路聚龙花园”,其对应的物流地址为[广东省-深圳市-坪山区],其中,“广州市”未出现在物流地址中,且其对应的路径为[广东省-广州市],与物流地址的重合度为0,已经小于预警级别,予以发出报警。由此,可在发生行政级别冲突时输出冲突提示信息,便于用户重新填写/更正地址,或者便于物流配运人员及时发现问题,从而有利于提高物流配运效率。
根据本发明实施例的一种识别地址的方法可以看出,根据待识别地址的分词结果所得到的地址分词,在预先构建的地址树中匹配相应的地址节点,该地址节点对应于行政区词,再进一步根据匹配得到的地址节点所对应的路径以及路径的权重值,确定出待识别地址对应的实际物流地址。由此,即使在待识别地址中存在省略行政级别词汇的情况下,也可通过确定相应地址分词在地址树中对应的地址节点,进而根据确定出的地址节点所对应的路径准确地确定出待识别地址对应的物流地址,从而提高了地址识别的准确性。
图8是根据本发明实施例的一种识别地址的装置的主要模块的示意图。
如图8所示,本发明实施例的一种识别地址的装置800包括:分词模块801、节点匹配模块802和物流地址确定模块803;其中,
所述分词模块800,用于对待识别地址进行分词,得到一个或多个地址分词;
所述节点匹配模块802,用于根据地址树,确定所述地址分词对应的目标地址节点;所述地址树包括:多个行政区分词分别对应的地址节点、所述地址节点对应的路径以及所述路径的权重值;
所述物流地址确定模块803,用于确定所述待识别地址与所述目标地址节点对应路径的重合度,并根据大于预设阈值的重合度所对应路径的所述权重值,确定所述待识别地址对应的物流地址。
在本发明一个实施例中,所述物流地址确定模块803,用于针对每一个大于预设阈值的重合度所对应的路径,执行:在所述地址树中确定所述路径所对应目标地址节点的至少一个上级节点、以及所述至少一个上级节点分别对应的上级路径;根据所述路径的权重值以及所述上级路径的权重值,确定所述待识别地址对应的物流地址。
在本发明一个实施例中,所述物流地址确定模块803,用于确定所述目标地址节点所对应路径包含的所述地址分词的数量,根据所述数量确定所述重合度。
在本发明一个实施例中,所述物流地址确定模块803,还用于确定所述待识别地址中未出现在所述物流地址中的地址分词所对应的路径,以及所述路径与所述物流地址的重合度;
当所述重合度小于预设预警级别时,输出冲突提示信息。
在本发明一个实施例中,如图8所示,识别地址的装置800还包括地址树构建模块804,其中,所述地址树构建模块804,用于获取标准行政区级关联文件;根据所述标准行政区级关联文件中的标准行政区词、所述标准行政区词对应的层级关系,生成所述地址树中的地址节点。
在本发明一个实施例中,所述地址树构建模块804,用于根据所述标准行政区词的层级关系,确定所述标准行政区词对应的地址节点在所述地址树中的位置;根据所述标准行政区词关联文件,确定与所述标准行政区词的第一行政后缀不同、且与所述标准行政区词属于同一级别的第二行政后缀;根据所述第二行政后缀,生成所述标准行政区词的别名,并将所述标准行政区词与所述别名作为所述地址节点的名称;根据所述位置和所述名称,生成所述地址节点。
在本发明一个实施例中,所述地址树构建模块804,用于根据所述地址节点在所述地址树中的位置,确定所述地址树的根节点到当前地址节点所历经的至少两个地址节点;将确定出的所述至少两个地址节点按层级关系排列,作为所述地址节点对应的路径。
在本发明一个实施例中,所述节点匹配模块802,用于根据所述地址节点的名称,在所述地址树中确定与所述地址分词相同的标准行政区词或所述标准行政区词的别名;将确定出的所述标准行政区词或所述别名对应的地址节点作为所述目标地址节点。
在本发明一个实施例中,所述地址树构建模块804,用于获取已完成配送任务对应的物流地址数据集,所述物流地址数据集包括多个所述已完成配送任务对应的物流地址;针对每一个所述地址节点对应的路径,执行:根据所述路径在所述物流地址数据集中出现的次数、以及所述路径对应的所述地址节点的名称在所述物流地址数据集中出现的次数,计算所述路径的权重值。
在本发明一个实施例中,所述节点匹配模块802,还用于根据所述地址树中的地址节点的名称,对所述地址分词进行过滤;针对过滤后的所述地址分词,确定所述地址分词对应的目标地址节点。
根据本发明实施例的一种识别地址的装置可以看出,根据待识别地址的分词结果所得到的地址分词,在预先构建的地址树中匹配相应的地址节点,该地址节点对应于行政区词,再进一步根据匹配得到的地址节点所对应的路径以及路径的权重值,确定出待识别地址对应的实际物流地址。由此,即使在待识别地址中存在省略行政级别词汇的情况下,也可通过确定相应地址分词在地址树中对应的地址节点,进而根据确定出的地址节点所对应的路径准确地确定出待识别地址对应的物流地址,从而提高了地址识别的准确性。
图9示出了可以应用本发明实施例的一种识别地址的方法或一种识别地址的装置的示例性系统架构900。
如图9所示,系统架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器905可以是提供各种服务的服务器,例如对用户利用终端设备901、902、903所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。
应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图10,其示出了适于用来实现本发明实施例的终端设备的计算机系统1000的结构示意图。图10示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括分词模块、节点匹配模块和物流地址确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,分词模块还可以被描述为“对待识别地址进行分词的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:对待识别地址进行分词,得到一个或多个地址分词;根据地址树,确定所述地址分词对应的目标地址节点;所述地址树包括:多个行政区词分别对应的地址节点、所述地址节点对应的路径以及所述路径的权重值;确定所述待识别地址与所述目标地址节点对应的路径的重合度;根据大于预设阈值的重合度所对应路径的所述权重值,确定所述待识别地址对应的物流地址。
根据本发明实施例的技术方案,根据待识别地址的分词结果所得到的地址分词,在预先构建的地址树中匹配相应的地址节点,该地址节点对应于行政区词,再进一步根据匹配得到的地址节点所对应的路径以及路径的权重值,确定出待识别地址对应的实际物流地址。由此,即使在待识别地址中存在省略行政级别词汇的情况下,也可通过确定相应地址分词在地址树中对应的地址节点,进而根据确定出的地址节点所对应的路径准确地确定出待识别地址对应的物流地址,从而提高了地址识别的准确性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (11)

1.一种识别地址的方法,其特征在于,包括:
对待识别地址进行分词,得到一个或多个地址分词;
根据地址树,确定所述地址分词对应的目标地址节点;所述地址树包括:多个行政区词分别对应的地址节点、所述地址节点对应的路径以及所述路径的权重值;具体包括:根据所述地址节点的名称,在所述地址树中确定与所述地址分词相同的标准行政区词或所述标准行政区词的别名;将确定出的所述标准行政区词或所述别名对应的地址节点作为所述目标地址节点;
确定所述待识别地址与所述目标地址节点对应的路径的重合度;
根据大于预设阈值的重合度所对应路径的所述权重值,确定所述待识别地址对应的物流地址;具体包括:针对每一个大于预设阈值的重合度所对应的路径,执行:在所述地址树中确定所述路径所对应目标地址节点的至少一个上级节点、以及所述至少一个上级节点分别对应的上级路径;根据所述路径的权重值以及所述上级路径的权重值,确定所述待识别地址对应的物流地址。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待识别地址与所述一个或多个目标地址节点分别对应的路径的重合度,包括:
确定所述目标地址节点所对应路径包含的所述地址分词的数量,根据所述数量确定所述重合度。
3.根据权利要求1所述的方法,在确定所述待识别地址对应的物流地址之后,还包括:
确定所述待识别地址中未出现在所述物流地址中的地址分词所对应的路径,以及所述路径与所述物流地址的重合度;
当所述重合度小于预设预警级别时,输出冲突提示信息。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取标准行政区级关联文件;
根据所述标准行政区级关联文件中的标准行政区词、所述标准行政区词对应的层级关系,生成所述地址树中的地址节点。
5.根据权利要求4所述的方法,其特征在于,所述根据所述标准行政区级关联文件中的标准行政区词、所述标准行政区词对应的层级关系,生成所述地址树中的地址节点,包括:
根据所述标准行政区词的层级关系,确定所述标准行政区词对应的地址节点在所述地址树中的位置;
根据所述标准行政区词关联文件,确定与所述标准行政区词的第一行政后缀不同、且与所述标准行政区词属于同一级别的第二行政后缀;
根据所述第二行政后缀,生成所述标准行政区词的别名,并将所述标准行政区词与所述别名作为所述地址节点的名称;
根据所述位置和所述名称,生成所述地址节点。
6.根据权利要求4所述的方法,其特征在于,
根据所述地址节点在所述地址树中的位置,确定所述地址树的根节点到当前地址节点所历经的至少两个地址节点;
将确定出的所述至少两个地址节点按层级关系排列,作为所述地址节点对应的路径。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取已完成配送任务对应的物流地址数据集,所述物流地址数据集包括多个所述已完成配送任务对应的物流地址;
针对每一个所述地址节点对应的路径,执行:根据所述路径在所述物流地址数据集中出现的次数、以及所述路径对应的所述地址节点的名称在所述物流地址数据集中出现的次数,计算所述路径的权重值。
8.根据权利要求1所述的方法,其特征在于,在所述对待识别地址进行分词之后,在所述根据地址树,确定所述地址分词对应的目标地址节点之前,进一步包括:
根据所述地址树中的地址节点的名称,对所述地址分词进行过滤;
针对过滤后的所述地址分词,确定所述地址分词对应的目标地址节点。
9.一种识别地址的装置,其特征在于,包括:分词模块、节点匹配模块和物流地址确定模块;其中,
所述分词模块,用于对待识别地址进行分词,得到一个或多个地址分词;
所述节点匹配模块,用于根据地址树,确定所述地址分词对应的目标地址节点;所述地址树包括:多个行政区分词分别对应的地址节点、所述地址节点对应的路径以及所述路径的权重值;具体用于:根据所述地址节点的名称,在所述地址树中确定与所述地址分词相同的标准行政区词或所述标准行政区词的别名;将确定出的所述标准行政区词或所述别名对应的地址节点作为所述目标地址节点;
所述物流地址确定模块,用于确定所述待识别地址与所述目标地址节点对应路径的重合度,并根据大于预设阈值的重合度所对应路径的所述权重值,确定所述待识别地址对应的物流地址;具体用于:针对每一个大于预设阈值的重合度所对应的路径,执行:在所述地址树中确定所述路径所对应目标地址节点的至少一个上级节点、以及所述至少一个上级节点分别对应的上级路径;根据所述路径的权重值以及所述上级路径的权重值,确定所述待识别地址对应的物流地址。
10.一种识别地址的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202110061427.2A 2021-01-18 2021-01-18 一种识别地址的方法及装置 Active CN113761909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110061427.2A CN113761909B (zh) 2021-01-18 2021-01-18 一种识别地址的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110061427.2A CN113761909B (zh) 2021-01-18 2021-01-18 一种识别地址的方法及装置

Publications (2)

Publication Number Publication Date
CN113761909A CN113761909A (zh) 2021-12-07
CN113761909B true CN113761909B (zh) 2023-11-07

Family

ID=78786406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110061427.2A Active CN113761909B (zh) 2021-01-18 2021-01-18 一种识别地址的方法及装置

Country Status (1)

Country Link
CN (1) CN113761909B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1959712A (zh) * 2006-08-14 2007-05-09 深圳市络道科技有限公司 按投递地址段自动制作商函的方法及其系统
CN103678708A (zh) * 2013-12-30 2014-03-26 小米科技有限责任公司 一种识别预设地址的方法及装置
CN106649464A (zh) * 2016-09-26 2017-05-10 深圳市数字城市工程研究中心 一种中文地址树的构建方法及装置
CN108763215A (zh) * 2018-05-30 2018-11-06 中智诚征信有限公司 一种基于地址分词的地址存储方法、装置及计算机设备
CN110765773A (zh) * 2019-10-31 2020-02-07 北京金堤科技有限公司 地址数据获取方法以及装置
CN111695355A (zh) * 2020-05-26 2020-09-22 平安银行股份有限公司 地址文本识别方法、装置、介质、电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2367917A (en) * 2000-10-12 2002-04-17 Qas Systems Ltd Retrieving data representing a postal address from a database of postal addresses using a trie structure
US10373103B2 (en) * 2015-11-11 2019-08-06 International Business Machines Corporation Decision-tree based address-station matching

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1959712A (zh) * 2006-08-14 2007-05-09 深圳市络道科技有限公司 按投递地址段自动制作商函的方法及其系统
CN103678708A (zh) * 2013-12-30 2014-03-26 小米科技有限责任公司 一种识别预设地址的方法及装置
CN106649464A (zh) * 2016-09-26 2017-05-10 深圳市数字城市工程研究中心 一种中文地址树的构建方法及装置
CN108763215A (zh) * 2018-05-30 2018-11-06 中智诚征信有限公司 一种基于地址分词的地址存储方法、装置及计算机设备
CN110765773A (zh) * 2019-10-31 2020-02-07 北京金堤科技有限公司 地址数据获取方法以及装置
CN111695355A (zh) * 2020-05-26 2020-09-22 平安银行股份有限公司 地址文本识别方法、装置、介质、电子设备

Also Published As

Publication number Publication date
CN113761909A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
US11550826B2 (en) Method and system for generating a geocode trie and facilitating reverse geocode lookups
CN108959244B (zh) 地址分词的方法和装置
CN108628811B (zh) 地址文本的匹配方法和装置
CN111325022B (zh) 识别层级地址的方法和装置
CN103473230A (zh) 服务范围确定方法、物流服务提供方推荐方法及相应装置
CN104516910A (zh) 在客户端服务器环境中推荐内容
CN109684624B (zh) 一种自动识别订单地址路区的方法和装置
CN107247798B (zh) 构建搜索词库的方法和装置
CN112906394A (zh) 地址识别方法、装置、设备和存储介质
CN111339743B (zh) 一种账号生成的方法和装置
CN111414357A (zh) 地址数据处理方法、装置、系统和存储介质
CN113342686B (zh) 一种测试数据生成方法和装置
CN111191153A (zh) 一种信息技术咨询服务展示装置
CN110737820B (zh) 用于生成事件信息的方法和装置
CN113590756A (zh) 信息序列生成方法、装置、终端设备和计算机可读介质
CN110895591A (zh) 一种定位自提点的方法和装置
CN113761909B (zh) 一种识别地址的方法及装置
CN112487188A (zh) 一种舆情监测方法、装置、电子设备和存储介质
CN112148847B (zh) 一种语音信息的处理方法及装置
CN115423030A (zh) 一种设备识别的方法和装置
CN111401051B (zh) 快递信息解析方法及系统
CN114549053A (zh) 数据分析方法、装置、计算机设备及存储介质
CN116414808A (zh) 详细地址规范化的方法、装置、计算机设备和存储介质
CN111475742A (zh) 一种地址提取方法和装置
CN113761102A (zh) 数据处理方法、装置、服务器、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant