CN112181978A - 地址存储结构、地址解析方法、装置、介质及计算机设备 - Google Patents

地址存储结构、地址解析方法、装置、介质及计算机设备 Download PDF

Info

Publication number
CN112181978A
CN112181978A CN202010838191.4A CN202010838191A CN112181978A CN 112181978 A CN112181978 A CN 112181978A CN 202010838191 A CN202010838191 A CN 202010838191A CN 112181978 A CN112181978 A CN 112181978A
Authority
CN
China
Prior art keywords
address
address data
level
standard
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010838191.4A
Other languages
English (en)
Inventor
牛寒松
谢素丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202010838191.4A priority Critical patent/CN112181978A/zh
Publication of CN112181978A publication Critical patent/CN112181978A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种地址存储结构、地址解析方法、装置、介质及计算机设备,该地址存储结构包括超树模块,用于存储预设行政区划数据对应的一级地址数据,超树模块包括至少一层超树结点;子树模块,用于存储二级地址数据,子树模块包括超树模块的子结点;尾地址模块,用于存储三级地址数据,尾地址模块包括子树模块的子结点。通过本申请实现对不同级别的地址数据在行政级别上进行了划分归类,实现对预设行政区划数据的结构化存储,有效地避免了市级以下的地址重名问题,提升存储效率,并且有效避免人工规则的构建方法,有效减少人为构建存储结构所带入的差错,便于实际应用场景当中地址的快速精准解析。

Description

地址存储结构、地址解析方法、装置、介质及计算机设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种地址存储结构、地址解析方法、装置、介质及计算机设备。
背景技术
行政区划数据是按从大到小的行政区域划分进行书写的,通常是按照地址要素之间的从属关系,分为三个层次,通常第一层次为行政区划部分,主要包括省级、市级、县级、乡镇,第二层次为街巷名和小区名,第三层次为门楼址和兴趣点名。这种行政区划数据通常具有行政区划特征词,并且是有序层次排列的,从而能够利于人们去区分和定位该行政区划数据所对应的地理位置。但是在很多应用场景中,存在大量的自然语言描述的行政区划数据,这种行政区划数据常常存在结构模糊混乱、拼写错误、数据不完整、信息冗余、地址歧义、无规律性且辨识度非常低的问题,导致难以确定该行政区划数据所表达的地理位置,从而无法提供有效的位置服务。
相关技术中的地址存储结构,无法有效地避免市级以下的地址重名问题,存储效率不高,基于人工规则的存储容易带入人为差错,影响地址存储结构的应用效果。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出一种地址存储结构、地址解析方法、装置、介质及计算机设备,实现对不同级别的地址数据在行政级别上进行了划分归类,实现对预设行政区划数据的结构化存储,有效地避免了市级以下的地址重名问题,提升存储效率,并且有效避免人工规则的构建方法,有效减少人为构建存储结构所带入的差错,便于实际应用场景当中地址的快速精准解析。
为达到上述目的,本申请第一方面实施例提出的地址存储结构,包括:超树模块,用于存储预设行政区划数据对应的一级地址数据,所述超树模块包括至少一层超树结点;子树模块,用于存储二级地址数据,所述子树模块包括所述超树模块的子结点;尾地址模块,用于存储三级地址数据,所述尾地址模块包括所述子树模块的子结点。
本申请第一方面实施例提出的地址存储结构,通过构建地址存储结构,该地址存储结构包括超树模块,用于存储预设行政区划数据对应的一级地址数据,超树模块包括至少一层超树结点,子树模块,用于存储二级地址数据,子树模块包括超树模块的子结点,尾地址模块,用于存储三级地址数据,尾地址模块包括子树模块的子结点,实现对不同级别的地址数据在行政级别上进行了划分归类,实现对预设行政区划数据的结构化存储,有效地避免了市级以下的地址重名问题,提升存储效率,并且有效避免人工规则的构建方法,有效减少人为构建存储结构所带入的差错,便于实际应用场景当中地址的快速精准解析。
为达到上述目的,本申请第二方面实施例提出的地址解析方法,包括:对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,所述至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种;根据所述至少一个级别的初始地址数据,从本申请第一方面实施例提出的地址存储结构之中匹配出标准地址数据;根据所述标准地址数据形成标准地址。
本申请第二方面实施例提出的地址解析方法,通过对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种,并根据至少一个级别的初始地址数据,从预先构建的地址存储结构之中匹配出标准地址数据,以及根据标准地址数据形成标准地址,从而能够有效减短地址解析路径,提升地址解析的灵活性,从而提升地址解析的时效性和解析效果。
为达到上述目的,本申请第三方面实施例提出的地址解析装置,包括:划分模块,用于对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,所述至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种;匹配模块,用于根据所述至少一个级别的初始地址数据,从本申请第一方面实施例提出的地址存储结构之中匹配出标准地址数据;生成模块,用于根据所述标准地址数据形成标准地址。
本申请第三方面实施例提出的地址解析装置,通过对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种,并根据至少一个级别的初始地址数据,从预先构建的地址存储结构之中匹配出标准地址数据,以及根据标准地址数据形成标准地址,从而能够有效减短地址解析路径,提升地址解析的灵活性,从而提升地址解析的时效性和解析效果。
本申请第四方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由计算机设备的处理器被执行时,使得计算机设备能够执行一种地址解析方法,所述方法包括:本申请第二方面实施例提出的地址解析方法。
本申请第四方面实施例提出的非临时性计算机可读存储介质,通过对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种,并根据至少一个级别的初始地址数据,从预先构建的地址存储结构之中匹配出标准地址数据,以及根据标准地址数据形成标准地址,从而能够有效减短地址解析路径,提升地址解析的灵活性,从而提升地址解析的时效性和解析效果。
本申请第五方面实施例提出的计算机设备,所述计算机设备包括:壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述计算机设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行本申请第二方面实施例提出的地址解析方法。
本申请第五方面实施例提出的计算机设备,通过对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种,并根据至少一个级别的初始地址数据,从预先构建的地址存储结构之中匹配出标准地址数据,以及根据标准地址数据形成标准地址,从而能够有效减短地址解析路径,提升地址解析的灵活性,从而提升地址解析的时效性和解析效果。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一实施例提出的地址存储结构的结构示意图;
图2为本申请实施例中超树模块示意图;
图3为本申请实施例中子树模块示意图;
图4为本申请实施例中预设行政区划数据示意图;
图5是本申请一实施例提出的地址解析方法的流程示意图;
图6是本申请另一实施例提出的地址解析方法的流程示意图;
图7是本申请另一实施例提出的地址解析方法的流程示意图;
图8是本申请一实施例提出的地址解析装置的结构示意图;
图9是本申请一个实施例提出的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一实施例提出的地址存储结构的结构示意图。
参见图1,该地址存储结构10包括:超树模块101、子树模块102,以及尾地址模块103,其中,超树模块101,用于存储预设行政区划数据对应的一级地址数据,超树模块包括至少一层超树结点;子树模块102,用于存储二级地址数据,子树模块102包括超树模块101的子结点;尾地址模块103,用于存储三级地址数据,尾地址模块103包括子树模块的子结点。
其中,预设行政区划数据可以用于描述标准的中文地址,中文地址例如为,浙江省衢州市常山县天马街道东明社区文峰路东苑小区13幢1单元802室,或者,也可以为其它任意语言的地址,对此不做限制。
本申请实施例中,可以根据预设行政区划数据去构建地址存储结构,从而采用该地址存储结构去辅助实际的地址解析方面的应用。
基于本申请实施例构建的地址存储结构的地址解析应用,可以具体参见后续实施例。
本申请实施例中,在构建地址存储结构时,可以首先获得海量的标准的地址,并对各个标准的地址进行分词处理,从而将各个分词作为预设行政区划数据。
举例而言,对浙江省衢州市常山县天马街道东明社区文峰路东苑小区13幢1单元802室分词,得到各个分词:浙江省、衢州市、常山县、天马街道、东明社区、文峰路、东苑小区、13幢1单元802,则前述各个分词,即可以被称为预设行政区划数据。
上述的超树模块,用于存储预设行政区划数据对应的一级地址数据。
也即是说,本申请实施例中对预设行政区划数据进行了划分,划分为一级地址数据、二级地址数据,以及三级地址数据,实现对不同级别的地址数据在行政级别上进行了划分归类,实现对预设行政区划数据的层次性存储,便于后续地址的快速精准解析。
本申请实施例中超树模块包括至少一层超树结点。
一些实施例中,预设行政区划数据对应的一级地址数据包括至少一个级别的行政区划,超树结点用于存储对应级别行政区划。
其中,行政区划是行政区域划分的简称,是国家为了进行分级管理而实行的区域划分。
一些实施例中,超树结点包括根结点,超树结点的层次随行政区划级别的减小而增加,相同层次的超树结点存储的行政区划级别相同。
一些实施例中,至少一个级别的行政区划具有可枚举性。
行政区划级别例如为,国家级别行政区划、省级别行政区划、市级别行政区划,市级别行政区划下辖的县级别行政区划,和/或区级别行政区划,和/或县级市级别行政区划,由此可见,上述行政区划级别的划分是依据管辖权限划分得到的,而通常市级别行政区划,市级别行政区划下辖的行政区划,可能随着历史的变迁产生变化,由此,本申请实施例中还可以配置至少一个级别的行政区划具有可枚举性,从而使得地址存储结构能够适应于实际应用场景的需求,具有较好的灵活性和适用性。
参见图2,图2为本申请实施例中超树模块示意图,其中包括了四层超树结点,四层超树结点为第零层超树结点20(第零层超树结点即可以被称为根结点)、第一层超树结点21、第二层超树结点22、第三层超树结点23,其中,第零层超树结点20存储国家级别行政区划,第一层超树结点21存储省级别行政区划,第二层超树结点22存储市级别行政区划,第三层超树结点23存储市级别行政区划下辖的县级别行政区划,和/或区级别行政区划,和/或县级市级别行政区划。
可选地,一些实施例中,子树模块包括至少一个二级地址子树,二级地址子树的起始结点的父结点,为超树模块中层次数最大的超树结点,二级地址数据包括至少一个级别的地址部分,二级地址子树中的子结点,用于存储二级地址数据中对应级别的地址部分。
上述的地址部分,可以具体例如为天马街道、东明社区、文峰路、东苑小区,也即是说,地址部分为一个标准的地址的乡镇地名、村级地名、街道、号/社区,乡镇地名、村级地名、街道、号/社区的级别各不相同,在构建地址存储结构时,是依据各个地址部分的级别对应构建相应层级的地址子树中的子结点的,属于相同行政区划的地址部分,被划分至同一个二级地址子树中,从而使得该二级地址子树中的子结点,存储二级地址数据中对应级别的地址部分,并且该二级地址子树中的子结点,存储的是同一个行政区划下辖的地址部分。
参见图3,图3为本申请实施例中子树模块示意图,其中示出了一个二级地址子树31,二级地址子树31的父结点,为超树模块中层次数最大的超树结点32,二级地址子树31中的子结点存储的地址部分,同属于相同的行政区划“衢江区”。
可选地,本申请实施例中还为了避免人工构建二级地址子树所引入的差错,提升二级地址子树的构建准确性和构建效率,还根据预设地址词库计算二级地址数据与一级地址数据的之间的似然概率;根据似然概率确定二级地址子树的起始结点的父结点。
也即是说,本申请实施例中实现采用最大似然估计方法构建二级地址子树,根据预设地址词库计算二级地址数据与一级地址数据的之间的似然概率,从而选择似然概率最大的一级地址数据对应的超树结点作为父结点,并构建所确定的父结点对应的二级地址子树。
一些实施例中,尾地址模块包括至少一个三级地址子树,三级地址子树的起始结点的父结点,为二级地址子树中的子结点,三级地址数据包括至少一个级别的尾地址部分,三级地址子树中的子结点,用于存储三级地址数据中对应级别的尾地址部分。
举例而言,三级地址数据包括至少一个级别的尾地址部分,尾地址部分可以具体例如,13幢1单元802,尾地址部分用于描述预设行政区划数据中的幢、单元、层、号,幢、单元、层、号的级别各不相同,在构建地址存储结构时,是依据各个尾地址部分的级别对应构建相应层级的三级地址子树中的子结点,属于相同级别的尾地址部分,被划分至同一个三级地址子树中,从而使得该三级地址子树中的子结点,存储三级地址数据中对应级别的尾地址部分,并且该三级地址数据中的子结点,存储的是同一个行政区划下辖的尾地址部分。
由此,本申请实施例中,根据预设行政区划数据划分得到的一级地址数据、二级地址数据、三级地址数据的示意可以参见图4,图4为本申请实施例中预设行政区划数据示意图,其中包含了一级地址数据、二级地址数据、三级地址数据,一级地址数据包括行政区划部分,二级地址数据包括地址部分,而三级地址数据包括尾地址部分。
一些实施例中,尾地址部分包括:数字和关键字,其中,根据尾地址部分包含的数字和关键字确定尾地址部分对应的级别,三级地址子树中的子结点所存储的尾地址部分,可采用正则表达式匹配得到。
也即是说,本申请实施例中的尾地址模块,该层主要存储的是预设行政区划数据的尾地址部分,具体关键字为幢、单元、层、号,或者也可以为其他未知的地址信息,并配置尾地址模块可以配置由数字和关键字组成,可以尾地址部分包含的数字和关键字确定尾地址部分对应的级别,从而辅助对尾地址部分进行准确地、层次化的划分和存储,并辅助后续的高效遍历。
本实施例中,通过构建地址存储结构,该地址存储结构包括超树模块,用于存储预设行政区划数据对应的一级地址数据,超树模块包括至少一层超树结点,子树模块,用于存储二级地址数据,子树模块包括超树模块的子结点,尾地址模块,用于存储三级地址数据,尾地址模块包括子树模块的子结点,实现对不同级别的地址数据在行政级别上进行了划分归类,实现对预设行政区划数据的结构化存储,有效地避免了市级以下的地址重名问题,提升存储效率,并且有效避免人工规则的构建方法,有效减少人为构建存储结构所带入的差错,便于实际应用场景当中地址的快速精准解析。
图5是本申请一实施例提出的地址解析方法的流程示意图。
本实施例以地址解析方法被配置为地址解析装置中来举例说明。
本实施例中地址解析方法可以被配置在地址解析装置中,地址解析装置可以设置在服务器中,或者也可以设置在计算机设备中,本申请实施例对此不作限制。
本实施例以地址解析方法被配置在计算机设备中为例。
需要说明的是,本申请实施例的执行主体,在硬件上可以例如为服务器或者计算机设备中的中央处理器(Central Processing Unit,CPU),在软件上可以例如为服务器或者计算机设备中的相关的后台服务,对此不作限制。
参见图5,该方法包括:
S501:对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种。
其中,目标行政区划数据例如为DL_ID_1这条地址:浙江省衢州市常山县天马街道东明社区文峰路东苑小区13幢1单元802室。
当对目标行政区划数据进行划分时,可以采用相关技术中的分词算法对目标行政区划数据进行分词,并结合预设地址词库确定划分得到的各个分词属于的行政区划级别,从而将划分得到的分词作为初始地址数据,并根据相应的行政区划级别确定出初始地址数据对应的级别,对此不做限制。
例如,可以采用通常的分词算法对目标行政区划数据进行分词,从而得到至少一个的初始地址数据,该分词算法可以配置为已学习到目标行政区划数据和其中的各个初始地址数据之间的组合关系,或者,也可以将目标行政区划数据输入到一个预训练的地址分词模型中,根据该地址分词模型的输出确定至少一个的初始地址数据。
作为一种示例,目标行政区划数据为DL_ID_1这条地址:浙江省衢州市常山县天马街道东明社区文峰路东苑小区13幢1单元802室,从而对该目标行政区划数据DL_ID_1进行分词,得到至少一个初始地址数据:浙江省,衢州市,常山县,天马街道,东明社区,文峰路,东苑小区,13幢,1单元,802室。
上述对目标行政区划数据进行分词得到的初始地址数据对应于上述实施例中所构建的地址存储结构中的不同层级的结点,也即是说,各个初始地址数据属于相同或者不相同的存储模块(存储模块例如,超树模块、子树模块,以及尾地址模块),本实施例中可以根据初始地址数据从上述构建的地址存储结构之中匹配出标准地址数据,从而对上述的目标行政区划数据进行相应的处理,以形成标准地址数据。
上述在对目标行政区划数据进行分词得到的初始地址数据,还可以根据至少一个的初始地址数据形成地址数据序列,从而能够对目标行政区划数据进行数据标准化处理,辅助后续高效地地址解析。
S502:根据至少一个级别的初始地址数据,从上述实施例中所构建的地址存储结构之中匹配出标准地址数据。
而针对地址存储结构的构建过程,可以具体参见上述实施例,在此不再赘述。
一些实施例中,在根据至少一个级别的初始地址数据,从上述实施例中所构建的地址存储结构之中匹配出标准地址数据时,可以是确定各个初始地址数据对应于地址存储结构内的层级,并根据各个初始地址数据对应的层级,从地址存储结构内匹配出标准地址数据,也即是说,本申请可以实现首先识别各个初始地址数据对应于地址存储结构内的层级,从而直接基于该层级去匹配相应的标准地址数据,而不是直接采用各个初始地址数据去地址存储结构内进行匹配,可以有效地提升匹配效率,从而有效提升了地址解析的时效性。
作为一种示例,假设对该目标行政区划数据DL_ID_1进行划分,得到至少一个初始地址数据:浙江省,衢州市,常山县,天马街道,东明社区,文峰路,东苑小区,13幢,1单元,802室,本申请实施例在对该目标行政区划数据进行解析时,可以基于预配置的规则确定每个初始地址数据对应于地址存储结构内的层级,假设浙江省的层级为第一层级,衢州市的层级为第二层级,常山县的层级为第三层级,以此类推,则相应的,直接在地址存储结构内的第一层级的存储结构中去匹配浙江省,在地址存储结构内的第二层级的存储结构内去匹配衢州市,以及在地址存储结构内的第三层级的存储结构内去匹配常山县,以此类推,直至匹配出与各个初始地址数据对应的标准地址数据。
当然,也可以采用其他任意可能的方式根据至少一个级别的初始地址数据,从上述实施例所示的地址存储结构之中匹配出标准地址数据,例如,编码的方式,建模的方式,工程学的方式等,对此不作限制。
S503:根据标准地址数据形成标准地址。
上述在根据至少一个级别的初始地址数据,从上述实施例中构建的地址存储结构之中匹配出标准地址数据之后,可以对各个标准地址数据结合地址存储结构之中的存储层级进行拼接处理,从而根据标准地址数据形成标准地址。
本实施例中,通过对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种,并根据至少一个级别的初始地址数据,从预先构建的地址存储结构之中匹配出标准地址数据,以及根据标准地址数据形成标准地址,从而能够有效减短地址解析路径,提升地址解析的灵活性,从而提升地址解析的时效性和解析效果。
图6是本申请另一实施例提出的地址解析方法的流程示意图。
参见图6,根据至少一个级别的初始地址数据,从地址存储结构之中匹配出标准地址数据的步骤,还可以包括:
S601:如果初始地址数据为一级地址数据,或者为二级地址数据,则从超树模块或者子树模块之中匹配出标准一级地址数据或者标准二级地址数据。
S602:在尾地址模块之中,确定隶属于标准一级地址数据或者标准二级地址数据的多个候选三级地址数据。
其中,尾地址模块之中的三级地址数据,和超树模块之中的一级地址数据以及子树模块之中的二级地址数据具有隶属关系,子树模块之中的二级地址数据和超树模块之中的一级地址数据也具有隶属关系,该隶属关系具体为管辖权限上的隶属关系,由此,本申请实施例中从超树模块或者子树模块之中匹配出标准一级地址数据或者标准二级地址数据,可以直接在尾地址模块之中,确定隶属于标准一级地址数据或者标准二级地址数据的多个候选的三级地址数据。
也即是说,本实施例实现直接在尾地址模块之中,确定隶属于标准一级地址数据或者标准二级地址数据的多个候选的三级地址数据,从而辅助后续从多个候选的三级地址数据匹配出标准的三级地址数据,缩小了在尾地址模块内的匹配范围,由此,有效减短地址解析路径,进而提升地址解析的灵活性。
S603:从多个候选三级地址数据之中匹配出标准三级地址数据。
S604:将匹配出的标准一级地址数据或者标准二级地址数据、标准三级地址数据共同作为标准地址数据。
作为一种示例,将多条不同形式的目标行政区划数据输入,分别对各条目标行政区划数据进行划分,得出与每条目标行政区划数据对应的初始地址数据的序列,通过在地址存储结构中检索判断输出其是否为同一个标准地址单元,也即是说,通过在超树模块之中检索来确定对应的二级地址子树,通过在对应的二级地址子树检索选取出三级地址子树,通过在三级地址子树检索确定标准三级地址数据,若多条目标行政区划数据指向同一标准三级地址数据,则表示多条目标行政区划数据在语义上表示相同地址。
例如,假设对该目标行政区划数据DL_ID_1进行分词,得到至少一个初始地址数据的序列:1、浙江省,2、衢州市,3、常山县,4、天马街道,5、东明社区,6、文峰路,7东苑小区,8、13幢,9、1单元,10、802室,首先根据1、2、3的一级地址数据搜索到为“常山县”的二级地址子树,而后,在该二级地址子树中逐级搜索,直到找到第7号的二级地址数据“文苑小区”所对应的结点;在“文苑小区”所对应的树结点的三级地址子树之中,找到对应于8号初始地址数据“13幢”的标准三级地址数据,以此类推,匹配出最后一个标准三级地址数据“802室”所对应的树结点,以同样的方式对第二条目标行政区划数据XZ_ID_1(浙江省衢州市常山县东明社区东苑小区13幢1单元802室)进行相应处理,若检索结果为同一个树结点对应的标准三级地址数据,则两条目标行政区划数据记录的地址语义是相同的。
本实施例中,通过在初始地址数据为一级地址数据,或者为二级地址数据,则从超树模块或者子树模块之中匹配出标准一级地址数据或者标准二级地址数据,并在尾地址模块之中,确定隶属于标准一级地址数据或者标准二级地址数据的多个候选三级地址数据,从多个候选三级地址数据之中匹配出标准三级地址数据,以及将匹配出的标准一级地址数据或者标准二级地址数据、标准三级地址数据共同作为标准地址数据,不仅仅能够实现从地址存储结构内匹配出标准地址数据,还能够实现对目标行政区划数据进行归一化处理,假设存在两个字面上不相同的目标行政区划数据,则可以采用本实施例中的方法去去判定这两个目标行政区划数据是否指向同一个地址。
图7是本申请另一实施例提出的地址解析方法的流程示意图。
参见图7,根据至少一个级别的初始地址数据,从地址存储结构之中匹配出标准地址数据的步骤,还可以包括:
S701:如果初始地址数据为三级地址数据时,从尾地址模块之中匹配出标准三级地址数据。
本实施例应用在对目标行政区划数据进行标准化处理的应用场景中,在实际应用场景中,可能会存在描述方的目标行政区划数据不齐全的情况,则可以在地址存储结构中查询相应级别的标准地址数据,而后,通过不断回溯上层结点的方式,直到地址存储结构的根结点,即可得到标准三级地址数据、标准二级地址数据或者标准一级地址数据,作为标准地址数据。
S702:在子树模块或者超树模块中,确定所匹配出的标准三级地址数据隶属于的标准二级地址数据或者标准一级地址数据。
S703:将匹配出的标准三级地址数据、标准二级地址数据或者标准一级地址数据共同作为标准地址数据。
本实施例对目标行政区划数据进行标准化处理,是一个从下至上逐层回溯解析的过程,以从下至上的顺序逐层回溯以匹配出各个级别的标准地址数据,如果初始地址数据为三级地址数据,则从尾地址模块之中匹配出标准三级地址数据后,逐层向地址存储结构的上层覆盖,在子树模块或者超树模块中,确定所匹配出的标准三级地址数据隶属于的标准二级地址数据或者标准一级地址数据,将匹配出的标准三级地址数据、标准二级地址数据或者标准一级地址数据共同作为标准地址数据,从而实现对目标行政区划数据进行标准化处理。
作为一种示例,算法1:输入:目标行政区划数据,对目标行政区划数据进行划分,确定划分得到的初始地址数据属于的级别,并在地址存储结构中对应的模块中搜索到相应的标准地址数据,循环直到达到根结点,获取上级结点对应的标准地址数据,从而拼接各级结点对应的标准地址数据。
举例而言,以目标行政区划数据为DL_ID_4(衢江区东升社区地质小区1-1-103)为例,对该条目标行政区划数据进行划分得到如下初始地址数据的序列:1、衢江区,2、东升社区,3、地质小区,4、1-1-103,其中,第3号初始地址数据“地质小区”为一个小区名,为二级地址数据,首先在地址存储结构的子树模块中找到“地质小区”对应的二级地址子树,然后向上逐级检索路径上的结点,获得“浙江省”,“衢州市”,“衢江区”,“浮石街道”,“浮石二桥路”,并将尾地址部分转换为“1幢”,“1单元”,“1层”,“103室”四个标准三级地址数据,而后将所有级别的标准地址数据拼接为标准化后的行政区划数据,从而实现了对目标行政区划数据进行标准化处理。
本实施例中,通过在初始地址数据为三级地址数据时,从尾地址模块之中匹配出标准三级地址数据,并在子树模块或者超树模块中,确定所匹配出的标准三级地址数据隶属于的标准二级地址数据或者标准一级地址数据,以及将匹配出的标准三级地址数据、标准二级地址数据或者标准一级地址数据共同作为标准地址数据,能够实现对目标行政区划数据进行标准化处理,从而提升地址解析的适用性,扩展地址解析的应用场景。
图8是本申请一实施例提出的地址解析装置的结构示意图。
参见图8,该装置800包括:
划分模块801,用于对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种;
匹配模块802,用于根据至少一个级别的初始地址数据,从如权利要求1-9任一项的地址存储结构之中匹配出标准地址数据。
生成模块803,用于根据标准地址数据形成标准地址。
在本申请的一些实施例中,匹配模块802,具体用于:
如果初始地址数据为一级地址数据,或者为二级地址数据,则从超树模块或者子树模块之中匹配出标准一级地址数据或者标准二级地址数据;
在尾地址模块之中,确定隶属于标准一级地址数据或者标准二级地址数据的多个候选三级地址数据;
从多个候选三级地址数据之中匹配出标准三级地址数据;
将匹配出的标准一级地址数据或者标准二级地址数据、标准三级地址数据共同作为标准地址数据。
在本申请的一些实施例中,匹配模块802,具体用于:
如果初始地址数据为三级地址数据时,从尾地址模块之中匹配出标准三级地址数据;
在子树模块或者超树模块中,确定所匹配出的标准三级地址数据隶属于的标准二级地址数据或者标准一级地址数据;
将匹配出的标准三级地址数据、标准二级地址数据或者标准一级地址数据共同作为标准地址数据。
需要说明的是,前述图5-图7实施例中对地址解析方法实施例的解释说明也适用该实施例的地址解析装置800,其实现原理类似,此处不再赘述。
本实施例中,通过对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种,并根据至少一个级别的初始地址数据,从预先构建的地址存储结构之中匹配出标准地址数据,以及根据标准地址数据形成标准地址,从而能够有效减短地址解析路径,提升地址解析的灵活性,从而提升地址解析的时效性和解析效果。
图9是本申请一个实施例提出的计算机设备的结构示意图。
参见图9,本实施例的计算机设备900包括壳体901、处理器902、存储器903、电路板904和电源电路905,其中,电路板904安置在壳体901围成的空间内部,处理器902和存储器903设置在电路板904上;电源电路905,用于为计算机设备900的各个电路或器件供电;存储器903用于存储可执行程序代码;处理器902通过读取存储器903中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行:
对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种;
根据至少一个级别的初始地址数据,从如权利要求1-9任一项的地址存储结构之中匹配出标准地址数据;
根据标准地址数据形成标准地址。
需要说明的是,前述图5-图7实施例中对地址解析方法实施例的解释说明也适用该实施例的计算机设备900,其实现原理类似,此处不再赘述。
本实施例中,通过对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种,并根据至少一个级别的初始地址数据,从预先构建的地址存储结构之中匹配出标准地址数据,以及根据标准地址数据形成标准地址,从而能够有效减短地址解析路径,提升地址解析的灵活性,从而提升地址解析的时效性和解析效果。
为了实现上述实施例,本申请实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例的地址解析方法。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (17)

1.一种地址存储结构,其特征在于,包括:
超树模块,用于存储预设行政区划数据对应的一级地址数据,所述超树模块包括至少一层超树结点;
子树模块,用于存储二级地址数据,所述子树模块包括所述超树模块的子结点;
尾地址模块,用于存储三级地址数据,所述尾地址模块包括所述子树模块的子结点。
2.如权利要求1所述的地址存储结构,其特征在于,所述预设行政区划数据对应的一级地址数据包括至少一个级别的行政区划,所述超树结点用于存储对应级别行政区划。
3.如权利要求2所述的地址存储结构,其特征在于,所述超树结点包括根结点,所述超树结点的层次随行政区划级别的减小而增加,相同层次的超树结点存储的行政区划级别相同。
4.如权利要求2或3所述的地址存储结构,其特征在于,所述至少一个级别的行政区划具有可枚举性。
5.如权利要求1所述的地址存储结构,其特征在于,所述子树模块包括至少一个二级地址子树,所述二级地址子树的起始结点的父结点,为所述超树模块中层次数最大的超树结点,所述二级地址数据包括至少一个级别的地址部分,所述二级地址子树中的子结点,用于存储所述二级地址数据中对应级别的地址部分。
6.如权利要求5所述的地址存储结构,其特征在于,其中,
根据预设地址词库计算所述二级地址数据与所述一级地址数据的之间的似然概率;
根据所述似然概率确定二级地址子树的起始结点的父结点。
7.如权利要求1所述的地址存储结构,其特征在于,所述尾地址模块包括至少一个三级地址子树,所述三级地址子树的起始结点的父结点,为所述二级地址子树中的子结点,所述三级地址数据包括至少一个级别的尾地址部分,所述三级地址子树中的子结点,用于存储所述三级地址数据中对应级别的尾地址部分。
8.如权利要求7所述的地址存储结构,其特征在于,所述尾地址部分包括:数字和关键字,其中,根据所述尾地址部分包含的数字和关键字确定所述尾地址部分对应的级别。
9.如权利要求7所述的地址存储结构,其特征在于,所述三级地址子树中的子结点所存储的尾地址部分,可采用正则表达式匹配得到。
10.一种地址解析方法,其特征在于,所述方法包括:
对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,所述至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种;
根据所述至少一个级别的初始地址数据,从如权利要求1-9任一项所述的地址存储结构之中匹配出标准地址数据;
根据所述标准地址数据形成标准地址。
11.如权利要求10所述的地址解析方法,其特征在于,根据所述至少一个级别的初始地址数据,从所述地址存储结构之中匹配出标准地址数据,包括:
如果所述初始地址数据为所述一级地址数据,或者为所述二级地址数据,则从所述超树模块或者所述子树模块之中匹配出标准一级地址数据或者标准二级地址数据;
在所述尾地址模块之中,确定隶属于所述标准一级地址数据或者标准二级地址数据的多个候选三级地址数据;
从所述多个候选三级地址数据之中匹配出标准三级地址数据;
将匹配出的所述标准一级地址数据或者标准二级地址数据、所述标准三级地址数据共同作为所述标准地址数据。
12.如权利要求10所述的地址解析方法,其特征在于,根据所述至少一个级别的初始地址数据,从所述地址存储结构之中匹配出标准地址数据,包括:
如果所述初始地址数据为所述三级地址数据时,从所述尾地址模块之中匹配出标准三级地址数据;
在所述子树模块或者所述超树模块中,确定所匹配出的标准三级地址数据隶属于的标准二级地址数据或者标准一级地址数据;
将所述匹配出的标准三级地址数据、所述标准二级地址数据或者所述标准一级地址数据共同作为所述标准地址数据。
13.一种地址解析装置,其特征在于,所述装置包括:
划分模块,用于对目标行政区划数据进行划分,得到至少一个级别的初始地址数据,所述至少一个级别的初始地址数据为一级地址数据、二级地址数据,以及三级地址数据的一种或多种;
匹配模块,用于根据所述至少一个级别的初始地址数据,从如权利要求1-9任一项所述的地址存储结构之中匹配出标准地址数据;
生成模块,用于根据所述标准地址数据形成标准地址。
14.如权利要求13所述的地址解析装置,其特征在于,所述匹配模块,具体用于:
如果所述初始地址数据为所述一级地址数据,或者为所述二级地址数据,则从所述超树模块或者所述子树模块之中匹配出标准一级地址数据或者标准二级地址数据;
在所述尾地址模块之中,确定隶属于所述标准一级地址数据或者标准二级地址数据的多个候选三级地址数据;
从所述多个候选三级地址数据之中匹配出标准三级地址数据;
将匹配出的所述标准一级地址数据或者标准二级地址数据、所述标准三级地址数据共同作为所述标准地址数据。
15.如权利要求13所述的地址解析装置,其特征在于,所述匹配模块,具体用于:
如果所述初始地址数据为所述三级地址数据时,从所述尾地址模块之中匹配出标准三级地址数据;
在所述子树模块或者所述超树模块中,确定所匹配出的标准三级地址数据隶属于的标准二级地址数据或者标准一级地址数据;
将所述匹配出的标准三级地址数据、所述标准二级地址数据或者所述标准一级地址数据共同作为所述标准地址数据。
16.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求10-12中任一项所述的地址解析方法。
17.一种计算机设备,所述计算机设备包括壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述计算机设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如权利要求10-12中任一项所述的地址解析方法。
CN202010838191.4A 2020-08-19 2020-08-19 地址存储结构、地址解析方法、装置、介质及计算机设备 Pending CN112181978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010838191.4A CN112181978A (zh) 2020-08-19 2020-08-19 地址存储结构、地址解析方法、装置、介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010838191.4A CN112181978A (zh) 2020-08-19 2020-08-19 地址存储结构、地址解析方法、装置、介质及计算机设备

Publications (1)

Publication Number Publication Date
CN112181978A true CN112181978A (zh) 2021-01-05

Family

ID=73919609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010838191.4A Pending CN112181978A (zh) 2020-08-19 2020-08-19 地址存储结构、地址解析方法、装置、介质及计算机设备

Country Status (1)

Country Link
CN (1) CN112181978A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393544A (zh) * 2008-10-07 2009-03-25 南京师范大学 面向地址编码的中文地址语义解析方法
CN107679187A (zh) * 2017-09-30 2018-02-09 浪潮软件股份有限公司 一种中文地址树的构建方法及装置
CN107748778A (zh) * 2017-10-20 2018-03-02 浪潮软件股份有限公司 一种提取地址的方法及装置
CN110569239A (zh) * 2019-09-19 2019-12-13 圆通速递有限公司 一种快递包裹地址标准化的方法和系统
CN111353309A (zh) * 2019-12-25 2020-06-30 北京合力亿捷科技股份有限公司 基于文本分析处理通信质量投诉地址的方法及系统
CN111444299A (zh) * 2020-03-25 2020-07-24 福州市勘测院 基于地址树模型的中文地址提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393544A (zh) * 2008-10-07 2009-03-25 南京师范大学 面向地址编码的中文地址语义解析方法
CN107679187A (zh) * 2017-09-30 2018-02-09 浪潮软件股份有限公司 一种中文地址树的构建方法及装置
CN107748778A (zh) * 2017-10-20 2018-03-02 浪潮软件股份有限公司 一种提取地址的方法及装置
CN110569239A (zh) * 2019-09-19 2019-12-13 圆通速递有限公司 一种快递包裹地址标准化的方法和系统
CN111353309A (zh) * 2019-12-25 2020-06-30 北京合力亿捷科技股份有限公司 基于文本分析处理通信质量投诉地址的方法及系统
CN111444299A (zh) * 2020-03-25 2020-07-24 福州市勘测院 基于地址树模型的中文地址提取方法

Similar Documents

Publication Publication Date Title
CN108292310B (zh) 用于数字实体相关的技术
CN102395965B (zh) 用于在数据库中搜索对象的方法
Jiang et al. Cross-language citation recommendation via hierarchical representation learning on heterogeneous graph
CN113434623B (zh) 一种基于多源异构空间规划数据的融合方法
CN112347222A (zh) 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
KR20120096894A (ko) 데이터베이스 검색방법, 네비게이션 장치 및 인덱스 구조 생성 방법
US11397855B2 (en) Data standardization rules generation
CN114218932B (zh) 基于故障因果图谱的航空故障文本摘要生成方法及其装置
Chen et al. Georeferencing places from collective human descriptions using place graphs
CN111291099B (zh) 一种地址模糊匹配方法、系统及计算机设备
Moura et al. Reference data enhancement for geographic information retrieval using linked data
Olteanu Raimond et al. Data matching–a matter of belief
CN113535871B (zh) 基于出行图谱的车辆目的地预测方法、装置、设备及介质
CN114595302A (zh) 空间要素的多层级空间关系构建方法、装置、介质及设备
CN114118310A (zh) 基于综合相似度的聚类方法和装置
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
EP3407206A1 (en) Reconciled data storage system
Fan et al. DuMapper: Towards Automatic Verification of Large-Scale POIs with Street Views at Baidu Maps
CN112181978A (zh) 地址存储结构、地址解析方法、装置、介质及计算机设备
CN114049642A (zh) 一种表格证件影像件的文本识别方法及计算设备
CN113010642A (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
CN112287005A (zh) 一种数据处理方法、装置、服务器及介质
Seydi et al. Premodern Geographical Description: Data Retrieval and Identification
CN117744784B (zh) 一种医学科研知识图谱构建与智能检索方法及系统
CN116226686B (zh) 一种表格相似性分析方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination