CN116049333A - 一种地址数据治理方法、设备及介质 - Google Patents
一种地址数据治理方法、设备及介质 Download PDFInfo
- Publication number
- CN116049333A CN116049333A CN202310084058.8A CN202310084058A CN116049333A CN 116049333 A CN116049333 A CN 116049333A CN 202310084058 A CN202310084058 A CN 202310084058A CN 116049333 A CN116049333 A CN 116049333A
- Authority
- CN
- China
- Prior art keywords
- address data
- administrative division
- level
- name
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013523 data management Methods 0.000 title claims abstract description 21
- 238000002372 labelling Methods 0.000 claims abstract description 41
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 238000010606 normalization Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种地址数据治理方法、设备及介质,方法包括:在预设周期,获取待治理的地址数据;确定地址数据的五级行政区划名称;根据行政区划标准名称表,对五级行政区划名称进行匹配,确定地址数据的五级行政区划标准名称;在地址数据中,确定五级行政区划标准名称所对应的详细地址数据;将详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成详细地址数据中每个字符的标注标签;将标注标签相同的字符进行合并,得到字符组合;根据字符组合,对详细地址数据进行拆分,得到详细地址数据的拆分结果;根据预先设定的数据规范化规则,对详细地址数据的拆分结果进行校验,得到规范化详细地址数据。提升数据治理效率。
Description
技术领域
本申请涉及数据治理技术领域,尤其涉及一种地址数据治理方法、设备及介质。
背景技术
随着各行业信息化进程的不断完善,越来越多的业务流程开始在信息化系统中流转,随之而来的是数字化信息数量的爆炸式增长。大量的数据通过数据录入、业务开展而涌入系统中,既带来了巨大的数据价值挖掘潜力,也伴随着大量的数据质量问题。如何对系统中的数据进行合理的处理和修正,保障数据库内的数据质量,对数据价值的挖掘和信息化项目本身都具有重大意义。
目前,在基层治理场景中,地址数据的质量提升是一个重大的要点。一方面对于基层治理而言,无论对于个人信息还是房产信息,地址字段都是一个必备的重要基础字段,对于入户走访、人房关联等应用场景都具有重大意义。
但是,由于基层治理场景下数据录入缺乏标准依据,不同应用场景和数据来源对于地址数据的解析和录入规则都有所不同,导致数据库中的地址数据一致性很低。
此外,地址信息数据也具有较高的复杂程度,通常包括五级行政区划名称以及道路、小区、楼号、单元、户号等多个详细地址数据字段,对于各个行政区划应当具有标准名称和代码,但是由于村落合并、更名、行政区划变更的具体情况,不同时间、不同系统内的行政区划标准名称也缺乏统一标准,对于详细地址数据的划分和具体名称也没有统一标准。
因此,在地址数据治理过程中,数据治理需要浪费大量人力物力,导致数据治理效率低。
发明内容
本申请实施例提供一种地址数据治理方法、设备及介质,用于解决地址数据治理效率低的问题。
本申请实施例采用下述技术方案:
一方面,本申请实施例提供了一种地址数据治理方法,该方法包括:在预设周期内,获取待治理的地址数据;确定所述地址数据的五级行政区划名称;根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划标准名称表包括预设区域内所对应的五级行政区划标准名称;在所述地址数据中,确定所述五级行政区划标准名称所对应的详细地址数据;将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签;将标注标签相同的字符进行合并,得到字符组合;根据所述字符组合,对所述详细地址数据进行拆分,得到所述详细地址数据的拆分结果;根据预先设定的数据规范化规则,对所述详细地址数据的拆分结果进行校验,得到规范化详细地址数据;根据所述五级行政区划标准名称与所述规范化详细地址数据,生成所述地址数据所对应的标准化地址数据。
一个示例中,所述根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称,具体包括:根据预设构建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定是否具有第一次未匹配的行政区划名称;若是,根据预设正则匹配规则,将所述第一次未匹配的行政区划名称在所述行政区划标准名称表进行匹配,确定所述地址数据的五级行政区划标准名称。
一个示例中,所述根据预设正则匹配规则,将所述第一次未匹配的行政区划名称在所述行政区划标准名称表进行匹配,确定所述地址数据的五级行政区划标准名称,具体包括:根据预设正则匹配规则,将所述第一次未匹配的行政区划名称在所述行政区划标准名称表进行匹配,确定是否具有第二次未匹配的行政区划名称;若是,根据预先构建的行政区划别名表,对所述第二次未匹配的行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划别名表包括在所述预设区域内,五级行政区划标准名称对应的五级行政区划别名。
一个示例中,所述根据预先构建的行政区划别名表,对所述第二次未匹配的行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称之前,所述方法还包括:在所述预设区域内,获取五级行政区划标准名称对应的五级行政区划别名;建立所述五级行政区划标准名称与所述五级行政区划别名之间的第一对应关系;获取所述五级行政区划标准名称对应最新历史合并的多个标准名称,以及所述最新历史合并的多个标准名称所分别对应的别名;根据所述最新历史合并的多个标准名称以及所述最新历史合并的多个标准名称所分别对应的别名,生成所述五级行政区划标准名称的合并信息;对所述五级行政区划标准名称与所述合并信息进行建立第二对应关系;根据所述第一对应关系与所述第二对应关系,构建所述行政区划别名表。
一个示例中,所述根据预先构建的行政区划别名表,对所述第二次未匹配的行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称,具体包括:在所述预先构建的行政区划别名表中,将所述第二次未匹配的行政区划名称与多个行政区划别名进行匹配,确定是否具有第三次未匹配的行政区划名称;若是,则根据合并信息,对所述第三次未匹配的行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称。
一个示例中,所述根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称之前,所述方法还包括:在预设区域内,获取五级行政区划标准名称;提取所述五级行政区划标准名称的多个行政区划级别;根据所述多个行政区划级别,建立所述五级行政区划标准名称对应的隶属关系,以构建所述行政区划标准名称表。
一个示例中,所述根据预先构建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定是否具有第一次未匹配的行政区划名称,具体包括:判断所述五级行政区划名称的级别是否缺失;若是,若缺失级别为非最低级别,则确定缺失级别的下一个低级别;在所述预先构建的行政区划标准名称表中,通过缺失级别的下一个低级别所对应的标准名称以及隶属关系,确定所述缺失级别的标准名称;根据所述缺失级别的标准名称,对所述五级行政区划名称进行补全。
一个示例中,所述将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签之前,所述方法还包括:获取样本地址数据;确定详细地址的标注标签;所述标注标签包括街道名称、小区名称、单元楼名称、单元户名称中的至少一种;根据所述样本地址数据与所述标注标签,对初始详细地址数据标注神经网络模型进行有监督训练,得到所述详细地址数据标注神经网络模型。
另一方面,本申请实施例提供了一种地址数据治理设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:在预设周期内,获取待治理的地址数据;确定所述地址数据的五级行政区划名称;根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划标准名称表包括预设区域内所对应的五级行政区划标准名称;在所述地址数据中,确定所述五级行政区划标准名称所对应的详细地址数据;将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签;将标注标签相同的字符进行合并,得到字符组合;根据所述字符组合,对所述详细地址数据进行拆分,得到所述详细地址数据的拆分结果;根据预先设定的数据规范化规则,对所述详细地址数据的拆分结果进行校验,得到规范化详细地址数据;根据所述五级行政区划标准名称与所述规范化详细地址数据,生成所述地址数据所对应的标准化地址数据。
另一方面,本申请实施例提供了一种地址数据治理非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:在预设周期内,获取待治理的地址数据;确定所述地址数据的五级行政区划名称;根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划标准名称表包括预设区域内所对应的五级行政区划标准名称;在所述地址数据中,确定所述五级行政区划标准名称所对应的详细地址数据;将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签;将标注标签相同的字符进行合并,得到字符组合;根据所述字符组合,对所述详细地址数据进行拆分,得到所述详细地址数据的拆分结果;根据预先设定的数据规范化规则,对所述详细地址数据的拆分结果进行校验,得到规范化详细地址数据;根据所述五级行政区划标准名称与所述规范化详细地址数据,生成所述地址数据所对应的标准化地址数据。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过对地址数据中的五级行政区划名称和详细地址数据分别进行处理,分别生成地址数据的五级行政区划标准名称以及规范化详细地址数据,能够生成地址数据所对应的标准化地址数据,使地址数据的质量得到提升,增强地址信息的可用性,在基层治理、人员管理等具体使用场景,发挥标准化地址数据的作用,提高了地址数据治理的效率以及准确率。
附图说明
为了更清楚地说明本申请的技术方案,下面将结合附图来对本申请的部分实施例进行详细说明,附图中:
图1为本申请实施例提供的一种地址数据治理方法的流程示意图;
图2为本申请实施例提供的一种地址数据治理设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面参照附图来对本申请的一些实施例进行详细说明。
图1为本申请实施例提供的一种地址数据治理方法的流程示意图。该方法可以应用于不同的业务领域,比如,互联网金融业务领域、电商业务领域、即时通讯业务领域、游戏业务领域、公务业务领域等。该流程中的某些输入参数或者中间结果允许人工干预调节,以帮助提高准确性。
本申请实施例涉及的分析方法的实现可以为终端设备,也可以为服务器,本申请对此不作特殊限制。为了方便理解和描述,以下实施例均以服务器为例进行详细描述。
需要说明的是,该服务器可以是单独的一台设备,可以是有多台设备组成的系统,即,分布式服务器,本申请对此不做具体限定。
图1中的流程可以包括以下步骤:
S101:在预设周期内,获取待治理的地址数据。
其中,基于用户的操作,从地址数据治理库中获取指定业务类型的地址数据。需要说明的是,在地址数据治理库中,存储多种业务类型的地址数据,并包括每种业务类型在不同时间段内的上传的地址数据。
S102:确定所述地址数据的五级行政区划名称。
也就是说,提取地址数据中的省份名称、市名称、县名称、乡名称、村名称。比如,通过关键字提取模型,分别提取出省、市、县、乡、村关键字,进而得到各自关键字对应的名称。
S103:根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划标准名称表包括预设区域内所对应的五级行政区划标准名称。
在本申请的一些实施例中,在构建行政区划标准名称表时,在预设区域内,获取五级行政区划标准名称。其中,预设区域可以根据实际需要进行设置,比如,预设区域为全国区域。
然后,提取五级行政区划标准名称的多个行政区划级别,即,五个行政区划级别。最后,根据多个行政区划级别,建立五级行政区划标准名称对应的隶属关系,以构建行政区划标准名称表。其中,隶属关系,则是指每个行政区划标准名称所属级别之间的隶属关系。比如,B市隶属于A省份。更直观地,行政区划标准名称表如表1所示。
表1
在表1中,name列是指五级行政区划标准名称,level列是指行政区划标准名称的级别,code则是指行政区划标准名称的编码,pcode则是指行政区划标准名称之间的隶属关系。
在本申请的一些实施例中,由于存在地址数据不完整的情况,因此,考虑对五级行政区划名称进行补全。
具体地,首先判断五级行政区划名称的级别是否缺失。
若是,若缺失级别为非最低级别,则确定缺失级别的下一个低级别。比如,缺失级别为省份,则缺失级别的下一个低级别是市。
然后,在预先构建的行政区划标准名称表中,通过缺失级别的下一个低级别所对应的标准名称以及隶属关系,确定缺失级别的标准名称。比如,市的标准名称为B市,则根据隶属关系,检索到B市所属省份为A省。
最后,根据缺失级别的标准名称,对五级行政区划名称进行补全。
需要说明的是,在缺失级别为最低级别时,则需要根据地址数据的详细地址数据,在详细地址数据隶属关系表中,查询到详细地址数据所属的村名称。其中,详细地址数据隶属关系表包括了详细地址标准数据所属的村名称。
在本申请的一些实施例中,在对五级行政区划名称进行匹配,确定地址数据的五级行政区划标准名称时,需要考虑由于五级行政区划名称不是标准名称,而无法在行政区划标准名称表匹配成功的情况。
具体地,首先根据预设构建的行政区划标准名称表,对五级行政区划名称进行匹配,确定是否具有第一次未匹配的行政区划名称。
若是,根据预设正则匹配规则,将第一次未匹配的行政区划名称在行政区划标准名称表进行匹配,确定地址数据的五级行政区划标准名称。
需要说明的是,若不具有第一次未匹配的行政区划名称,则执行步骤S104。
进一步地,根据预设正则匹配规则,将第一次未匹配的行政区划名称在行政区划标准名称表进行匹配,确定是否具有第二次未匹配的行政区划名称。
若是,根据预先构建的行政区划别名表,对第二次未匹配的行政区划名称进行匹配,确定地址数据的五级行政区划标准名称;行政区划别名表包括在预设区域内,五级行政区划标准名称对应的五级行政区划别名。
其中,在构建行政区划别名表时,在预设区域内,获取五级行政区划标准名称对应的五级行政区划别名。
然后,建立五级行政区划标准名称与五级行政区划别名之间的第一对应关系。
然后,获取五级行政区划标准名称对应最新历史合并的多个标准名称,以及最新历史合并的多个标准名称所分别对应的别名。并根据最新历史合并的多个标准名称以及最新历史合并的多个标准名称所分别对应的别名,生成五级行政区划标准名称的合并信息。
然后,对五级行政区划标准名称与合并信息进行建立第二对应关系。最后,根据第一对应关系与第二对应关系,构建行政区划别名表。
需要说明的是,若不具有第二次未匹配的行政区划名称,则执行步骤S104。
其中,在预先构建的行政区划别名表中,将第二次未匹配的行政区划名称与多个行政区划别名进行匹配,确定是否具有第三次未匹配的行政区划名称。
若是,则根据合并信息,对第三次未匹配的行政区划名称进行匹配,确定地址数据的五级行政区划标准名称。
需要说明的是,若不具有第三次未匹配的行政区划名称,则执行步骤S104。
S104:在所述地址数据中,确定所述五级行政区划标准名称所对应的详细地址数据。
详细地址数据包括街道名称、小区名称、单元楼名称、单元户名称。
S105:将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签。
需要说明的是,每个字符的标注标签是唯一的。
在本申请的一些实施例中,在构建详细地址数据标注神经网络模型时,首先获取样本地址数据。
然后,确定详细地址的标注标签;标注标签包括街道名称、小区名称、单元楼名称、单元户名称中的至少一种。
然后,根据样本地址数据与所述标注标签,对初始详细地址数据标注神经网络模型进行有监督训练,得到详细地址数据标注神经网络模型。
S106:将标注标签相同的字符进行合并,得到字符组合。
比如,AB字符的标注标签都是小区名称,则将AB进行合并,得到AB小区。
S107:根据所述字符组合,对所述详细地址数据进行拆分,得到所述详细地址数据的拆分结果。
S108:根据预先设定的数据规范化规则,对所述详细地址数据的拆分结果进行校验,得到规范化详细地址数据。
比如,数据规范化规则,比如,包括数字格式、词缀内容等。比如,街道名称不允许阿拉伯数字,需要转换为中文方式进行表达数字。
S109:根据所述五级行政区划标准名称与所述规范化详细地址数据,生成所述地址数据所对应的标准化地址数据。
需要说明的是,虽然本申请实施例是参照图1来对步骤S101至步骤S109依次进行介绍说明的,但这并不代表步骤S101至步骤S109必须按照严格的先后顺序执行。本申请实施例之所以按照图1中所示的顺序对步骤S101至步骤S109依次进行介绍说明,是为了方便本领域技术人员理解本申请实施例的技术方案。换句话说,在本申请实施例中,步骤S101至步骤S109之间的先后顺序可以根据实际需要进行适当调整。
通过图1的方法,通过对地址数据中的五级行政区划名称和详细地址数据分别进行处理,分别生成地址数据的五级行政区划标准名称以及规范化详细地址数据,能够生成地址数据所对应的标准化地址数据,使地址数据的质量得到提升,增强地址信息的可用性,在基层治理、人员管理等具体使用场景,发挥标准化地址数据的作用,提高了地址数据治理的效率以及准确率。
基于同样的思路,本申请的一些实施例还提供了上述方法对应的设备和非易失性计算机存储介质。
图2为本申请实施例提供的一种地址数据治理设备的结构示意图,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
在预设周期内,获取待治理的地址数据;
确定所述地址数据的五级行政区划名称;
根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划标准名称表包括预设区域内所对应的五级行政区划标准名称;
在所述地址数据中,确定所述五级行政区划标准名称所对应的详细地址数据;
将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签;
将标注标签相同的字符进行合并,得到字符组合;
根据所述字符组合,对所述详细地址数据进行拆分,得到所述详细地址数据的拆分结果;
根据预先设定的数据规范化规则,对所述详细地址数据的拆分结果进行校验,得到规范化详细地址数据;
根据所述五级行政区划标准名称与所述规范化详细地址数据,生成所述地址数据所对应的标准化地址数据。
本申请的一些实施例提供的一种地址数据治理非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
在预设周期内,获取待治理的地址数据;
确定所述地址数据的五级行政区划名称;
根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划标准名称表包括预设区域内所对应的五级行政区划标准名称;
在所述地址数据中,确定所述五级行政区划标准名称所对应的详细地址数据;
将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签;
将标注标签相同的字符进行合并,得到字符组合;
根据所述字符组合,对所述详细地址数据进行拆分,得到所述详细地址数据的拆分结果;
根据预先设定的数据规范化规则,对所述详细地址数据的拆分结果进行校验,得到规范化详细地址数据;
根据所述五级行政区划标准名称与所述规范化详细地址数据,生成所述地址数据所对应的标准化地址数据。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请技术原理之内所作的任何修改、等同替换、改进等,均应落入本申请的保护范围之内。
Claims (10)
1.一种地址数据治理方法,其特征在于,所述方法包括:
在预设周期内,获取待治理的地址数据;
确定所述地址数据的五级行政区划名称;
根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划标准名称表包括预设区域内所对应的五级行政区划标准名称;
在所述地址数据中,确定所述五级行政区划标准名称所对应的详细地址数据;
将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签;
将标注标签相同的字符进行合并,得到字符组合;
根据所述字符组合,对所述详细地址数据进行拆分,得到所述详细地址数据的拆分结果;
根据预先设定的数据规范化规则,对所述详细地址数据的拆分结果进行校验,得到规范化详细地址数据;
根据所述五级行政区划标准名称与所述规范化详细地址数据,生成所述地址数据所对应的标准化地址数据。
2.根据权利要求1所述的方法,其特征在于,所述根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称,具体包括:
根据预设构建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定是否具有第一次未匹配的行政区划名称;
若是,根据预设正则匹配规则,将所述第一次未匹配的行政区划名称在所述行政区划标准名称表进行匹配,确定所述地址数据的五级行政区划标准名称。
3.根据权利要求2所述的方法,其特征在于,所述根据预设正则匹配规则,将所述第一次未匹配的行政区划名称在所述行政区划标准名称表进行匹配,确定所述地址数据的五级行政区划标准名称,具体包括:
根据预设正则匹配规则,将所述第一次未匹配的行政区划名称在所述行政区划标准名称表进行匹配,确定是否具有第二次未匹配的行政区划名称;
若是,根据预先构建的行政区划别名表,对所述第二次未匹配的行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划别名表包括在所述预设区域内,五级行政区划标准名称对应的五级行政区划别名。
4.根据权利要求3所述的方法,其特征在于,所述根据预先构建的行政区划别名表,对所述第二次未匹配的行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称之前,所述方法还包括:
在所述预设区域内,获取五级行政区划标准名称对应的五级行政区划别名;
建立所述五级行政区划标准名称与所述五级行政区划别名之间的第一对应关系;
获取所述五级行政区划标准名称对应最新历史合并的多个标准名称,以及所述最新历史合并的多个标准名称所分别对应的别名;
根据所述最新历史合并的多个标准名称以及所述最新历史合并的多个标准名称所分别对应的别名,生成所述五级行政区划标准名称的合并信息;
对所述五级行政区划标准名称与所述合并信息进行建立第二对应关系;
根据所述第一对应关系与所述第二对应关系,构建所述行政区划别名表。
5.根据权利要求4所述的方法,其特征在于,所述根据预先构建的行政区划别名表,对所述第二次未匹配的行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称,具体包括:
在所述预先构建的行政区划别名表中,将所述第二次未匹配的行政区划名称与多个行政区划别名进行匹配,确定是否具有第三次未匹配的行政区划名称;
若是,则根据合并信息,对所述第三次未匹配的行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称。
6.根据权利要求2所述的方法,其特征在于,所述根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称之前,所述方法还包括:
在预设区域内,获取五级行政区划标准名称;
提取所述五级行政区划标准名称的多个行政区划级别;
根据所述多个行政区划级别,建立所述五级行政区划标准名称对应的隶属关系,以构建所述行政区划标准名称表。
7.根据权利要求6所述的方法,其特征在于,所述根据预先构建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定是否具有第一次未匹配的行政区划名称,具体包括:
判断所述五级行政区划名称的级别是否缺失;
若是,若缺失级别为非最低级别,则确定缺失级别的下一个低级别;
在所述预先构建的行政区划标准名称表中,通过缺失级别的下一个低级别所对应的标准名称以及隶属关系,确定所述缺失级别的标准名称;
根据所述缺失级别的标准名称,对所述五级行政区划名称进行补全。
8.根据权利要求1所述的方法,其特征在于,所述将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签之前,所述方法还包括:
获取样本地址数据;
确定详细地址的标注标签;所述标注标签包括街道名称、小区名称、单元楼名称、单元户名称中的至少一种;
根据所述样本地址数据与所述标注标签,对初始详细地址数据标注神经网络模型进行有监督训练,得到所述详细地址数据标注神经网络模型。
9.一种地址数据治理设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
在预设周期内,获取待治理的地址数据;
确定所述地址数据的五级行政区划名称;
根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划标准名称表包括预设区域内所对应的五级行政区划标准名称;
在所述地址数据中,确定所述五级行政区划标准名称所对应的详细地址数据;
将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签;
将标注标签相同的字符进行合并,得到字符组合;
根据所述字符组合,对所述详细地址数据进行拆分,得到所述详细地址数据的拆分结果;
根据预先设定的数据规范化规则,对所述详细地址数据的拆分结果进行校验,得到规范化详细地址数据;
根据所述五级行政区划标准名称与所述规范化详细地址数据,生成所述地址数据所对应的标准化地址数据。
10.一种地址数据治理非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
在预设周期内,获取待治理的地址数据;
确定所述地址数据的五级行政区划名称;
根据预先购建的行政区划标准名称表,对所述五级行政区划名称进行匹配,确定所述地址数据的五级行政区划标准名称;所述行政区划标准名称表包括预设区域内所对应的五级行政区划标准名称;
在所述地址数据中,确定所述五级行政区划标准名称所对应的详细地址数据;
将所述详细地址数据输入预先构建的详细地址数据标注神经网络模型,生成所述详细地址数据中每个字符的标注标签;
将标注标签相同的字符进行合并,得到字符组合;
根据所述字符组合,对所述详细地址数据进行拆分,得到所述详细地址数据的拆分结果;
根据预先设定的数据规范化规则,对所述详细地址数据的拆分结果进行校验,得到规范化详细地址数据;
根据所述五级行政区划标准名称与所述规范化详细地址数据,生成所述地址数据所对应的标准化地址数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310084058.8A CN116049333A (zh) | 2023-02-07 | 2023-02-07 | 一种地址数据治理方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310084058.8A CN116049333A (zh) | 2023-02-07 | 2023-02-07 | 一种地址数据治理方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116049333A true CN116049333A (zh) | 2023-05-02 |
Family
ID=86114609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310084058.8A Pending CN116049333A (zh) | 2023-02-07 | 2023-02-07 | 一种地址数据治理方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049333A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117457135A (zh) * | 2023-12-22 | 2024-01-26 | 四川互慧软件有限公司 | 一种地址数据治理方法和循环神经网络模型构建方法 |
-
2023
- 2023-02-07 CN CN202310084058.8A patent/CN116049333A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117457135A (zh) * | 2023-12-22 | 2024-01-26 | 四川互慧软件有限公司 | 一种地址数据治理方法和循环神经网络模型构建方法 |
CN117457135B (zh) * | 2023-12-22 | 2024-04-09 | 四川互慧软件有限公司 | 一种地址数据治理方法和循环神经网络模型构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019616B (zh) | 一种poi现势状态获取方法及其设备、存储介质、服务器 | |
CN111160045B (zh) | 一种游戏资源文件翻译方法、装置及设备 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN116049333A (zh) | 一种地址数据治理方法、设备及介质 | |
CN110232156B (zh) | 基于长文本的信息推荐方法及装置 | |
CN111475511A (zh) | 基于树状结构的数据存储方法、访问方法、装置及设备 | |
WO2019080419A1 (zh) | 标准知识库的构建方法、电子装置及存储介质 | |
CN116680278A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114490673B (zh) | 数据信息处理方法、装置、电子设备及存储介质 | |
CN108595395B (zh) | 一种昵称的生成方法、装置及设备 | |
CN116151235A (zh) | 文章生成方法、文章生成模型训练方法及相关设备 | |
CN114138787A (zh) | 一种条码识别方法、设备及介质 | |
CN110866085A (zh) | 数据反馈方法与装置 | |
CN115563942A (zh) | 一种合同生成方法、装置、电子设备及计算机可读介质 | |
CN111125087A (zh) | 数据的存储方法及装置 | |
CN114519529A (zh) | 基于卷积自编码器的企业信用评级方法、设备及介质 | |
CN113344074A (zh) | 模型训练方法、装置、设备及存储介质 | |
CN112069807A (zh) | 文本数据的主题提取方法、装置、计算机设备及存储介质 | |
CN111639490A (zh) | 楼盘数据处理方法、装置、电子设备和存储介质 | |
CN111178025A (zh) | 核电站运行导则的编辑方法、装置、计算机设备及存储介质 | |
CN111143582A (zh) | 一种双索引实时更新联想词的多媒体资源推荐方法及装置 | |
CN113535737B (zh) | 特征的生成方法、装置、电子设备及计算机存储介质 | |
US11709994B1 (en) | Contextual answer generation in spreadsheets | |
CN114880430B (zh) | 名称处理方法及装置 | |
CN113761909B (zh) | 一种识别地址的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |