CN118012853A

CN118012853A - 一种楼栋地址数据标准化处理方法与系统

Info

Publication number: CN118012853A
Application number: CN202311862718.7A
Authority: CN
Inventors: 李睿; 张民
Original assignee: Beijing Shanghai Wentian Technology Development Co ltd
Current assignee: Beijing Shanghai Wentian Technology Development Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-05-10

Abstract

本发明提供了一种楼栋地址数据标准化处理方法与系统，包括：根据楼栋地址数据信息进行分隔符分割，得到分割地址数据；基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分和匹配，得到关键词数据信息；基于所述关键词数据信息进行标准地址合成，得到标准地址信息；本发明利用深度学习算法和自然语言处理技术，可以高效准确地处理楼栋地址数据，能够更准确地识别和分析地址数据中的关键信息，从而生成高质量的标准地址数据。

Description

一种楼栋地址数据标准化处理方法与系统

技术领域

本发明涉及地址数据处理技术领域，特别涉及一种楼栋地址数据标准化处理方法与系统。

背景技术

目前，随着城市化进程的加速和互联网技术的发展，地址数据的标准化和规范化处理变得越来越重要。特别是对于楼栋地址数据，其标准化处理不仅可以提高地址数据的质量，还能为后续的搜索、定位等应用提供准确的数据支持。

然而，由于地址数据的复杂性和多样性，现有的技术往往难以满足这一需求。现有的在楼栋地址数据标准化处理中存在的问题，主要包括：(1)地址数据格式不一致：不同来源的地址数据可能采用不同的格式，如中文、拼音、英文等；(2)地址数据缺失或错误：部分地址数据可能存在缺失或错误的问题，如缺少楼栋号、街道名称拼写错误等；(3)地址数据冗余：某些地址数据可能包含多余的信息，如重复的省份、城市名称等。

发明内容

本发明用以解决现有技术中在处理楼栋地址数据时数据格式不一致、数据缺失和数据冗余的情况，提供了一种车辆闯红灯的识别方法，包括：

根据楼栋地址数据信息进行分隔符分割，得到分割地址数据；

基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分和匹配，得到关键词数据信息；

基于所述关键词数据信息进行标准地址合成，得到标准地址信息。

优选的，所述根据楼栋地址数据信息进行分隔符分割，得到分割地址数据，包括：

步骤S1：基于预先定义的分隔符数据库，判断所述楼栋地址数据信息中是否存在所述分隔符数据库中的特殊字符，若是，执行步骤S2；否则，执行步骤S3；

步骤S2：对所述楼栋地址数据信息中的特殊字符进行去除处理，得到去除特殊字符后的楼栋地址数据信息，并执行步骤S3；

步骤S3：判断所述楼栋地址数据信息中是否存在所述分隔符数据库中的分隔字符，若是，执行步骤S4；

步骤S4：利用所述分隔字符对所述楼栋地址数据信息进行分割，得到分割地址数据并停止执行。

优选的，所述基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分和匹配，得到关键词数据信息，包括：

基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分，得到所述分割地址数据对应的切分数据；

基于所述分割地址数据对应的切分数据进行关键词匹配，得到关键词数据信息。

优选的，所述基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分，得到所述分割地址数据对应的切分数据，包括：

基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行一次切分，得到所述地址分级标准中不同的分级单位对应的切分数据；

基于所述地址分级标准中不同的分级单位对应的切分数据，利用预先构建的命名实体识别模型进行二次切分，得到所述分割地址数据对应的切分数据。

优选的，所述基于所述关键词数据信息进行标准地址合成，得到标准地址信息，包括：

基于所述关键词数据信息，利用所述地址分级标准进行补全和纠偏，得到初级标准信息；

对所述初级标准信息进行标准地址合成，得到初级合成地址；

基于所述初级合成地址，利用预先训练的自然语言模型进行评分，得到所述初级合成地址对应的标准得分；

根据所述标准得分，确定标准地址信息。

优选的，所述基于所述关键词数据信息，利用所述地址分级标准进行补全和纠偏，得到初级标准信息，包括：

基于所述关键词数据信息，利用所述地址分级标准，判断所述关键词数据信息中是否存在缺失信息；

若是，对所述关键词数据信息中的缺失信息进行补全；

若否，基于所述关键词数据信息，利用所述地址分级标准，判断所述关键词数据信息中是否存在错误信息，若存在，对所述关键词数据信息中的错误信息进行纠偏，得到初级标准信息；若不存在，将所述关键词数据信息作为初级标准信息。

优选的，所述根据所述标准得分，确定标准地址信息，包括：

当所述标准得分小于或等于分数阈值，获取所述初级合成地址的人工校验结果是否通过，若所述人工校验结果通过，将所述初级合成地址作为标准地址信息，并将所述标准地址信息同步保存至预设的标准数据库；若所述人工校验结果未通过，删除所述楼栋地址数据信息；

当所述标准得分大于所述分数阈值，将所述初级合成地址作为标准地址信息，并将所述标准地址信息同步保存至所述标准数据库。

基于同一发明构思，本发明还提供了一种楼栋地址数据标准化处理系统，包括：

信息分割模块：用于根据楼栋地址数据信息进行分隔符分割，得到分割地址数据；

关键词匹配模块：用于基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分和匹配，得到关键词数据信息；

标准地址合成模块：用于基于所述关键词数据信息进行标准地址合成，得到标准地址信息。

优选的，所述信息分割模块，具体用于：

优选的，所述关键词匹配模块，具体用于：

优选的，所述关键词匹配模块中基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分，得到所述分割地址数据对应的切分数据，包括：

优选的，所述标准地址合成模块，具体用于：

根据所述标准得分，确定标准地址信息。

优选的，所述标准地址合成模块中基于所述关键词数据信息，利用所述地址分级标准进行补全和纠偏，得到初级标准信息，包括：

若是，对所述关键词数据信息中的缺失信息进行补全；

优选的，所述标准地址合成模块中根据所述标准得分，确定标准地址信息，包括：

与最接近的现有技术相比，本发明具有的有益效果如下：

本发明提供了一种楼栋地址数据标准化处理方法与系统，包括：根据楼栋地址数据信息进行分隔符分割，得到分割地址数据；基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分和匹配，得到关键词数据信息；基于所述关键词数据信息进行标准地址合成，得到标准地址信息；本发明结合深度学习算法和自然语言处理技术，可以高效准确地处理楼栋地址数据，能够更准确地识别和分析楼栋地址数据中的关键信息，从而生成高质量的标准地址数据。

本发明的其它特征将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提供的一种楼栋地址数据标准化处理方法的流程示意图；

图2为本发明提供的一种楼栋地址数据标准化处理方法中进行分隔符分割的流程示意图；

图3为本发明提供的一种楼栋地址数据标准化处理方法的整体框架示意图；

图4为本发明提供的一种楼栋地址数据标准化处理系统的结构组成示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，“多个”的含义是两个或两个以上，除非另有明确具体的限定。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

实施例1：

本发明提供了一种楼栋地址数据标准化处理方法，包括：

步骤1：根据楼栋地址数据信息进行分隔符分割，得到分割地址数据；

步骤2：基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分和匹配，得到关键词数据信息；

步骤3：基于所述关键词数据信息进行标准地址合成，得到标准地址信息。

具体的，步骤1包括：

步骤2，包括：

所述基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分，得到所述分割地址数据对应的切分数据，包括：

所述地址分级标准包括：按国家、省/直辖市/自治区/特别行政区、(地级)市/盟/自治州/区、县/区/旗/(县级)市、乡镇/社区/街道、小区/村/庄/屯/弄等；

小区地址：包含道路和小区名称；

楼栋地址：包含楼号、单元门号、楼层号等几部分；

步骤3，包括：

根据所述标准得分，确定标准地址信息。

所述基于所述关键词数据信息，利用所述地址分级标准进行补全和纠偏，得到初级标准信息，包括：

若是，对所述关键词数据信息中的缺失信息进行补全；

所述根据所述标准得分，确定标准地址信息，包括：

当所述标准得分大于所述分数阈值，将所述初级合成地址作为标准地址信息，并将所述标准地址信息同步保存至所述标准数据库；

所述标准数据库是根据国家行政区划预先建立一个标准的地址数据库，数据库的内容需要根据每次新得到并解析之后的地址来实时更新。

本发明提供的一种楼栋地址数据标准化处理方法，整体框架示意图如图3所示，当接收到一个新的楼栋地址数据时，按如下流程进行标准化处理，具体包括：

(1)特殊字符处理：将文本中特殊字符，如&％换行符等去除，特殊字符为特殊字符数据库中预定义的一些字符，可以通过不断收集数据中遇到的特殊字符来持续更新此特殊字符数据库。

(2)分隔符分割：利用文本中的逗号、空格、破折号等特殊字符对地址文本数据进行切分，将其分为不同的部分。

(3)正则表达式匹配及分割：利用正则表达式将文本分成不同的问题，主要利用地址分级标准中的“市”“省”、“自治区”、“县”、“社区”、“小区”“社区”、“楼”、“栋”、“号”、“单元”、“路”等相关关键字进行匹配切分，切分完成之后变成多个不同的词语。

(4)命名实体识别二次分割：对于第(3)个步骤中切分出来的每一个词语再利用命名实体识别模型进行二次切分，防止地址中没有上述步骤中所列的关键字，比如“北京海淀区中关村8号院”中没有“市”的关键字，那么“北京海淀”就会被分成一组词语，经过命名实体识别模型二次切分之后，就可以把“北京”、“海淀”这两个词语切分开。

(5)关键字匹配：经过切分之后的词语，按照关键字匹配与地址分级标准中的制定的标准数据库进行匹配，形成一个初具标准的地址，比如“北京”会被转成“北京市”。

(6)标准地址合成：按照地址分级标准中定义的标准地址将经过第(5)步之后得到的词组合成标准地址，这一步骤不只是简单的组合，需要进行补全和纠偏两个步骤，补全主要是将地址中缺失的行政区划部分补全，比如北京市中关村路这条地址中缺失海淀区的行政区划，那么根据国家行政区划的划分就需要把海淀区这个地址补全。纠偏主要是将错误的行政区划进行纠正，比如地址“北京通州区中关村路”，那么需要把“通州区”修改为“海淀区”。这两个步骤的主要方法是通过预先设定的国家行政区划标准进行补全和纠偏。

(7)自然语言模型打分

对于第(6)步合成的标准地址，使用自然语言模型进行打分，此分类用来评估合成的地址是否合理，是否符合标准地址，当分数超过某一特定的阈值时，认为合成的地址是正确的，可以直接将结果保存到数据库内。

当分数低于某一特定的阈值时，进入人工校验环节。

(8)人工校验：人工校验合成的地址，判断是否是一个真正的地址，如果不是真正的地址，那么将这条数据舍弃，如果确实是真正的地址，那么将其修改正确生成标准地址。

(9)生成标准地址：人工修改之后生成标准地址。

(10)保存数据，更新标准数据库。

本发明提供的方法结合深度学习算法和自然语言处理技术，可以高效准确地处理楼栋地址数据，能够更准确地识别和分析楼栋地址数据中的关键信息，从而生成高质量的标准地址数据。其次，本发明还能实现多源数据融合，可处理多种来源的楼栋地址数据，包括公开数据、用户上传数据等，从而有利于提高地址数据的质量。

实施例2：

本发明提供了一种楼栋地址数据标准化处理系统，包括：

所述信息分割模块，具体用于：

所述关键词匹配模块，具体用于：

所述关键词匹配模块中基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分，得到所述分割地址数据对应的切分数据，包括：

所述标准地址合成模块，具体用于：

根据所述标准得分，确定标准地址信息。

所述标准地址合成模块中基于所述关键词数据信息，利用所述地址分级标准进行补全和纠偏，得到初级标准信息，包括：

若是，对所述关键词数据信息中的缺失信息进行补全；

所述标准地址合成模块中根据所述标准得分，确定标准地址信息，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种楼栋地址数据标准化处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据楼栋地址数据信息进行分隔符分割，得到分割地址数据，包括：

3.如权利要求1所述的方法，其特征在于，所述基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分和匹配，得到关键词数据信息，包括：

4.如权利要求3所述的方法，其特征在于，所述基于预先构建的地址分级标准，利用正则表达式对所述分割地址数据进行关键词切分，得到所述分割地址数据对应的切分数据，包括：

5.如权利要求1所述的方法，其特征在于，所述基于所述关键词数据信息进行标准地址合成，得到标准地址信息，包括：

根据所述标准得分，确定标准地址信息。

6.如权利要求5所述的方法，其特征在于，所述基于所述关键词数据信息，利用所述地址分级标准进行补全和纠偏，得到初级标准信息，包括：

若是，对所述关键词数据信息中的缺失信息进行补全；

7.如权利要求5所述的方法，其特征在于，所述根据所述标准得分，确定标准地址信息，包括：

8.一种楼栋地址数据标准化处理系统，其特征在于，包括：

9.如权利要求8所述的系统，其特征在于，所述信息分割模块，具体用于：

10.如权利要求8所述的系统，其特征在于，所述标准地址合成模块，具体用于：基于所述关键词数据信息，利用所述地址分级标准进行补全和纠偏，得到初级标准信息；

根据所述标准得分，确定标准地址信息。