CN108228825A

CN108228825A - 一种基于分词的用户地址数据清洗方法

Info

Publication number: CN108228825A
Application number: CN201810001145.1A
Authority: CN
Inventors: 韩金丽; 李洪根; 张大兵; 赵新磊
Original assignee: Beijing Gas Group Co Ltd
Current assignee: Beijing Gas Group Co Ltd
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2018-06-29
Anticipated expiration: 2038-01-02
Also published as: CN108228825B

Abstract

本发明公开了一种基于分词的用户地址数据清洗方法，该方法包括如下步骤：步骤1，构建元数据库，且元数据库中存储有标准地址数据；步骤2，读取并基于元数据库识别用户地址数据中的特征字符，然后以特征字符作为依据对用户地址数据进行分词操作，从而提取出多个地址子数据；步骤3，将多个地址子数据与标准地址数据进行匹配，通过标准地址数据修正用户地址数据。本发明不要求原始数据的规范性，对数据源的要求低，因而本发明适用范围广；通过构建实际的元数据库实现对不规范或不确定的地址进行匹配和清洗，不仅有效地降低了数据清洗工作量和数据清洗时间，而且有效解决了不规范地址匹配难的问题，实现对不规范地址的快速和有效匹配。

Description

一种基于分词的用户地址数据清洗方法

技术领域

本发明涉及数据处理技术领域，更为具体来说，本发明为一种基于分词的用户地址数据清洗方法。

背景技术

“脏数据”主要指不一致/不准确的数据、陈旧数据及人为造成的错误数据等，其直接影响数据的质量，进而影响到企业决策的准确性和成本的投入量。据统计，一些企业的数据错误率预期在1％-5％，有些可能更高，“脏数据”会给企业带来风险和成本追加。其中，地址数据是企业的重要数据，地址“脏数据”直接影响企业实际业务发展，因此，进行地址数据清洗对企业的大数据业务推进有很大帮助。现有的地址数据清洗方法主要包括如下几种。

(1)基于一般分词方法的改进，比如，机械分词方法和基于统计的分词方法等。

(2)通过训练数据的方式构建用于数据清洗的匹配规则，比如添加新的规则或改进有限状态自动机等。

但是，地址数据纷繁复杂、表述不一，现有方法存在与实际地址匹配难的问题，无法进行针对性地有效匹配，还会产生匹配规则多样和冗余的问题，而且构建匹配规则本身就消耗大量的时间和工作量。因此，现有的这两种方法均存在针对性差、无法很好地匹配不确定的地址，难以对地址数据进行有效、可靠的清洗，而且还存在耗时长、复杂度高、工作量大的问题。

因此，针对现有技术中存在的地址数据匹配难、耗时长、复杂度高、工作量大的问题，在地址数据清洗的过程中，如何有效降低工作量、缩短清洗时间、提高清洗效率，成为了本领域技术人员亟待解决的技术问题和始终研究的重点。

发明内容

为解决现有地址数据清洗方法存在的耗时长、复杂度高、工作量大等问题，本发明创新地提出了一种基于分词的用户地址数据清洗方法，通过构建元数据库的方式实现对标准地址数据的分词、提取及修正，以达到对用户地址数据进行清洗的目的，该方法对用户地址数据的规范性要求较低，具有广泛的适用性，从而解决现有技术中存在的工作量大、清洗时间长、清洗效率低等问题。

为实现上述的技术目的，本发明公开了一种基于分词的用户地址数据清洗方法，所述方法包括如下步骤，

步骤1，构建元数据库，所述元数据库中存储有标准地址数据，所述标准地址数据中包含与地址相关的所有种类的特殊字符；

步骤2，读取并基于元数据库识别用户地址数据中的特征字符，然后以所述特征字符作为依据对所述用户地址数据进行分词操作，从而提取出多个地址子数据；

步骤3，将所述多个地址子数据与所述标准地址数据进行匹配，通过所述标准地址数据修正所述用户地址数据。

本发明不要求原始数据的规范性，对数据源的要求低，所以，本发明具有适用范围广的优点；本发明通过构建实际的元数据库实现对不规范或不确定的地址进行匹配和清洗，不仅有效降低了数据清洗工作量和减少了数据清洗时间，而且有效解决了不规范地址匹配难的问题，实现对不规范地址的快速和有效匹配，因此本发明具有耗时短、速度快等优点，避免了现有技术中的大量的冗余工作。另外，本发明还具有较好的扩展性。

进一步地，所述特征字符包括行政区域信息、街道信息、小区信息、楼信息、单元信息及门牌号信息。

基于上述改进的技术方案，使本发明的针对性更强、适用性更好，可对现有用户地址数据进行合理和有效的分词，实现分词后的地址子数据与标准地址数据的成功匹配，已完成对用户地址数据的快速、准确修正。

进一步地，步骤2中，包括依据小区信息进行分词操作后提取出小区地址子数据的步骤；

步骤3中，通过成功匹配的小区地址子数据和标准地址数据构建小区别名知识库；其中，所述小区别名知识库用于在以后的数据清洗过程与待清洗的地址子数据进行匹配。

进一步地，步骤3中，与小区标准名称相比较，所述小区别名知识库中包括如下类型的小区别名：小区别名中包含小区全称和简称、小区别名中存在冗余信息、小区别名中数字大小不统一、小区别名错误但是其经过地理定位后与小区标准名称对应的坐标相同。

基于上述改进的技术方案，本发明创新地构建了小区别名知识库，使本发明能够利用小区别名知识库与用户地址数据中的小区信息进行快速、高效匹配，从而极大地提高了本发明的数据清洗速度；特别针对不规范的地址匹配难的问题，本发明能够有效解决上述问题，提高了不规范地址的匹配准确率。

进一步地，步骤2中，包括依据楼信息进行分词操作后提取出房型地址子数据的步骤；

步骤3中，将房型地址子数据中的特殊字符进行归类，利用归类结果构建房型知识库；其中，所述房型知识库用于确定修正后的用户地址数据中的房型信息。

进一步地，所述房型知识库中包含四类房型：板楼、塔楼、平房及别墅。

进一步地，步骤3中，在通过所述标准地址数据修正所述用户地址数据的过程中，如果用户地址数据中的特征字符未在标准地址数据中出现，则将多个地址子数据与标准地址数据进行模糊匹配，利用匹配成功的标准地址数据替换用户地址数据，以完成对用户地址数据的修正。

进一步地，步骤1中，在构建元数据库时，将分词规则数据存储于数据库中；

步骤2中，利用所述分词规则对所述用户地址数据进行分词操作。

进一步地，所述用户地址数据为结构化数据。

本发明的有益效果为：针对不规范用户地址数据，本发明提出了一种快速有效的用户地址数据清洗方法，通过元数据库提供了分词依据和匹配依据，并在进行地址匹配的同时构建了准确的地址知识库，从而有效提高了后续的用户地址数据清洗效率。本发明还具有开发工作量小、周期短、速度快等突出优点。

附图说明

图1为基于分词的用户地址数据清洗方法的流程示意图。

具体实施方式

下面结合说明书附图对本发明的基于分词的用户地址数据清洗方法进行详细的解释和说明。

数据清洗的原理就是通过分析脏数据的产生原因及存在形式，对数据流的过程进行考察、分析，并总结出一些方法(如数理统计、数据挖掘或预定义规则等方法)，将脏数据转化成满足数据质量要求的数据。

如图1所示，本发明公开了一种基于分词的用户地址数据清洗方法，该方法包括如下步骤，

步骤1，构建基于行政区域、街道、小区、楼、单元及门牌的元数据库，且元数据库中存储有标准地址数据和分词规则数据，标准地址数据中包含与地址相关的所有种类的特殊字符；本实施例中，为便于用户数据的读取和处理，用户地址数据可为结构化数据；按照国内的实际地址划分，特征字符包括行政区域信息、街道信息、小区信息、楼信息、单元信息及门牌号信息，“所有种类”应当理解为：“行政区域类、街道类、小区类、楼类、单元类及门牌号类”。需要说明的是，本发明涉及的元数据指描述数据的数据，是实现本发明基于特征字符进行分词的基础。对于本步骤，随着时间推移，用户可将新的分词规则或者新的行政区域、街道、小区、楼、单元及门牌信息写入元数据库，从而有效提高了本发明的扩展性。

步骤2，读取并基于元数据库识别用户地址数据中的特征字符，然后以特征字符作为依据对用户地址数据进行分词操作，从而提取出多个地址子数据，将用户地址数据按照逻辑意义分为行政区域、街道、小区、楼、单元及门牌六组信息，当然，在本发明的技术启示下，也可单独建立特征字符数据库，从而实现对用户地址数据中的特征字符进行更有效地读取和识别；本实施例中，利用分词规则对用户地址数据进行分词操作，比如，从当前用户地址数据的左侧开始进行分词，或者从右侧开始进行分词等等，在具体实施时，本发明可以通过构建能够较好的识别领域词汇的小型分词系统就能满足要求；更为具体来说，本发明包括依据小区信息进行分词操作后提取出小区地址子数据的步骤，以及包括依据楼信息进行分词操作后提取出房型地址子数据的步骤。以小区层面为例，对于实际地址的分词模式，可包括如下12种情况：

1)x号院+门牌；

2)普通小区+x号楼+门牌；

3)普通小区+x单元+门牌；

4)xx胡同x号+xxx；

5)普通小区+x号楼+x单元+门牌；

6)x号院+x号楼+x单元+门牌；

7)x号院+x号楼+门牌；

8)x号院+x单元+门牌；

9)x号+x号楼+x单元+门牌；

10)x号+x号楼+门牌；

11)x号+x单元+门牌；

12)x号+门牌。

步骤3，将多个地址子数据与标准地址数据进行匹配，通过标准地址数据修正用户地址数据，以完成对用户地址数据的修改或替换，从而实现用户地址数据的标准化和统一化。更为具体地，在通过标准地址数据修正用户地址数据的过程中，如果用户地址数据中的特征字符未在标准地址数据中出现，则将当前存在的多个地址子数据(截取部分字符)与标准地址数据进行模糊匹配，利用匹配成功的标准地址数据替换用户地址数据，以完成对用户地址数据的修正。另外，为了保证相同类型字符串间的匹配，地址信息中若有数字或西文信息应先将其分离，然后再将其分割。

在本发明中，可通过成功匹配的小区地址子数据和标准地址数据构建小区别名知识库；其中，小区别名知识库用于在以后的数据清洗过程与待清洗的地址子数据进行匹配，所以随着本发明使用时间的增加，用户地址清洗速度也会有效增加，从而有效提高匹配的速度和准确率。本实施例中，与小区标准名称相比较，小区别名知识库中包括如下类型的小区别名：小区别名中包含小区全称和简称、小区别名中存在冗余信息、小区别名中数字大小不统一、小区别名错误但是其经过地理定位后与小区标准名称对应的坐标相同。具体实施时，前三种情况可通过计算机结合人工的的方式规范统一，第四种情况可通过定位软件(比如高德)API获取不同小区的地理坐标后进行地理坐标比对分析。

当然，在本发明的技术启示下，可建立其他类型的别名知识库，比如，街道别名知识库、楼别名知识库等。

在本发明中，还将房型地址子数据中的特殊字符进行归类，利用归类结果构建房型知识库，该步骤也是实现用户地址标准化的过程，通过楼号表达的差异区分楼型，比如，楼号名称中包含“栋”关键字的小区一般为别墅区，包含“院落”关键词的多数为平房；其中，房型知识库用于确定修正后的用户地址数据中的房型信息。本实施例中，房型知识库中包含四类房型：板楼、塔楼、平房及别墅。

在具体实施时，通过小区别名知识库和房型知识库可构建小区名称知识库，可以进行小区名之间的匹配。将每个小区对应的户看做一个“簇”，小区名之间的匹配即簇名之间的匹配，进行匹配后建立了簇与簇之间的实际联系。基于小区名之间匹配结果进一步进行小区内详细地址的逐条匹配，只有小区、楼号、单元、门牌这四个元组逐一匹配才算是完全匹配，做好相应的数据库标记即完成地址的匹配。最后得到的标准地址库和地址匹配结果就是企业需要的地址清洗结果。

中文地理编码一般包括地址标准化,地址分词,数据库匹配,空间定位等几个步骤，其中地址标准化是指通过更改格式和纠正拼写等方法对地址数据进行规范化处理；地址分词是指通过某种中文分词算法将地址分解成多个最小地址要素；数据库匹配是指在标准地址数据库中查找与之匹配的记录；空间定位是指根据查找到的匹配记录的空间属性,将该地址定位到电子地图上去。地址要素是指在某一限定区域内,可以指定某一具体范围的地址。一个通信地址是由一个或多个地址要素组成,每个地址要素为地址串中的一个相对独立的部分。

在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分词的用户地址数据清洗方法，其特征在于：所述方法包括如下步骤，

2.根据权利要求1所述的基于分词的用户地址数据清洗方法，其特征在于：所述特征字符包括行政区域信息、街道信息、小区信息、楼信息、单元信息及门牌号信息。

3.根据权利要求2所述的基于分词的用户地址数据清洗方法，其特征在于：

步骤2中，包括依据小区信息进行分词操作后提取出小区地址子数据的步骤；

4.根据权利要求3所述的基于分词的用户地址数据清洗方法，其特征在于：

步骤3中，与小区标准名称相比较，所述小区别名知识库中包括如下类型的小区别名：小区别名中包含小区全称和简称、小区别名中存在冗余信息、小区别名中数字大小不统一、小区别名错误但是其经过地理定位后与小区标准名称对应的坐标相同。

5.根据权利要求2至4中任一权利要求所述的基于分词的用户地址数据清洗方法，其特征在于：

步骤2中，包括依据楼信息进行分词操作后提取出房型地址子数据的步骤；

6.根据权利要求5所述的基于分词的用户地址数据清洗方法，其特征在于：所述房型知识库中包含四类房型：板楼、塔楼、平房及别墅。

7.根据权利要求1或6所述的基于分词的用户地址数据清洗方法，其特征在于：

步骤3中，在通过所述标准地址数据修正所述用户地址数据的过程中，如果用户地址数据中的特征字符未在标准地址数据中出现，则将多个地址子数据与标准地址数据进行模糊匹配，利用匹配成功的标准地址数据替换用户地址数据，以完成对用户地址数据的修正。

8.根据权利要求1所述的基于分词的用户地址数据清洗方法，其特征在于：

步骤1中，在构建元数据库时，将分词规则数据存储于数据库中；

9.根据权利要求1所述的基于分词的用户地址数据清洗方法，其特征在于：所述用户地址数据为结构化数据。