CN115062108A

CN115062108A - 一种获取标准化房产地址的方法

Info

Publication number: CN115062108A
Application number: CN202210657401.9A
Authority: CN
Inventors: 穆良书
Original assignee: Shanghai Gujia Network Sci Tech Co ltd
Current assignee: Shanghai Gujia Network Sci Tech Co ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-16

Abstract

本发明涉及一种获取标准化房产地址的方法，包括：步骤S1，采集已有房产地址数据，并根据已有房产地址数据构建楼盘字典数据库；步骤S2，随机获取一房产地址，将该房产地址按照九个地址层级进行切割；步骤S3，判断切割后的房产地址是否与所述楼盘字典数据库中的小区地址一致，若一致，则进行步骤S4；若不一致，则进行步骤S5；步骤S4，获取切割后的房产地址所对应的小区基本信息，判断其与所述楼盘字典数据库中的小区基本信息是否一致；步骤S5，对切割后的房产地址进行分词标注，获取标注后的房产地址；步骤S6，将标注后的房产地址与所述楼盘字典数据库中的小区地址进行匹配，找出最终的标准化房产地址。

Description

一种获取标准化房产地址的方法

技术领域

本发明涉及房地产领域，更具体地涉及一种获取标准化房产地址的方法。

背景技术

地址是描述空间坐标的自然语言字符串，中文地址则是一种描述性数据，且基于中文的复杂性，现有技术对房产地址匹配存在许多问题：1)地址数据缺少关键字段，仅能识别出可识别的部分，例如，浙江省杭州市美兰区3号楼8B房，该地址只能识别到行政区域；2)地址数据存在歧义，需要通过大数据进行纠正，例如，重庆徐汇区长安丽都2号楼33-102，通过地址可识别出长安丽都是重庆市江北区的；3)地址数据存在脏数据，需要进行清洗，例如，盐城市阜城镇华兴村宏玮大酒店西地块水岸华庭15幢1801室，该地址中的“宏玮大酒店西地块”即属于脏数据。然而，目前未有一种方法，能够将随机房产地址直接转换为标准化房产地址。

发明内容

为解决上述现有技术中的问题，本发明提供一种获取标准化房产地址的方法，能够对随机房产地址进行标准化。

一种获取标准化房产地址的方法，包括：

步骤S1，采集已有房产地址数据，并根据已有房产地址数据构建楼盘字典数据库，楼盘字典数据库中存储有小区地址和小区基本信息；

步骤S2，随机获取一房产地址，将该房产地址按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割；

步骤S3，判断切割后的房产地址是否与所述楼盘字典数据库中的小区地址一致，若一致，则进行步骤S4；若不一致，则进行步骤S5；

步骤S4，获取切割后的房产地址所对应的小区基本信息，判断其与所述楼盘字典数据库中的小区基本信息是否一致，若不一致，则对所述楼盘字典数据库中的小区基本信息进行替换更新；

步骤S5，对切割后的房产地址进行分词标注，获取标注后的房产地址；

步骤S6，将标注后的房产地址与所述楼盘字典数据库中的小区地址进行匹配，在楼盘字典数据库中找出与标注后的房产地址最相似的小区地址，作为最终的标准化房产地址。

进一步地，所述步骤S1中构建楼盘字典数据库包括：

步骤S11，对已有房产地址数据进行清洗，滤除异常小区信息；

步骤S12，将清洗后的房产地址数据按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割，并按照城市对房产地址数据进行归类；

步骤S13，对各城市下所有房产地址数据中的小区名进行分词处理，并提取出小区名的关键字以及小区名关键字所对应的TF-IDF值；

步骤S14，获取清洗后的房产地址数据中的行政区域信息、道路信息以及小区基本信息，根据所述行政区域信息、所述道路信息、所述小区基本信息、所述小区名的关键字以及所述小区名关键字所对应的TF-IDF值，计算各城市所有小区中任意两个小区的相似度得分；

步骤S15，若两个小区的相似度得分大于等于8分，判定两个小区为相同小区，进行步骤S16；若两个小区的相似度得分小于8分并且大于6分，判定两个小区为疑似相同小区，进行步骤S17；若两个小区的相似度得分小于等于6分，判定两个小区为不同小区，进行步骤S18；

步骤S16，选择其中一个小区的小区名作为小区主名，另一个小区的小区名做为小区别名，并对两个小区的小区名以外的其他信息进行融合；

步骤S17，将相似度得分按照由高到低的顺序进行排序，核实两个小区是否为相同小区，若是，则进行步骤S16；若否，则进行步骤S18；

步骤S18，标记两个小区为不同的唯一小区，并将两个小区的房产地址数据和小区基本信息分别存储至楼盘字典数据库。

进一步地，所述步骤S13包括：

步骤S131，采用jieba分词库对各城市下所有房产地址数据中的小区名进行分词，统计小区名中每个词语在所有小区名中出现的频次，并对高频次词语进行筛选，滤除干扰词或无效词；

步骤S132，计算每个小区名的每个分词的TF-IDF值，对TF-IDF值进行排序，TF-IDF值最大的分词为对应的小区名的关键字。

进一步地，所述步骤S6包括：

步骤S61，判断标注后的房产地址的行政区域与楼盘字典数据库中的小区地址的行政区域是否相同，若相同，记楼盘字典数据库中的小区地址的区域得分为1分；若不相同，记区域得分为0分；

步骤S62，根据标注后的房产地址的路名、路号和小区名，计算楼盘字典数据库中的小区地址的基础得分；

步骤S63，根据标注后的房产地址的小区名，计算楼盘字典数据库中的小区地址的相似度得分；

步骤S64，将所述区域得分、所述基础得分和所述相似度得分相加，获取匹配得分，找出楼盘字典数据库中匹配得分最高的小区地址，作为最终的标准化房产地址。

进一步地，所述步骤S63包括：

步骤S631，对标注后的房产地址的小区名以及楼盘字典数据库中的小区地址的小区名进行文本分割；

步骤S632，统计标注后的房产地址的小区名中的每个词出现的次数以及楼盘字典数据库中的小区地址的小区名中的每个词出现的次数，获取两列词频向量；

步骤S633，将两列词频向量代入余弦相似度计算公式，得到余弦值，作为楼盘字典数据库中的小区地址的相似度得分。

本发明通过构建楼盘字典数据库，对房产地址进行分割、分词标注后，与楼盘字典数据库中存储的小区地址进行匹配，能够将随机房产地址直接转换为标准化房产地址。

附图说明

图1是按照本发明的获取标准化房产地址的方法的流程图。

具体实施方式

下面结合附图，给出本发明的较佳实施例，并予以详细描述。

如图1所示，本发明提供的获取标准化房产地址的方法，包括以下步骤：

步骤S1，采集已有房产地址数据，并根据已有房产地址数据构建楼盘字典数据库，楼盘字典数据库中存储有小区地址和小区基本信息。其中，小区地址包括省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号信息，小区基本信息包括物业类型、建筑年代、绿化率、竣工时间、绿化率、容积率、停车位、户数等信息。

构建楼盘字典数据库包括以下步骤：

步骤S11，对已有房产地址数据进行清洗，滤除异常小区信息，以确保楼盘字典数据库的准确性。

步骤S12，将清洗后的房产地址数据按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割，并按照城市对房产地址数据进行归类。

步骤S13，对各城市下所有房产地址数据中的小区名进行分词处理，并提取出小区名的关键字以及小区名关键字所对应的TF-IDF值。包括：

步骤S131，采用jieba分词库对各城市下所有房产地址数据中的小区名进行分词，统计小区名中每个词语在所有小区名中出现的频次，并对高频次词语进行筛选，滤除干扰词或无效词。需要说明的是，每个词语的出现频次和单次处理的数据量有关，可根据实际情况进行设定。

步骤S132，计算每个小区名的每个分词的TF-IDF值，对TF-IDF值进行排序，TF-IDF值最大的分词为对应的小区名的关键字。为方便记录与查询，将小区名的关键字进行去重处理，并将其与对应的TF-IDF值存储至一语料库中，该语料库在数据融合中不断更新迭代。

步骤S14，获取清洗后的房产地址数据中的行政区域信息、道路信息以及小区基本信息，根据行政区域信息、道路信息、小区基本信息、小区名的关键字以及小区名关键字所对应的TF-IDF值，计算各城市所有小区中任意两个小区的相似度得分。

相似度计算规则如下表所示：

表1相似度计算规则

若两个小区的小区名关键字相同，则相似度得分计算公式为：

X1+X2+X6+X8+X9+X10+X11+X12+X13-X4-X5

若两个小区的小区名关键字不相同，则相似度得分计算公式为：

X1+X6+X8+X9+X10+X11+X12+X13(X2、X6取最大值)

步骤S15，若两个小区的相似度得分大于等于8分，判定两个小区为相同小区，进行步骤S16；若两个小区的相似度得分小于8分并且大于6分，判定两个小区为疑似相同小区，进行步骤S17；若两个小区的相似度得分小于等于6分，判定两个小区为不同小区，进行步骤S18。

步骤S16，选择其中一个小区的小区名作为小区主名，另一个小区的小区名做为小区别名，并对两个小区的小区名以外的其他信息进行融合，小区名以外的其他信息包括行政区域、道路以及小区基本信息。

对于行政区域，若其为单来源或多个来源的区域名称相同时，标准化后直接存储至楼盘字典数据库中。若其为同一字段多来源，且值不唯一时：相同数值数据源个数大于等于2个时，优先存储至楼盘字典数据库中；各来源数值都不相同，则人工核实后选取正确的区域名称存储至楼盘字典数据库中。若区域名称不同，但确属同一个区域，则选取其中一个区域名称为主名，另外一个区域为区域别名。

对于小区基本信息，若其为单来源或者多个来源的基本字段相同时，标准化后存储至楼盘字典数据库中。若其为同一字段多来源，且值不唯一时：相同数值数据源个数大于等于2个时，优先存储至楼盘字典数据库中；各来源数值都不相同，则人工核实后选取正确的信息存储至楼盘字典数据库中；若各来源数值都不相同，且无法获取正确信息的，则不存储至楼盘字典数据库中

步骤S17，将相似度得分按照由高到低的顺序进行排序，核实两个小区是否为相同小区，若是，则进行步骤S16；若否，则进行步骤S18。需要说明的是，若核实为相同小区，则对相同小区进行标识，并统计所有相同小区的最高相似得分，通过最高得分，可用Python脚本批量更新机器识别相同小区的相似度分值。

步骤S18，标记两个小区为不同的唯一小区，并将两个小区的房产地址数据和小区基本信息分别存储至楼盘字典数据库。另外，对不同的两个小区，可定期抽测相似度得分高的小区，核实是否存在相同小区没被发现的情况，若存在，则需对小区标识进行修正。

本发明在构建楼盘字典数据库的过程中，通过引入小区相似度的计算方法，有效甄别出了相同小区，相似小区和唯一小区，大大减少了人工介入的工作量。并且，在小区相似度的计算中，引入TF-IDF算法和关键词库，充分考虑了小区名称中分词后每个词在整个楼盘名称表中的重要程度，也通过这种方式区分了小区名称中的关键词和非关键词。另外，在对小区进行融合时除了对小区名称进行比较，同时也考虑到小区的基础信息，使得小区是否需要融合的判断依据更加充分。

步骤S2，随机获取一房产地址，将该房产地址按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割。例如，杭州省杭州市滨江区滨盛路2242号长河水印城2-2-301，切割后为：杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2|2|301。

九个层级对应的地址解释如下表所示：

表2地址层级与地址解释

步骤S3，判断切割后的房产地址是否与楼盘字典数据库中的小区地址一致，若一致，则进行步骤S4；若不一致，则进行步骤S5。

步骤S4，获取切割后的房产地址所对应的小区基本信息，判断其与楼盘字典数据库中的小区基本信息是否一致，若不一致，则对楼盘字典数据库中的小区基本信息进行替换更新。例如，楼盘字典数据库中存储的某处房产的绿化率为45％，但之后获取的该处房产的绿化率为40％，通过人工核实，绿化率为40％是正确信息，则需将楼盘字典数据库中的绿化率45％替换更新为绿化率40％。

步骤S5，对切割后的房产地址按照九个地址层级进行分词标注，获取标注后的房产地址。在本实施例中，采用条件随机场(CRF，Conditional Random Field)算法进行标注。该算法能够通过语境进行分词及词性标注，可以减少对词典及规则的依赖，识别歧义词及未登陆的词，且速度快，效率高。上述地址杭州省杭州市滨江区滨盛路2242号长河水印城2-2-301进行分词标注后，得到地址杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2幢|2单元|301室，即：

杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2|2|301，对应：

省份|城市|区|路名|路号|小区名|楼|单元|室号

步骤S6，将标注后的房产地址与楼盘字典数据库中的小区地址进行匹配，在楼盘字典数据库中找出与标注后的房产地址最相似的小区地址，作为最终的标准化房产地址。包括：

步骤S61，判断标注后的房产地址的行政区域与楼盘字典数据库中的小区地址的行政区域是否相同，若相同，记楼盘字典数据库中的小区地址的区域得分为1分；若不相同，记区域得分为0分。行政区域相同，即是指省份相同、城市相同、区/县相同、乡镇/街道相同。

步骤S62，根据标注后的房产地址的路名、路号和小区名，计算楼盘字典数据库中的小区地址的基础得分。基础得分的计算方式如下表：

表3基础得分计算方式

字段	判断方式	得分
			路名+路号+小区名	相同	0.9
路名+小区名	相同	0.8
			路名+路号(包括别名)	相同	0.7
小区名(或别名)	包含	0.6

步骤S63，根据标注后的房产地址的小区名，计算楼盘字典数据库中的小区地址的相似度得分。在本实施例中，采用文本相似度算法计算相似度得分。包括：

步骤S631，对标注后的房产地址的小区名以及楼盘字典数据库中的小区地址的小区名进行文本分割。

步骤S632，统计标注后的房产地址的小区名中的每个词出现的次数以及楼盘字典数据库中的小区地址的小区名中的每个词出现的次数，获取两列词频向量。

步骤S633，将两列词频向量代入余弦相似度计算公式，得到余弦值，该余弦值即为楼盘字典数据库中的小区地址的相似度得分。余弦相似度又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，反之越接近0就表示两个向量相似度越低。

步骤S64，将区域得分、基础得分和相似度得分相加，获取匹配得分，找出楼盘字典数据库中匹配得分最高的小区地址，该小区地址即为最终的标准化房产地址。

例如，上述地址——杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2幢|2单元|301室，与楼盘字典数据库中的小区地址——浙江省杭州市滨江区滨盛路2242号水印城进行匹配，区域得分为0分，基础得分为0.9分，相似度得分为0.8分，最终匹配得分为1.7分。则原始地址——杭州省杭州市滨江区滨盛路2242号长河水印城2-2-301，标准化后为浙江省杭州市滨江区滨2242号水印城2幢2单元301室。

以上所述的，仅为本发明的较佳实施例，并非用以限定本发明的范围，本发明的上述实施例还可以做出各种变化。即凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰，皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。

Claims

1.一种获取标准化房产地址的方法，其特征在于，包括：

2.根据权利要求1所述的获取标准化房产地址的方法，其特征在于，所述步骤S1中构建楼盘字典数据库包括：

3.根据权利要求2所述的获取标准化房产地址的方法，其特征在于，所述步骤S13包括：

4.根据权利要求1所述的获取标准化房产地址的方法，其特征在于，所述步骤S6包括：

5.根据权利要求4所述的获取标准化房产地址的方法，其特征在于，所述步骤S63包括：