CN115062108A - 一种获取标准化房产地址的方法 - Google Patents
一种获取标准化房产地址的方法 Download PDFInfo
- Publication number
- CN115062108A CN115062108A CN202210657401.9A CN202210657401A CN115062108A CN 115062108 A CN115062108 A CN 115062108A CN 202210657401 A CN202210657401 A CN 202210657401A CN 115062108 A CN115062108 A CN 115062108A
- Authority
- CN
- China
- Prior art keywords
- cell
- address
- dictionary database
- house
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000002372 labelling Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种获取标准化房产地址的方法,包括:步骤S1,采集已有房产地址数据,并根据已有房产地址数据构建楼盘字典数据库;步骤S2,随机获取一房产地址,将该房产地址按照九个地址层级进行切割;步骤S3,判断切割后的房产地址是否与所述楼盘字典数据库中的小区地址一致,若一致,则进行步骤S4;若不一致,则进行步骤S5;步骤S4,获取切割后的房产地址所对应的小区基本信息,判断其与所述楼盘字典数据库中的小区基本信息是否一致;步骤S5,对切割后的房产地址进行分词标注,获取标注后的房产地址;步骤S6,将标注后的房产地址与所述楼盘字典数据库中的小区地址进行匹配,找出最终的标准化房产地址。
Description
技术领域
本发明涉及房地产领域,更具体地涉及一种获取标准化房产地址的方法。
背景技术
地址是描述空间坐标的自然语言字符串,中文地址则是一种描述性数据,且基于中文的复杂性,现有技术对房产地址匹配存在许多问题:1)地址数据缺少关键字段,仅能识别出可识别的部分,例如,浙江省杭州市美兰区3号楼8B房,该地址只能识别到行政区域;2)地址数据存在歧义,需要通过大数据进行纠正,例如,重庆徐汇区长安丽都2号楼33-102,通过地址可识别出长安丽都是重庆市江北区的;3)地址数据存在脏数据,需要进行清洗,例如,盐城市阜城镇华兴村宏玮大酒店西地块水岸华庭15幢1801室,该地址中的“宏玮大酒店西地块”即属于脏数据。然而,目前未有一种方法,能够将随机房产地址直接转换为标准化房产地址。
发明内容
为解决上述现有技术中的问题,本发明提供一种获取标准化房产地址的方法,能够对随机房产地址进行标准化。
一种获取标准化房产地址的方法,包括:
步骤S1,采集已有房产地址数据,并根据已有房产地址数据构建楼盘字典数据库,楼盘字典数据库中存储有小区地址和小区基本信息;
步骤S2,随机获取一房产地址,将该房产地址按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割;
步骤S3,判断切割后的房产地址是否与所述楼盘字典数据库中的小区地址一致,若一致,则进行步骤S4;若不一致,则进行步骤S5;
步骤S4,获取切割后的房产地址所对应的小区基本信息,判断其与所述楼盘字典数据库中的小区基本信息是否一致,若不一致,则对所述楼盘字典数据库中的小区基本信息进行替换更新;
步骤S5,对切割后的房产地址进行分词标注,获取标注后的房产地址;
步骤S6,将标注后的房产地址与所述楼盘字典数据库中的小区地址进行匹配,在楼盘字典数据库中找出与标注后的房产地址最相似的小区地址,作为最终的标准化房产地址。
进一步地,所述步骤S1中构建楼盘字典数据库包括:
步骤S11,对已有房产地址数据进行清洗,滤除异常小区信息;
步骤S12,将清洗后的房产地址数据按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割,并按照城市对房产地址数据进行归类;
步骤S13,对各城市下所有房产地址数据中的小区名进行分词处理,并提取出小区名的关键字以及小区名关键字所对应的TF-IDF值;
步骤S14,获取清洗后的房产地址数据中的行政区域信息、道路信息以及小区基本信息,根据所述行政区域信息、所述道路信息、所述小区基本信息、所述小区名的关键字以及所述小区名关键字所对应的TF-IDF值,计算各城市所有小区中任意两个小区的相似度得分;
步骤S15,若两个小区的相似度得分大于等于8分,判定两个小区为相同小区,进行步骤S16;若两个小区的相似度得分小于8分并且大于6分,判定两个小区为疑似相同小区,进行步骤S17;若两个小区的相似度得分小于等于6分,判定两个小区为不同小区,进行步骤S18;
步骤S16,选择其中一个小区的小区名作为小区主名,另一个小区的小区名做为小区别名,并对两个小区的小区名以外的其他信息进行融合;
步骤S17,将相似度得分按照由高到低的顺序进行排序,核实两个小区是否为相同小区,若是,则进行步骤S16;若否,则进行步骤S18;
步骤S18,标记两个小区为不同的唯一小区,并将两个小区的房产地址数据和小区基本信息分别存储至楼盘字典数据库。
进一步地,所述步骤S13包括:
步骤S131,采用jieba分词库对各城市下所有房产地址数据中的小区名进行分词,统计小区名中每个词语在所有小区名中出现的频次,并对高频次词语进行筛选,滤除干扰词或无效词;
步骤S132,计算每个小区名的每个分词的TF-IDF值,对TF-IDF值进行排序,TF-IDF值最大的分词为对应的小区名的关键字。
进一步地,所述步骤S6包括:
步骤S61,判断标注后的房产地址的行政区域与楼盘字典数据库中的小区地址的行政区域是否相同,若相同,记楼盘字典数据库中的小区地址的区域得分为1分;若不相同,记区域得分为0分;
步骤S62,根据标注后的房产地址的路名、路号和小区名,计算楼盘字典数据库中的小区地址的基础得分;
步骤S63,根据标注后的房产地址的小区名,计算楼盘字典数据库中的小区地址的相似度得分;
步骤S64,将所述区域得分、所述基础得分和所述相似度得分相加,获取匹配得分,找出楼盘字典数据库中匹配得分最高的小区地址,作为最终的标准化房产地址。
进一步地,所述步骤S63包括:
步骤S631,对标注后的房产地址的小区名以及楼盘字典数据库中的小区地址的小区名进行文本分割;
步骤S632,统计标注后的房产地址的小区名中的每个词出现的次数以及楼盘字典数据库中的小区地址的小区名中的每个词出现的次数,获取两列词频向量;
步骤S633,将两列词频向量代入余弦相似度计算公式,得到余弦值,作为楼盘字典数据库中的小区地址的相似度得分。
本发明通过构建楼盘字典数据库,对房产地址进行分割、分词标注后,与楼盘字典数据库中存储的小区地址进行匹配,能够将随机房产地址直接转换为标准化房产地址。
附图说明
图1是按照本发明的获取标准化房产地址的方法的流程图。
具体实施方式
下面结合附图,给出本发明的较佳实施例,并予以详细描述。
如图1所示,本发明提供的获取标准化房产地址的方法,包括以下步骤:
步骤S1,采集已有房产地址数据,并根据已有房产地址数据构建楼盘字典数据库,楼盘字典数据库中存储有小区地址和小区基本信息。其中,小区地址包括省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号信息,小区基本信息包括物业类型、建筑年代、绿化率、竣工时间、绿化率、容积率、停车位、户数等信息。
构建楼盘字典数据库包括以下步骤:
步骤S11,对已有房产地址数据进行清洗,滤除异常小区信息,以确保楼盘字典数据库的准确性。
步骤S12,将清洗后的房产地址数据按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割,并按照城市对房产地址数据进行归类。
步骤S13,对各城市下所有房产地址数据中的小区名进行分词处理,并提取出小区名的关键字以及小区名关键字所对应的TF-IDF值。包括:
步骤S131,采用jieba分词库对各城市下所有房产地址数据中的小区名进行分词,统计小区名中每个词语在所有小区名中出现的频次,并对高频次词语进行筛选,滤除干扰词或无效词。需要说明的是,每个词语的出现频次和单次处理的数据量有关,可根据实际情况进行设定。
步骤S132,计算每个小区名的每个分词的TF-IDF值,对TF-IDF值进行排序,TF-IDF值最大的分词为对应的小区名的关键字。为方便记录与查询,将小区名的关键字进行去重处理,并将其与对应的TF-IDF值存储至一语料库中,该语料库在数据融合中不断更新迭代。
步骤S14,获取清洗后的房产地址数据中的行政区域信息、道路信息以及小区基本信息,根据行政区域信息、道路信息、小区基本信息、小区名的关键字以及小区名关键字所对应的TF-IDF值,计算各城市所有小区中任意两个小区的相似度得分。
相似度计算规则如下表所示:
表1相似度计算规则
若两个小区的小区名关键字相同,则相似度得分计算公式为:
X1+X2+X6+X8+X9+X10+X11+X12+X13-X4-X5
若两个小区的小区名关键字不相同,则相似度得分计算公式为:
X1+X6+X8+X9+X10+X11+X12+X13(X2、X6取最大值)
步骤S15,若两个小区的相似度得分大于等于8分,判定两个小区为相同小区,进行步骤S16;若两个小区的相似度得分小于8分并且大于6分,判定两个小区为疑似相同小区,进行步骤S17;若两个小区的相似度得分小于等于6分,判定两个小区为不同小区,进行步骤S18。
步骤S16,选择其中一个小区的小区名作为小区主名,另一个小区的小区名做为小区别名,并对两个小区的小区名以外的其他信息进行融合,小区名以外的其他信息包括行政区域、道路以及小区基本信息。
对于行政区域,若其为单来源或多个来源的区域名称相同时,标准化后直接存储至楼盘字典数据库中。若其为同一字段多来源,且值不唯一时:相同数值数据源个数大于等于2个时,优先存储至楼盘字典数据库中;各来源数值都不相同,则人工核实后选取正确的区域名称存储至楼盘字典数据库中。若区域名称不同,但确属同一个区域,则选取其中一个区域名称为主名,另外一个区域为区域别名。
对于小区基本信息,若其为单来源或者多个来源的基本字段相同时,标准化后存储至楼盘字典数据库中。若其为同一字段多来源,且值不唯一时:相同数值数据源个数大于等于2个时,优先存储至楼盘字典数据库中;各来源数值都不相同,则人工核实后选取正确的信息存储至楼盘字典数据库中;若各来源数值都不相同,且无法获取正确信息的,则不存储至楼盘字典数据库中
步骤S17,将相似度得分按照由高到低的顺序进行排序,核实两个小区是否为相同小区,若是,则进行步骤S16;若否,则进行步骤S18。需要说明的是,若核实为相同小区,则对相同小区进行标识,并统计所有相同小区的最高相似得分,通过最高得分,可用Python脚本批量更新机器识别相同小区的相似度分值。
步骤S18,标记两个小区为不同的唯一小区,并将两个小区的房产地址数据和小区基本信息分别存储至楼盘字典数据库。另外,对不同的两个小区,可定期抽测相似度得分高的小区,核实是否存在相同小区没被发现的情况,若存在,则需对小区标识进行修正。
本发明在构建楼盘字典数据库的过程中,通过引入小区相似度的计算方法,有效甄别出了相同小区,相似小区和唯一小区,大大减少了人工介入的工作量。并且,在小区相似度的计算中,引入TF-IDF算法和关键词库,充分考虑了小区名称中分词后每个词在整个楼盘名称表中的重要程度,也通过这种方式区分了小区名称中的关键词和非关键词。另外,在对小区进行融合时除了对小区名称进行比较,同时也考虑到小区的基础信息,使得小区是否需要融合的判断依据更加充分。
步骤S2,随机获取一房产地址,将该房产地址按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割。例如,杭州省杭州市滨江区滨盛路2242号长河水印城2-2-301,切割后为:杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2|2|301。
九个层级对应的地址解释如下表所示:
表2地址层级与地址解释
步骤S3,判断切割后的房产地址是否与楼盘字典数据库中的小区地址一致,若一致,则进行步骤S4;若不一致,则进行步骤S5。
步骤S4,获取切割后的房产地址所对应的小区基本信息,判断其与楼盘字典数据库中的小区基本信息是否一致,若不一致,则对楼盘字典数据库中的小区基本信息进行替换更新。例如,楼盘字典数据库中存储的某处房产的绿化率为45%,但之后获取的该处房产的绿化率为40%,通过人工核实,绿化率为40%是正确信息,则需将楼盘字典数据库中的绿化率45%替换更新为绿化率40%。
步骤S5,对切割后的房产地址按照九个地址层级进行分词标注,获取标注后的房产地址。在本实施例中,采用条件随机场(CRF,Conditional Random Field)算法进行标注。该算法能够通过语境进行分词及词性标注,可以减少对词典及规则的依赖,识别歧义词及未登陆的词,且速度快,效率高。上述地址杭州省杭州市滨江区滨盛路2242号长河水印城2-2-301进行分词标注后,得到地址杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2幢|2单元|301室,即:
杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2|2|301,对应:
省份|城市|区|路名|路号|小区名|楼|单元|室号
步骤S6,将标注后的房产地址与楼盘字典数据库中的小区地址进行匹配,在楼盘字典数据库中找出与标注后的房产地址最相似的小区地址,作为最终的标准化房产地址。包括:
步骤S61,判断标注后的房产地址的行政区域与楼盘字典数据库中的小区地址的行政区域是否相同,若相同,记楼盘字典数据库中的小区地址的区域得分为1分;若不相同,记区域得分为0分。行政区域相同,即是指省份相同、城市相同、区/县相同、乡镇/街道相同。
步骤S62,根据标注后的房产地址的路名、路号和小区名,计算楼盘字典数据库中的小区地址的基础得分。基础得分的计算方式如下表:
表3基础得分计算方式
字段 | 判断方式 | 得分 |
路名+路号+小区名 | 相同 | 0.9 |
路名+小区名 | 相同 | 0.8 |
路名+路号(包括别名) | 相同 | 0.7 |
小区名(或别名) | 包含 | 0.6 |
步骤S63,根据标注后的房产地址的小区名,计算楼盘字典数据库中的小区地址的相似度得分。在本实施例中,采用文本相似度算法计算相似度得分。包括:
步骤S631,对标注后的房产地址的小区名以及楼盘字典数据库中的小区地址的小区名进行文本分割。
步骤S632,统计标注后的房产地址的小区名中的每个词出现的次数以及楼盘字典数据库中的小区地址的小区名中的每个词出现的次数,获取两列词频向量。
步骤S633,将两列词频向量代入余弦相似度计算公式,得到余弦值,该余弦值即为楼盘字典数据库中的小区地址的相似度得分。余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,反之越接近0就表示两个向量相似度越低。
步骤S64,将区域得分、基础得分和相似度得分相加,获取匹配得分,找出楼盘字典数据库中匹配得分最高的小区地址,该小区地址即为最终的标准化房产地址。
例如,上述地址——杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2幢|2单元|301室,与楼盘字典数据库中的小区地址——浙江省杭州市滨江区滨盛路2242号水印城进行匹配,区域得分为0分,基础得分为0.9分,相似度得分为0.8分,最终匹配得分为1.7分。则原始地址——杭州省杭州市滨江区滨盛路2242号长河水印城2-2-301,标准化后为浙江省杭州市滨江区滨2242号水印城2幢2单元301室。
以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上述实施例还可以做出各种变化。即凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。
Claims (5)
1.一种获取标准化房产地址的方法,其特征在于,包括:
步骤S1,采集已有房产地址数据,并根据已有房产地址数据构建楼盘字典数据库,楼盘字典数据库中存储有小区地址和小区基本信息;
步骤S2,随机获取一房产地址,将该房产地址按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割;
步骤S3,判断切割后的房产地址是否与所述楼盘字典数据库中的小区地址一致,若一致,则进行步骤S4;若不一致,则进行步骤S5;
步骤S4,获取切割后的房产地址所对应的小区基本信息,判断其与所述楼盘字典数据库中的小区基本信息是否一致,若不一致,则对所述楼盘字典数据库中的小区基本信息进行替换更新;
步骤S5,对切割后的房产地址进行分词标注,获取标注后的房产地址;
步骤S6,将标注后的房产地址与所述楼盘字典数据库中的小区地址进行匹配,在楼盘字典数据库中找出与标注后的房产地址最相似的小区地址,作为最终的标准化房产地址。
2.根据权利要求1所述的获取标准化房产地址的方法,其特征在于,所述步骤S1中构建楼盘字典数据库包括:
步骤S11,对已有房产地址数据进行清洗,滤除异常小区信息;
步骤S12,将清洗后的房产地址数据按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割,并按照城市对房产地址数据进行归类;
步骤S13,对各城市下所有房产地址数据中的小区名进行分词处理,并提取出小区名的关键字以及小区名关键字所对应的TF-IDF值;
步骤S14,获取清洗后的房产地址数据中的行政区域信息、道路信息以及小区基本信息,根据所述行政区域信息、所述道路信息、所述小区基本信息、所述小区名的关键字以及所述小区名关键字所对应的TF-IDF值,计算各城市所有小区中任意两个小区的相似度得分;
步骤S15,若两个小区的相似度得分大于等于8分,判定两个小区为相同小区,进行步骤S16;若两个小区的相似度得分小于8分并且大于6分,判定两个小区为疑似相同小区,进行步骤S17;若两个小区的相似度得分小于等于6分,判定两个小区为不同小区,进行步骤S18;
步骤S16,选择其中一个小区的小区名作为小区主名,另一个小区的小区名做为小区别名,并对两个小区的小区名以外的其他信息进行融合;
步骤S17,将相似度得分按照由高到低的顺序进行排序,核实两个小区是否为相同小区,若是,则进行步骤S16;若否,则进行步骤S18;
步骤S18,标记两个小区为不同的唯一小区,并将两个小区的房产地址数据和小区基本信息分别存储至楼盘字典数据库。
3.根据权利要求2所述的获取标准化房产地址的方法,其特征在于,所述步骤S13包括:
步骤S131,采用jieba分词库对各城市下所有房产地址数据中的小区名进行分词,统计小区名中每个词语在所有小区名中出现的频次,并对高频次词语进行筛选,滤除干扰词或无效词;
步骤S132,计算每个小区名的每个分词的TF-IDF值,对TF-IDF值进行排序,TF-IDF值最大的分词为对应的小区名的关键字。
4.根据权利要求1所述的获取标准化房产地址的方法,其特征在于,所述步骤S6包括:
步骤S61,判断标注后的房产地址的行政区域与楼盘字典数据库中的小区地址的行政区域是否相同,若相同,记楼盘字典数据库中的小区地址的区域得分为1分;若不相同,记区域得分为0分;
步骤S62,根据标注后的房产地址的路名、路号和小区名,计算楼盘字典数据库中的小区地址的基础得分;
步骤S63,根据标注后的房产地址的小区名,计算楼盘字典数据库中的小区地址的相似度得分;
步骤S64,将所述区域得分、所述基础得分和所述相似度得分相加,获取匹配得分,找出楼盘字典数据库中匹配得分最高的小区地址,作为最终的标准化房产地址。
5.根据权利要求4所述的获取标准化房产地址的方法,其特征在于,所述步骤S63包括:
步骤S631,对标注后的房产地址的小区名以及楼盘字典数据库中的小区地址的小区名进行文本分割;
步骤S632,统计标注后的房产地址的小区名中的每个词出现的次数以及楼盘字典数据库中的小区地址的小区名中的每个词出现的次数,获取两列词频向量;
步骤S633,将两列词频向量代入余弦相似度计算公式,得到余弦值,作为楼盘字典数据库中的小区地址的相似度得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210657401.9A CN115062108A (zh) | 2022-06-10 | 2022-06-10 | 一种获取标准化房产地址的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210657401.9A CN115062108A (zh) | 2022-06-10 | 2022-06-10 | 一种获取标准化房产地址的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062108A true CN115062108A (zh) | 2022-09-16 |
Family
ID=83199690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210657401.9A Pending CN115062108A (zh) | 2022-06-10 | 2022-06-10 | 一种获取标准化房产地址的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062108A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349451A (zh) * | 2023-12-01 | 2024-01-05 | 广东中思拓大数据研究院有限公司 | 数据处理方法、数据处理装置、计算机设备和存储介质 |
-
2022
- 2022-06-10 CN CN202210657401.9A patent/CN115062108A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349451A (zh) * | 2023-12-01 | 2024-01-05 | 广东中思拓大数据研究院有限公司 | 数据处理方法、数据处理装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zandbergen | A comparison of address point, parcel and street geocoding techniques | |
WO2016165538A1 (zh) | 一种地址数据的管理方法和装置 | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN108388559A (zh) | 地理空间应用下的命名实体识别方法及系统、计算机程序 | |
CN109271640B (zh) | 文本信息的地域属性识别方法及装置、电子设备 | |
CN106547770A (zh) | 一种基于用户地址信息的用户分类、用户识别方法及装置 | |
CN107463711B (zh) | 一种数据的标签匹配方法及装置 | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN109299469B (zh) | 一种在长文本中识别复杂住址的方法 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
CN115062108A (zh) | 一种获取标准化房产地址的方法 | |
CN115470307A (zh) | 一种地址匹配方法及装置 | |
CN111899822A (zh) | 医疗机构数据库构建方法、查询方法、装置、设备和介质 | |
Guo et al. | Adaln: a vision transformer for multidomain learning and predisaster building information extraction from images | |
CN109471934B (zh) | 基于互联网的金融风险线索发掘方法 | |
CN111460054A (zh) | 地址数据处理方法及装置、设备和存储介质 | |
CN112749905A (zh) | 一种基于大数据挖掘的洪涝灾害评估方法 | |
CN116431746A (zh) | 基于编码库的地址映射方法、装置、电子设备及存储介质 | |
CN113535883B (zh) | 商业场所实体链接方法、系统、电子设备及存储介质 | |
CN113268986B (zh) | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 | |
CN101887462A (zh) | 一种可持续优化地名数据库快速分级配准方法 | |
CN112215006B (zh) | 机构命名实体归一化方法和系统 | |
Christen et al. | A probabilistic geocoding system utilising a parcel based address file | |
CN111325235B (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |