CN115062108A - 一种获取标准化房产地址的方法 - Google Patents

一种获取标准化房产地址的方法 Download PDF

Info

Publication number
CN115062108A
CN115062108A CN202210657401.9A CN202210657401A CN115062108A CN 115062108 A CN115062108 A CN 115062108A CN 202210657401 A CN202210657401 A CN 202210657401A CN 115062108 A CN115062108 A CN 115062108A
Authority
CN
China
Prior art keywords
cell
address
dictionary database
house
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210657401.9A
Other languages
English (en)
Inventor
穆良书
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Gujia Network Sci Tech Co ltd
Original Assignee
Shanghai Gujia Network Sci Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Gujia Network Sci Tech Co ltd filed Critical Shanghai Gujia Network Sci Tech Co ltd
Priority to CN202210657401.9A priority Critical patent/CN115062108A/zh
Publication of CN115062108A publication Critical patent/CN115062108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种获取标准化房产地址的方法,包括:步骤S1,采集已有房产地址数据,并根据已有房产地址数据构建楼盘字典数据库;步骤S2,随机获取一房产地址,将该房产地址按照九个地址层级进行切割;步骤S3,判断切割后的房产地址是否与所述楼盘字典数据库中的小区地址一致,若一致,则进行步骤S4;若不一致,则进行步骤S5;步骤S4,获取切割后的房产地址所对应的小区基本信息,判断其与所述楼盘字典数据库中的小区基本信息是否一致;步骤S5,对切割后的房产地址进行分词标注,获取标注后的房产地址;步骤S6,将标注后的房产地址与所述楼盘字典数据库中的小区地址进行匹配,找出最终的标准化房产地址。

Description

一种获取标准化房产地址的方法
技术领域
本发明涉及房地产领域,更具体地涉及一种获取标准化房产地址的方法。
背景技术
地址是描述空间坐标的自然语言字符串,中文地址则是一种描述性数据,且基于中文的复杂性,现有技术对房产地址匹配存在许多问题:1)地址数据缺少关键字段,仅能识别出可识别的部分,例如,浙江省杭州市美兰区3号楼8B房,该地址只能识别到行政区域;2)地址数据存在歧义,需要通过大数据进行纠正,例如,重庆徐汇区长安丽都2号楼33-102,通过地址可识别出长安丽都是重庆市江北区的;3)地址数据存在脏数据,需要进行清洗,例如,盐城市阜城镇华兴村宏玮大酒店西地块水岸华庭15幢1801室,该地址中的“宏玮大酒店西地块”即属于脏数据。然而,目前未有一种方法,能够将随机房产地址直接转换为标准化房产地址。
发明内容
为解决上述现有技术中的问题,本发明提供一种获取标准化房产地址的方法,能够对随机房产地址进行标准化。
一种获取标准化房产地址的方法,包括:
步骤S1,采集已有房产地址数据,并根据已有房产地址数据构建楼盘字典数据库,楼盘字典数据库中存储有小区地址和小区基本信息;
步骤S2,随机获取一房产地址,将该房产地址按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割;
步骤S3,判断切割后的房产地址是否与所述楼盘字典数据库中的小区地址一致,若一致,则进行步骤S4;若不一致,则进行步骤S5;
步骤S4,获取切割后的房产地址所对应的小区基本信息,判断其与所述楼盘字典数据库中的小区基本信息是否一致,若不一致,则对所述楼盘字典数据库中的小区基本信息进行替换更新;
步骤S5,对切割后的房产地址进行分词标注,获取标注后的房产地址;
步骤S6,将标注后的房产地址与所述楼盘字典数据库中的小区地址进行匹配,在楼盘字典数据库中找出与标注后的房产地址最相似的小区地址,作为最终的标准化房产地址。
进一步地,所述步骤S1中构建楼盘字典数据库包括:
步骤S11,对已有房产地址数据进行清洗,滤除异常小区信息;
步骤S12,将清洗后的房产地址数据按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割,并按照城市对房产地址数据进行归类;
步骤S13,对各城市下所有房产地址数据中的小区名进行分词处理,并提取出小区名的关键字以及小区名关键字所对应的TF-IDF值;
步骤S14,获取清洗后的房产地址数据中的行政区域信息、道路信息以及小区基本信息,根据所述行政区域信息、所述道路信息、所述小区基本信息、所述小区名的关键字以及所述小区名关键字所对应的TF-IDF值,计算各城市所有小区中任意两个小区的相似度得分;
步骤S15,若两个小区的相似度得分大于等于8分,判定两个小区为相同小区,进行步骤S16;若两个小区的相似度得分小于8分并且大于6分,判定两个小区为疑似相同小区,进行步骤S17;若两个小区的相似度得分小于等于6分,判定两个小区为不同小区,进行步骤S18;
步骤S16,选择其中一个小区的小区名作为小区主名,另一个小区的小区名做为小区别名,并对两个小区的小区名以外的其他信息进行融合;
步骤S17,将相似度得分按照由高到低的顺序进行排序,核实两个小区是否为相同小区,若是,则进行步骤S16;若否,则进行步骤S18;
步骤S18,标记两个小区为不同的唯一小区,并将两个小区的房产地址数据和小区基本信息分别存储至楼盘字典数据库。
进一步地,所述步骤S13包括:
步骤S131,采用jieba分词库对各城市下所有房产地址数据中的小区名进行分词,统计小区名中每个词语在所有小区名中出现的频次,并对高频次词语进行筛选,滤除干扰词或无效词;
步骤S132,计算每个小区名的每个分词的TF-IDF值,对TF-IDF值进行排序,TF-IDF值最大的分词为对应的小区名的关键字。
进一步地,所述步骤S6包括:
步骤S61,判断标注后的房产地址的行政区域与楼盘字典数据库中的小区地址的行政区域是否相同,若相同,记楼盘字典数据库中的小区地址的区域得分为1分;若不相同,记区域得分为0分;
步骤S62,根据标注后的房产地址的路名、路号和小区名,计算楼盘字典数据库中的小区地址的基础得分;
步骤S63,根据标注后的房产地址的小区名,计算楼盘字典数据库中的小区地址的相似度得分;
步骤S64,将所述区域得分、所述基础得分和所述相似度得分相加,获取匹配得分,找出楼盘字典数据库中匹配得分最高的小区地址,作为最终的标准化房产地址。
进一步地,所述步骤S63包括:
步骤S631,对标注后的房产地址的小区名以及楼盘字典数据库中的小区地址的小区名进行文本分割;
步骤S632,统计标注后的房产地址的小区名中的每个词出现的次数以及楼盘字典数据库中的小区地址的小区名中的每个词出现的次数,获取两列词频向量;
步骤S633,将两列词频向量代入余弦相似度计算公式,得到余弦值,作为楼盘字典数据库中的小区地址的相似度得分。
本发明通过构建楼盘字典数据库,对房产地址进行分割、分词标注后,与楼盘字典数据库中存储的小区地址进行匹配,能够将随机房产地址直接转换为标准化房产地址。
附图说明
图1是按照本发明的获取标准化房产地址的方法的流程图。
具体实施方式
下面结合附图,给出本发明的较佳实施例,并予以详细描述。
如图1所示,本发明提供的获取标准化房产地址的方法,包括以下步骤:
步骤S1,采集已有房产地址数据,并根据已有房产地址数据构建楼盘字典数据库,楼盘字典数据库中存储有小区地址和小区基本信息。其中,小区地址包括省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号信息,小区基本信息包括物业类型、建筑年代、绿化率、竣工时间、绿化率、容积率、停车位、户数等信息。
构建楼盘字典数据库包括以下步骤:
步骤S11,对已有房产地址数据进行清洗,滤除异常小区信息,以确保楼盘字典数据库的准确性。
步骤S12,将清洗后的房产地址数据按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割,并按照城市对房产地址数据进行归类。
步骤S13,对各城市下所有房产地址数据中的小区名进行分词处理,并提取出小区名的关键字以及小区名关键字所对应的TF-IDF值。包括:
步骤S131,采用jieba分词库对各城市下所有房产地址数据中的小区名进行分词,统计小区名中每个词语在所有小区名中出现的频次,并对高频次词语进行筛选,滤除干扰词或无效词。需要说明的是,每个词语的出现频次和单次处理的数据量有关,可根据实际情况进行设定。
步骤S132,计算每个小区名的每个分词的TF-IDF值,对TF-IDF值进行排序,TF-IDF值最大的分词为对应的小区名的关键字。为方便记录与查询,将小区名的关键字进行去重处理,并将其与对应的TF-IDF值存储至一语料库中,该语料库在数据融合中不断更新迭代。
步骤S14,获取清洗后的房产地址数据中的行政区域信息、道路信息以及小区基本信息,根据行政区域信息、道路信息、小区基本信息、小区名的关键字以及小区名关键字所对应的TF-IDF值,计算各城市所有小区中任意两个小区的相似度得分。
相似度计算规则如下表所示:
表1相似度计算规则
Figure BDA0003688725570000051
若两个小区的小区名关键字相同,则相似度得分计算公式为:
X1+X2+X6+X8+X9+X10+X11+X12+X13-X4-X5
若两个小区的小区名关键字不相同,则相似度得分计算公式为:
X1+X6+X8+X9+X10+X11+X12+X13(X2、X6取最大值)
步骤S15,若两个小区的相似度得分大于等于8分,判定两个小区为相同小区,进行步骤S16;若两个小区的相似度得分小于8分并且大于6分,判定两个小区为疑似相同小区,进行步骤S17;若两个小区的相似度得分小于等于6分,判定两个小区为不同小区,进行步骤S18。
步骤S16,选择其中一个小区的小区名作为小区主名,另一个小区的小区名做为小区别名,并对两个小区的小区名以外的其他信息进行融合,小区名以外的其他信息包括行政区域、道路以及小区基本信息。
对于行政区域,若其为单来源或多个来源的区域名称相同时,标准化后直接存储至楼盘字典数据库中。若其为同一字段多来源,且值不唯一时:相同数值数据源个数大于等于2个时,优先存储至楼盘字典数据库中;各来源数值都不相同,则人工核实后选取正确的区域名称存储至楼盘字典数据库中。若区域名称不同,但确属同一个区域,则选取其中一个区域名称为主名,另外一个区域为区域别名。
对于小区基本信息,若其为单来源或者多个来源的基本字段相同时,标准化后存储至楼盘字典数据库中。若其为同一字段多来源,且值不唯一时:相同数值数据源个数大于等于2个时,优先存储至楼盘字典数据库中;各来源数值都不相同,则人工核实后选取正确的信息存储至楼盘字典数据库中;若各来源数值都不相同,且无法获取正确信息的,则不存储至楼盘字典数据库中
步骤S17,将相似度得分按照由高到低的顺序进行排序,核实两个小区是否为相同小区,若是,则进行步骤S16;若否,则进行步骤S18。需要说明的是,若核实为相同小区,则对相同小区进行标识,并统计所有相同小区的最高相似得分,通过最高得分,可用Python脚本批量更新机器识别相同小区的相似度分值。
步骤S18,标记两个小区为不同的唯一小区,并将两个小区的房产地址数据和小区基本信息分别存储至楼盘字典数据库。另外,对不同的两个小区,可定期抽测相似度得分高的小区,核实是否存在相同小区没被发现的情况,若存在,则需对小区标识进行修正。
本发明在构建楼盘字典数据库的过程中,通过引入小区相似度的计算方法,有效甄别出了相同小区,相似小区和唯一小区,大大减少了人工介入的工作量。并且,在小区相似度的计算中,引入TF-IDF算法和关键词库,充分考虑了小区名称中分词后每个词在整个楼盘名称表中的重要程度,也通过这种方式区分了小区名称中的关键词和非关键词。另外,在对小区进行融合时除了对小区名称进行比较,同时也考虑到小区的基础信息,使得小区是否需要融合的判断依据更加充分。
步骤S2,随机获取一房产地址,将该房产地址按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割。例如,杭州省杭州市滨江区滨盛路2242号长河水印城2-2-301,切割后为:杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2|2|301。
九个层级对应的地址解释如下表所示:
表2地址层级与地址解释
Figure BDA0003688725570000071
步骤S3,判断切割后的房产地址是否与楼盘字典数据库中的小区地址一致,若一致,则进行步骤S4;若不一致,则进行步骤S5。
步骤S4,获取切割后的房产地址所对应的小区基本信息,判断其与楼盘字典数据库中的小区基本信息是否一致,若不一致,则对楼盘字典数据库中的小区基本信息进行替换更新。例如,楼盘字典数据库中存储的某处房产的绿化率为45%,但之后获取的该处房产的绿化率为40%,通过人工核实,绿化率为40%是正确信息,则需将楼盘字典数据库中的绿化率45%替换更新为绿化率40%。
步骤S5,对切割后的房产地址按照九个地址层级进行分词标注,获取标注后的房产地址。在本实施例中,采用条件随机场(CRF,Conditional Random Field)算法进行标注。该算法能够通过语境进行分词及词性标注,可以减少对词典及规则的依赖,识别歧义词及未登陆的词,且速度快,效率高。上述地址杭州省杭州市滨江区滨盛路2242号长河水印城2-2-301进行分词标注后,得到地址杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2幢|2单元|301室,即:
杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2|2|301,对应:
省份|城市|区|路名|路号|小区名|楼|单元|室号
步骤S6,将标注后的房产地址与楼盘字典数据库中的小区地址进行匹配,在楼盘字典数据库中找出与标注后的房产地址最相似的小区地址,作为最终的标准化房产地址。包括:
步骤S61,判断标注后的房产地址的行政区域与楼盘字典数据库中的小区地址的行政区域是否相同,若相同,记楼盘字典数据库中的小区地址的区域得分为1分;若不相同,记区域得分为0分。行政区域相同,即是指省份相同、城市相同、区/县相同、乡镇/街道相同。
步骤S62,根据标注后的房产地址的路名、路号和小区名,计算楼盘字典数据库中的小区地址的基础得分。基础得分的计算方式如下表:
表3基础得分计算方式
字段 判断方式 得分
路名+路号+小区名 相同 0.9
路名+小区名 相同 0.8
路名+路号(包括别名) 相同 0.7
小区名(或别名) 包含 0.6
步骤S63,根据标注后的房产地址的小区名,计算楼盘字典数据库中的小区地址的相似度得分。在本实施例中,采用文本相似度算法计算相似度得分。包括:
步骤S631,对标注后的房产地址的小区名以及楼盘字典数据库中的小区地址的小区名进行文本分割。
步骤S632,统计标注后的房产地址的小区名中的每个词出现的次数以及楼盘字典数据库中的小区地址的小区名中的每个词出现的次数,获取两列词频向量。
步骤S633,将两列词频向量代入余弦相似度计算公式,得到余弦值,该余弦值即为楼盘字典数据库中的小区地址的相似度得分。余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,反之越接近0就表示两个向量相似度越低。
步骤S64,将区域得分、基础得分和相似度得分相加,获取匹配得分,找出楼盘字典数据库中匹配得分最高的小区地址,该小区地址即为最终的标准化房产地址。
例如,上述地址——杭州省|杭州市|滨江区|滨盛路|2242号|长河水印城|2幢|2单元|301室,与楼盘字典数据库中的小区地址——浙江省杭州市滨江区滨盛路2242号水印城进行匹配,区域得分为0分,基础得分为0.9分,相似度得分为0.8分,最终匹配得分为1.7分。则原始地址——杭州省杭州市滨江区滨盛路2242号长河水印城2-2-301,标准化后为浙江省杭州市滨江区滨2242号水印城2幢2单元301室。
以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上述实施例还可以做出各种变化。即凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。

Claims (5)

1.一种获取标准化房产地址的方法,其特征在于,包括:
步骤S1,采集已有房产地址数据,并根据已有房产地址数据构建楼盘字典数据库,楼盘字典数据库中存储有小区地址和小区基本信息;
步骤S2,随机获取一房产地址,将该房产地址按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割;
步骤S3,判断切割后的房产地址是否与所述楼盘字典数据库中的小区地址一致,若一致,则进行步骤S4;若不一致,则进行步骤S5;
步骤S4,获取切割后的房产地址所对应的小区基本信息,判断其与所述楼盘字典数据库中的小区基本信息是否一致,若不一致,则对所述楼盘字典数据库中的小区基本信息进行替换更新;
步骤S5,对切割后的房产地址进行分词标注,获取标注后的房产地址;
步骤S6,将标注后的房产地址与所述楼盘字典数据库中的小区地址进行匹配,在楼盘字典数据库中找出与标注后的房产地址最相似的小区地址,作为最终的标准化房产地址。
2.根据权利要求1所述的获取标准化房产地址的方法,其特征在于,所述步骤S1中构建楼盘字典数据库包括:
步骤S11,对已有房产地址数据进行清洗,滤除异常小区信息;
步骤S12,将清洗后的房产地址数据按照省份、城市、区/县、乡镇/街道、道路、小区名、楼栋名、单元、室号九个地址层级进行切割,并按照城市对房产地址数据进行归类;
步骤S13,对各城市下所有房产地址数据中的小区名进行分词处理,并提取出小区名的关键字以及小区名关键字所对应的TF-IDF值;
步骤S14,获取清洗后的房产地址数据中的行政区域信息、道路信息以及小区基本信息,根据所述行政区域信息、所述道路信息、所述小区基本信息、所述小区名的关键字以及所述小区名关键字所对应的TF-IDF值,计算各城市所有小区中任意两个小区的相似度得分;
步骤S15,若两个小区的相似度得分大于等于8分,判定两个小区为相同小区,进行步骤S16;若两个小区的相似度得分小于8分并且大于6分,判定两个小区为疑似相同小区,进行步骤S17;若两个小区的相似度得分小于等于6分,判定两个小区为不同小区,进行步骤S18;
步骤S16,选择其中一个小区的小区名作为小区主名,另一个小区的小区名做为小区别名,并对两个小区的小区名以外的其他信息进行融合;
步骤S17,将相似度得分按照由高到低的顺序进行排序,核实两个小区是否为相同小区,若是,则进行步骤S16;若否,则进行步骤S18;
步骤S18,标记两个小区为不同的唯一小区,并将两个小区的房产地址数据和小区基本信息分别存储至楼盘字典数据库。
3.根据权利要求2所述的获取标准化房产地址的方法,其特征在于,所述步骤S13包括:
步骤S131,采用jieba分词库对各城市下所有房产地址数据中的小区名进行分词,统计小区名中每个词语在所有小区名中出现的频次,并对高频次词语进行筛选,滤除干扰词或无效词;
步骤S132,计算每个小区名的每个分词的TF-IDF值,对TF-IDF值进行排序,TF-IDF值最大的分词为对应的小区名的关键字。
4.根据权利要求1所述的获取标准化房产地址的方法,其特征在于,所述步骤S6包括:
步骤S61,判断标注后的房产地址的行政区域与楼盘字典数据库中的小区地址的行政区域是否相同,若相同,记楼盘字典数据库中的小区地址的区域得分为1分;若不相同,记区域得分为0分;
步骤S62,根据标注后的房产地址的路名、路号和小区名,计算楼盘字典数据库中的小区地址的基础得分;
步骤S63,根据标注后的房产地址的小区名,计算楼盘字典数据库中的小区地址的相似度得分;
步骤S64,将所述区域得分、所述基础得分和所述相似度得分相加,获取匹配得分,找出楼盘字典数据库中匹配得分最高的小区地址,作为最终的标准化房产地址。
5.根据权利要求4所述的获取标准化房产地址的方法,其特征在于,所述步骤S63包括:
步骤S631,对标注后的房产地址的小区名以及楼盘字典数据库中的小区地址的小区名进行文本分割;
步骤S632,统计标注后的房产地址的小区名中的每个词出现的次数以及楼盘字典数据库中的小区地址的小区名中的每个词出现的次数,获取两列词频向量;
步骤S633,将两列词频向量代入余弦相似度计算公式,得到余弦值,作为楼盘字典数据库中的小区地址的相似度得分。
CN202210657401.9A 2022-06-10 2022-06-10 一种获取标准化房产地址的方法 Pending CN115062108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210657401.9A CN115062108A (zh) 2022-06-10 2022-06-10 一种获取标准化房产地址的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210657401.9A CN115062108A (zh) 2022-06-10 2022-06-10 一种获取标准化房产地址的方法

Publications (1)

Publication Number Publication Date
CN115062108A true CN115062108A (zh) 2022-09-16

Family

ID=83199690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210657401.9A Pending CN115062108A (zh) 2022-06-10 2022-06-10 一种获取标准化房产地址的方法

Country Status (1)

Country Link
CN (1) CN115062108A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349451A (zh) * 2023-12-01 2024-01-05 广东中思拓大数据研究院有限公司 数据处理方法、数据处理装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349451A (zh) * 2023-12-01 2024-01-05 广东中思拓大数据研究院有限公司 数据处理方法、数据处理装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Zandbergen A comparison of address point, parcel and street geocoding techniques
WO2016165538A1 (zh) 一种地址数据的管理方法和装置
CN110597870A (zh) 一种企业关系挖掘方法
CN108388559A (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN109271640B (zh) 文本信息的地域属性识别方法及装置、电子设备
CN106547770A (zh) 一种基于用户地址信息的用户分类、用户识别方法及装置
CN107463711B (zh) 一种数据的标签匹配方法及装置
CN112528174A (zh) 基于知识图谱和多重匹配的地址修整补全方法及应用
Christen et al. A probabilistic geocoding system based on a national address file
CN109299469B (zh) 一种在长文本中识别复杂住址的方法
CN114780680A (zh) 基于地名地址数据库的检索与补全方法及系统
CN115062108A (zh) 一种获取标准化房产地址的方法
CN115470307A (zh) 一种地址匹配方法及装置
CN111899822A (zh) 医疗机构数据库构建方法、查询方法、装置、设备和介质
Guo et al. Adaln: a vision transformer for multidomain learning and predisaster building information extraction from images
CN109471934B (zh) 基于互联网的金融风险线索发掘方法
CN111460054A (zh) 地址数据处理方法及装置、设备和存储介质
CN112749905A (zh) 一种基于大数据挖掘的洪涝灾害评估方法
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN113535883B (zh) 商业场所实体链接方法、系统、电子设备及存储介质
CN113268986B (zh) 一种基于模糊匹配算法的单位名称匹配、查找方法及装置
CN101887462A (zh) 一种可持续优化地名数据库快速分级配准方法
CN112215006B (zh) 机构命名实体归一化方法和系统
Christen et al. A probabilistic geocoding system utilising a parcel based address file
CN111325235B (zh) 面向多语种的通用地名语义相似度计算方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination