CN108399192A - 一种小区信息匹配方法及装置 - Google Patents

一种小区信息匹配方法及装置 Download PDF

Info

Publication number
CN108399192A
CN108399192A CN201810074831.1A CN201810074831A CN108399192A CN 108399192 A CN108399192 A CN 108399192A CN 201810074831 A CN201810074831 A CN 201810074831A CN 108399192 A CN108399192 A CN 108399192A
Authority
CN
China
Prior art keywords
community
title
information
target
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810074831.1A
Other languages
English (en)
Other versions
CN108399192B (zh
Inventor
贾忠良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianjia Beijing Technology Co Ltd
Original Assignee
Lianjia Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianjia Beijing Technology Co Ltd filed Critical Lianjia Beijing Technology Co Ltd
Priority to CN201810074831.1A priority Critical patent/CN108399192B/zh
Publication of CN108399192A publication Critical patent/CN108399192A/zh
Application granted granted Critical
Publication of CN108399192B publication Critical patent/CN108399192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种小区信息匹配方法及装置。所述方法包括:接收第三方提供的第二小区的信息,包括第二小区名称和第二小区所在的区域信息;根据第二小区名称在第一小区索引库中进行匹配,第一小区索引库包括第一小区的信息;若匹配到第一小区名称与第二小区名称相同的第一小区,根据区域信息和第一小区地址获取目标第一小区;若没有匹配到则获取第二小区附近区域内的第一小区,并通过预设规则获取目标第一小区;输出第二小区的信息、目标第一小区的信息和目标第一小区的置信分数。本发明实施例实现了小区信息匹配的自动化,大大减少了人力成本,提高了小区信息匹配的准确率和召回率,并通过设置置信分数方便用户筛选匹配小区。

Description

一种小区信息匹配方法及装置
技术领域
本发明实施例涉及数据处理技术领域,具体为一种小区信息匹配方法及装置。
背景技术
房地产中介行业是房地产业的重要组成部分,房地产中介贯穿在房地产业经济运行的全过程之中,为房地产业的生产、流通和消费提供了多元化的中介服务。随着房地产中介行业的快速发展,房地产中介机构的数量有了很大的增长。各房地产中介机构具有自己维护的房源数据库,且通常会有相应的交易平台,用来展示房源信息。在实际的房地产中介活动中,房地产中介机构之间会有数据共享的需求,如某一房地产中介机构将自己的房源信息挂靠到另一房地产中介机构的网站进行展示和宣传。由于各个房地产中介机构的房源信息的数据格式可能不同,因此在将一个房地产中介机构的房源信息挂靠到另一房地产中介机构的网站时便会面临信息匹配的问题,如进行小区信息的匹配,识别同一小区的房源信息,从而在展示相应小区的房源时可以一同展示。
现有的小区信息匹配方法是接收到其他房地产中介机构的小区信息后,根据所提供的小区信息,到本房地产中介机构的数据库中进行人工逐个比对。因为其他房地产中介机构提供的小区信息描述都不相同,给比对工作造成了很大困难,不仅比对成功率低,也需要耗费很大的人工成本。
发明内容
为解决现有技术中无法实现自动化小区信息匹配的问题,本发明实施例提供一种小区信息匹配方法及装置。
第一方面,本发明实施例提供一种小区信息匹配方法,该方法包括:接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。
第二方面,本发明实施例提供一种小区信息匹配装置,该装置包括:数据接收模块,具体用于接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;匹配模块,具体用于根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;输出模块,具体用于输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。
本发明实施例实现了小区信息匹配的自动化,大大减少了人力成本,提高了小区信息匹配的准确率和召回率,并通过设置置信分数方便用户筛选匹配小区。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的小区信息匹配方法流程图;
图2为本发明实施例提供的小区信息匹配方法中的geohash块示意图;
图3为本发明实施例提供的小区信息匹配装置结构示意图;
图4为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的小区信息匹配方法流程图。如图1所示,所述方法包括:
步骤101、接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;
在房地产中介服务中,通常会出现房地产中介公司之间的数据共享的情形,比如第三方房地产中介服务公司需要将自己所维护的小区数据并入到目标房地产中介服务公司的数据库中。由于同一小区在不同中介公司的数据库中的表达形式可能不同,因此在数据并入时需要进行小区信息匹配。本发明实施例提供目标房地产中介服务公司在将第三方房地产中介服务公司提供的小区数据并入到数据库时的小区信息匹配的方法,所述第三方房地产中介服务公司简称为第三方,所述目标房地产中介服务公司简称为目标方;第三方的小区统称为第二小区,目标方的小区统称为第一小区。
小区信息匹配装置通过数据接口接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息。所述第二小区名称包括别名。所述第二小区所在的区域信息包括物业地址、地理坐标、所在商圈或所在城区,还可包括其他可以反映所述第二小区所在区域或位置的区域信息。
步骤102、根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;
在进行小区信息匹配之前,在目标方的数据库中需事先建立第一小区名称、第一小区地址和第一小区ID的倒排索引,构成第一小区索引库。也即第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;在第一小区索引库中第一小区名称、第一小区地址和第一小区ID相对应。其中,所述第一小区名称包括别名。
根据所述第二小区名称在第一小区索引库中进行匹配,具体将第二小区名称与第一小区名称进行匹配;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则在所述第一小区名称与所述第二小区名称相同的所述第一小区中,结合第二小区所在的区域信息和所述第一小区地址获取目标第一小区;比如,在数据库具有两个与所述第二小区重名的小区,则根据第二小区的区域信息,可以获知第二小区的位置,从而确定与所述第二小区匹配的目标第一小区。所述目标第一小区是指与所述第二小区匹配的小区,如二者为同一小区,则实现了完全匹配。
根据所述第二小区名称在第一小区索引库中进行匹配,具体将第二小区名称与第一小区名称进行匹配;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则,如可以通过进行比对名称相似度及距离远近获取所述目标第一小区,名称越相似、距离越近为所述目标第一小区。所述附近区域的范围可以进行预先设定,如所述第二小区周边2公里内的所述第一小区。在获取所述第二小区周边2公里内的小区时,首先根据所述第二小区的地理坐标计算出7位geohash块A,geohash块A包括所述第二小区的地理坐标。根据geohash块A计算其周围的8块geohash块,获取以上9块geohash块中的所述第一小区,这样就得到所述第二小区周边2公里内的所述第一小区。
图2为本发明实施例提供的小区信息匹配方法中的geohash块示意图。
步骤103、输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数;;
获取到与所述第二小区匹配的目标第一小区后,输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;所述目标第一小区的信息包括目标第一小区名称、目标第一小区地址和和目标第一小区ID。由于在目标方的数据库中,所述第一小区ID与小区一一对应,因此,在输出所述第一小区的信息时,也可以只输出所述目标第一小区ID。所述目标第一小区并不一定是唯一的,也可以为多个小区。所述目标第一小区的置信分数可以反映所述目标第一小区作为所述第二小区的匹配小区的置信程度,分值越高,置信度越高。所述目标第一小区的置信分数可以通过预设算法计算而得,如根据名称匹配度及距离远近进行计算获得。
本发明实施例可以采用spark分布式计算实现小区信息匹配,可以支持一个城市上万个小区参与计算,计算时长可在几分钟内完成;还可提供线上API,并可供第三方调用。
本发明实施例实现了小区信息匹配的自动化,大大减少了人力成本,提高了小区信息匹配的准确率和召回率,并通过设置置信分数方便用户筛选匹配小区。
进一步地,基于上述实施例,所述根据所述区域信息和所述第一小区地址获取目标第一小区具体包括:
若所述第一小区名称与所述第二小区名称相同的所述第一小区唯一,且所述第一小区地址的所在区域与所述第二小区所在的区域信息一致,则匹配到的所述第一小区为所述目标第一小区;
根据所述第二小区名称在第一小区索引库中进行匹配,若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则若所述第一小区名称与所述第二小区名称相同的所述第一小区对应的所述第一小区ID唯一,则所述第一小区名称与所述第二小区名称相同的所述第一小区唯一;若所述第一小区名称与所述第二小区名称相同的所述第一小区对应的所述第一小区ID为多个,则所述第一小区名称与所述第二小区名称相同的所述第一小区为多个。
如所述第二小区名称为“新龙城”,在第一小区索引库中进行匹配得到的所述第一小区名称为“新龙城”的所述第一小区为一个,则若判断获知匹配到的所述第一小区的所在区域与所述第二小区所在的区域信息一致,则根据匹配到的所述第一小区获取所述目标第一小区;其中,匹配到的所述第一小区为所述目标第一小区;
所述第一小区的信息包括所述第一小区地址,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息,所述第二小区所在的区域信息可以为物业地址、地理坐标、商圈或城区。判断所述第一小区的所在区域与所述第二小区所在的区域信息一致的方法是:若所述第二小区的信息包括物业地址,则可以通过将所述物业地址与所述第一小区地址进行字符串比较判断二者是否一致,或通过坐标爬取获取所述物业地址及所述第一小区地址的地理坐标,通过计算并判断二者之间的距离是否满足预设阈值进行判断;若所述第二小区的信息包括地理坐标,则可以通过坐标爬取获取所述第一小区地址的地理坐标,通过计算并判断地理坐标之间的距离是否满足预设阈值进行判断;若所述第二小区的信息包括商圈,则可以通过坐标爬取获取所述第二小区及所述第一小区地址的地理坐标,通过计算并判断二者之间的距离是否满足预设阈值进行判断。所述第一小区地址的地理坐标也可以事先存储与所述第一小区索引库中。
若所述第一小区名称与所述第二小区名称相同的所述第一小区为多个,则判断根据所述区域信息是否可以得到所述第二小区的地理坐标信息,若是,则根据所述第一小区与所述第二小区距离的远近获取所述目标第一小区;若否,若所述区域信息包括城区信息,则根据所述城区信息获取所述目标第一小区。
若所述第一小区名称与所述第二小区名称相同的所述第一小区为多个,如所述第二小区名称为“新龙城”,在第一小区索引库中进行匹配得到的所述第一小区名称为“新龙城”的所述第一小区为多个。当所述第一小区名称与所述第二小区名称相同的所述第一小区为多个时,首先判断根据所述第二小区所在的区域信息是否可以得到所述第二小区的地理坐标信息,若可以得到所述第二小区的地理坐标信息,如所述第二小区所在的区域信息包括物业地址、地理坐标或商圈,则可以直接或通过坐标爬取获得所述第二小区的地理坐标;根据事先存储的所述第一小区的地理坐标或通过坐标爬取获取所述第一小区地址的地理坐标,通过根据所述第二小区的地理坐标与所述第一小区地址的地理坐标进行距离计算,获取所述第一小区与所述第二小区距离,与所述第二小区距离最近的所述第一小区为所述目标第一小区。
若根据所述第二小区所在的区域信息无法可以得到所述第二小区的地理坐标信息,则进一步判断所述区域信息是否包括城区信息,由于城区的范围很大,因此只根据城区信息无法获得第二小区的地理坐标信息。若所述区域信息包括城区信息,则根据所述城区信息获取所述目标第一小区。如所述第二小区的城区信息为“朝阳区”,则在匹配到的多个所述第一小区名称与所述第二小区名称相同的所述第一小区中,根据所述第一小区地址筛选所在城区为“朝阳区”的所述第一小区为所述目标第一小区。
在上述实施例的基础上,本发明实施例在匹配到与第二小区名称相同的第一小区时,通过根据第二小区的区域信息和第一小区地址获取目标第一小区,进一步提高了小区匹配的准确率。
进一步地,基于上述实施例,在所述获取所述第二小区的附近区域内的所述第一小区后,所述通过预设规则获取所述目标第一小区具体包括:若判断获知获取的所述第一小区中存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,则根据所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区获取所述目标第一小区;否则,根据获取的所述第一小区的所述置信分数获取所述目标第一小区。
获取所述第二小区的附近区域内的所述第一小区,如所述第二小区周边2公里内的所述第一小区,从所述第二小区的附近区域内的所述第一小区筛选所述目标第一小区。首先,判断所述第二小区的附近区域内的所述第一小区中是否存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,所述第一小区名称与所述第二小区名称具有包含关系可以为所述第一小区名称包含第二小区名称,或所述第二小区名称包含所述第一小区名称,如第一小区名称为“龙腾苑”,第二小区名称为“龙腾苑二区”,或反之。若存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,则所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区为所述目标第一小区。
若判断获知所述第二小区的附近区域内的所述第一小区中不存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,则计算所述第二小区的附近区域内的所述第一小区的所述置信分数,根据所述第二小区的附近区域内的所述第一小区的所述置信分数获取所述目标第一小区,可以根据所述置信分数由高到低输出预设个数的所述目标第一小区以供用户筛选。
所述第一小区的所述置信分数可以反映所述第一小区作为所述第二小区的匹配小区的置信程度,分值越高,置信度越高。所述第一小区的置信分数可以通过预设算法计算而得,如根据名称匹配度及距离远近进行计算获得。
在上述实施例的基础上,本发明实施例在没有匹配到与第二小区名称相同的第一小区时,通过小区名称的包含关系或置信分数获取目标第一小区,提高了小区信息匹配成功的几率。
进一步地,基于上述实施例,在所述输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数之前,所述方法还包括:通过距离分数、名称分数和读音分数加权计算获得所述目标第一小区的置信分数。
设置距离分数、名称分数和读音分数,通过给三类分数设置不同的权重进行加权计算获得所述目标第一小区的置信分数。所述距离分数的高低表示目标第一小区与第二小区的距离的远近,距离越近,分数越高。所述名称分数的高低表示目标第一小区的名称与所述第二小区名称的接近程度,名称越接近,分数越高;所述名称分数可以通过Jarowinkler算法进行计算求得。所述读音分数的高低表示目标第一小区的名称的读音与第二小区名称的读音的相似程度,读音越相似,则分数越高;所述读音分数可以通过编辑距离的计算求得。如简体字和繁体字,虽然字不同,但读音相同,并且实际表示的是同一个字。根据所述小区匹配方法的使用场合,可以给三类分数设置不同的权重。如闽南区域应用的话,则读音的权重可以设置的高一些。
需要注意的是,在第二小区的附近区域内的所述第一小区中不存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,通过计算所述第二小区的附近区域内的所述第一小区的所述置信分数获得目标第一小区时,所述第二小区的附近区域内的所述第一小区的所述置信分数也可以通过距离分数、名称分数和读音分数加权计算获得。
在上述实施例的基础上,本发明实施例通过距离分数、名称分数和读音分数加权计算获得目标第一小区的置信分数,置信分数的计算因素全面,提高了小区匹配的可靠性和准确度。
进一步地,基于上述实施例,在所述接收第三方提供的第二小区的信息之后,所述根据所述第二小区名称在第一小区索引库中进行匹配之前,所述方法还包括:根据所述第一小区名称的格式对所述第二小区名称进行预处理。
所述小区信息匹配装置接收第三方提供的第二小区的信息之后,首先对所述第二小区的信息中的所述第二小区名称进行预处理,然后再根据所述第二小区名称在第一小区索引库中进行匹配,以提高匹配成功率。进行数据预处理是因为不同源的小区数据,如第三方与目标方的小区名称实际是相同的,但是所述第二小区名称和所述第一小区名称的表现形式不同,如第二小区名称为丽泽2区,第一小区名称为丽泽二区;第二小区名称为龙腾苑,第一小区名称为龙腾苑小区等。因此在接收第三方提供的第二小区的信息之后,首先对所述第二小区的信息中的所述第二小区名称进行预处理,将第二小区名称处理成与第一小区名称相同的表现形式,以避免实际相同的小区却无法实现准确匹配。
在上述实施例的基础上,本发明实施例通过将接收的第二小区名称进行预处理后再根据第二小区名称在第一小区索引库中进行匹配,提高了小区信息匹配的成功率。
图3为本发明实施例提供的小区信息匹配装置结构示意图。如图3所示,所述装置包括数据接收模块10、匹配模块20和输出模块30,其中:
数据接收模块10具体用于接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;
数据接收模块10通过数据接口接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息。所述第二小区名称包括别名。所述第二小区所在的区域信息包括物业地址、地理坐标、所在商圈或所在城区,还可包括其他可以反映所述第二小区所在区域或位置的区域信息。
匹配模块20具体用于根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;
在进行小区信息匹配之前,匹配模块20在目标方的数据库中需事先建立第一小区名称、第一小区地址和第一小区ID的倒排索引,构成第一小区索引库。第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;在第一小区索引库中第一小区名称、第一小区地址和第一小区ID相对应。其中,所述第一小区名称包括别名。
匹配模块20根据所述第二小区名称在第一小区索引库中进行匹配,具体将第二小区名称与第一小区名称进行匹配;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则在所述第一小区名称与所述第二小区名称相同的所述第一小区中,结合第二小区所在的区域信息和所述第一小区地址获取目标第一小区。所述目标第一小区是指与所述第二小区匹配的小区。
匹配模块20根据所述第二小区名称在第一小区索引库中进行匹配,具体将第二小区名称与第一小区名称进行匹配;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则,如可以通过进行比对名称相似度及距离远近获取所述目标第一小区。所述附近区域的范围可以进行预先设定,如所述第二小区周边2公里内的所述第一小区。
输出模块30具体用于输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数;
输出模块30获取到与所述第二小区匹配的目标第一小区后,输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;所述目标第一小区的信息包括目标第一小区名称、目标第一小区地址和和目标第一小区ID,也可以只输出所述目标第一小区ID。所述目标第一小区的置信分数可以反映所述目标第一小区作为所述第二小区的匹配小区的置信程度,分值越高,置信度越高。所述目标第一小区的置信分数可以通过预设算法计算而得,如根据名称匹配度及距离远近进行计算获得。
本发明实施例实现了小区信息匹配的自动化,大大减少了人力成本,提高了小区信息匹配的准确率和召回率,并通过设置置信分数方便用户筛选匹配小区。
进一步地,基于上述实施例,所述匹配模块20在用于根据所述区域信息和所述第一小区地址获取目标第一小区的过程中,具体用于:
若所述第一小区名称与所述第二小区名称相同的所述第一小区唯一,且所述第一小区地址的所在区域与所述第二小区所在的区域信息一致,匹配模块20则根据匹配到的所述第一小区获取所述目标第一小区;其中,匹配到的所述第一小区为所述目标第一小区;
如所述第二小区名称为“新龙城”,在第一小区索引库中进行匹配得到的所述第一小区名称为“新龙城”的所述第一小区为一个,则若判断获知匹配到的所述第一小区的所在区域与所述第二小区所在的区域信息一致,则匹配到的所述第一小区为所述目标第一小区。所述第一小区的所在区域与所述第二小区所在的区域信息一致是指所述第一小区的所在区域与所述第二小区的所在区域相同、地理距离满足预设距离阈值或两个区域属于包含关系。
若所述第一小区名称与所述第二小区名称相同的所述第一小区为多个,则匹配模块20判断根据所述区域信息是否可以得到所述第二小区的地理坐标信息,若是,匹配模块20则根据所述第一小区与所述第二小区距离的远近获取所述目标第一小区;若否,若所述区域信息包括城区信息,匹配模块20则根据所述城区信息获取所述目标第一小区。
当所述第一小区名称与所述第二小区名称相同的所述第一小区为多个时,匹配模块20首先判断根据所述第二小区所在的区域信息是否可以得到所述第二小区的地理坐标信息,若可以得到所述第二小区的地理坐标信息,并获取所述第一小区地址的地理坐标,通过根据所述第二小区的地理坐标与所述第一小区地址的地理坐标进行距离计算,获取所述第一小区与所述第二小区距离,与所述第二小区距离最近的所述第一小区为所述目标第一小区。
若匹配模块20根据所述第二小区所在的区域信息无法可以得到所述第二小区的地理坐标信息,则进一步判断所述区域信息是否包括城区信息。若所述区域信息包括城区信息,则根据所述城区信息进行筛选获取所述目标第一小区。
在上述实施例的基础上,本发明实施例在匹配到与第二小区名称相同的第一小区时,通过根据第二小区的区域信息和第一小区地址获取目标第一小区,进一步提高了小区匹配的准确率。
进一步地,基于上述实施例,所述匹配模块20在所述获取所述第二小区的附近区域内的所述第一小区后,在所述通过预设规则获取所述目标第一小区的过程中具体用于:
若匹配模块20判断获知获取的所述第一小区中存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,则根据所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区获取所述目标第一小区;否则,根据获取的所述第一小区的所述置信分数获取所述目标第一小区。
匹配模块20获取所述第二小区的附近区域内的所述第一小区,如所述第二小区周边2公里内的所述第一小区,从所述第二小区的附近区域内的所述第一小区筛选所述目标第一小区。首先,判断所述第二小区的附近区域内的所述第一小区中是否存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,所述第一小区名称与所述第二小区名称具有包含关系可以为所述第一小区名称包含第二小区名称,或所述第二小区名称包含所述第一小区名称。若存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,则所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区为所述目标第一小区。
若匹配模块20判断获知所述第二小区的附近区域内的所述第一小区中不存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,则计算所述第二小区的附近区域内的所述第一小区的所述置信分数,根据所述第二小区的附近区域内的所述第一小区的所述置信分数获取所述目标第一小区,可以根据所述置信分数由高到低输出预设个数的所述目标第一小区以供用户筛选。
在上述实施例的基础上,本发明实施例在没有匹配到与第二小区名称相同的第一小区时,通过小区名称的包含关系或置信分数获取目标第一小区,提高了小区信息匹配成功的几率。
进一步地,基于上述实施例,所述输出模块30在所述输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数之前,还用于通过距离分数、名称分数和读音分数加权计算获得所述目标第一小区的置信分数。
设置距离分数、名称分数和读音分数,输出模块30通过给三类分数设置不同的权重进行加权计算获得所述目标第一小区的置信分数。所述距离分数的高低表示目标第一小区与第二小区的距离的远近;所述名称分数的高低表示目标第一小区的名称与所述第二小区名称的接近程度;所述读音分数的高低表示目标第一小区的名称的读音与第二小区名称的读音的相似程度。根据所述小区匹配方法的使用场合,可以给三类分数设置不同的权重。
在上述实施例的基础上,本发明实施例通过距离分数、名称分数和读音分数加权计算获得目标第一小区的置信分数,置信分数的计算因素全面,提高了小区匹配的可靠性和准确度。
进一步地,基于上述实施例,所述装置还包括预处理模块,所述预处理模块用于在所述接收第三方提供的第二小区的信息之后,所述根据所述第二小区名称在第一小区索引库中进行匹配之前,根据所述第一小区名称的格式对所述第二小区名称进行预处理。
所述预处理模块接收第三方提供的第二小区的信息之后,首先对所述第二小区的信息中的所述第二小区名称进行预处理,然后再根据所述第二小区名称在第一小区索引库中进行匹配,以提高匹配成功率。在接收第三方提供的第二小区的信息之后,首先对所述第二小区的信息中的所述第二小区名称进行预处理,将第二小区名称处理成与第一小区名称相同的表现形式,以避免实际相同的小区却无法实现准确匹配。
在上述实施例的基础上,本发明实施例通过将接收的第二小区名称进行预处理后再根据第二小区名称在第一小区索引库中进行匹配,提高了小区信息匹配的成功率。
本发明实施例提供的装置是用于上述方法的,具体功能可参照上述方法流程,此处不再赘述。
图4为本发明实施例提供的电子设备的结构示意图。如图4所示,所述电子设备包括处理器401、存储器402和总线403。其中,所述处理器401和所述存储器402通过所述总线403完成相互间的通信;所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种小区信息匹配方法,其特征在于,包括:
接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;
根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;
输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述区域信息和所述第一小区地址获取目标第一小区具体包括:
若所述第一小区名称与所述第二小区名称相同的所述第一小区唯一,且所述第一小区地址的所在区域与所述第二小区所在的区域信息一致,则根据匹配到的所述第一小区获取所述目标第一小区;其中,匹配到的所述第一小区为所述目标第一小区;
若所述第一小区名称与所述第二小区名称相同的所述第一小区为多个,则判断根据所述区域信息是否可以得到所述第二小区的地理坐标信息,若是,则根据所述第一小区与所述第二小区距离的远近获取所述目标第一小区;若否,若所述区域信息包括城区信息,则根据所述城区信息获取所述目标第一小区。
3.根据权利要求1所述的方法,其特征在于,在所述获取所述第二小区的附近区域内的所述第一小区后,所述通过预设规则获取所述目标第一小区具体包括:
若判断获知获取的所述第一小区中存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,则根据所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区获取所述目标第一小区;否则,根据获取的所述第一小区的所述置信分数获取所述目标第一小区。
4.根据权利要求1所述的方法,其特征在于,在所述输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数之前,所述方法还包括:
通过距离分数、名称分数和读音分数加权计算获得所述目标第一小区的置信分数。
5.根据权利要求1所述的方法,其特征在于,在所述接收第三方提供的第二小区的信息之后,所述根据所述第二小区名称在第一小区索引库中进行匹配之前,所述方法还包括:
根据所述第一小区名称的格式对所述第二小区名称进行预处理。
6.一种小区信息匹配装置,其特征在于,包括:
数据接收模块,具体用于接收第三方提供的第二小区的信息,所述第二小区的信息包括第二小区名称和所述第二小区所在的区域信息;
匹配模块,具体用于根据所述第二小区名称在第一小区索引库中进行匹配,所述第一小区索引库包括第一小区的信息,所述第一小区的信息包括第一小区名称、第一小区地址和第一小区ID;若匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则根据所述区域信息和所述第一小区地址获取目标第一小区;若没有匹配到所述第一小区名称与所述第二小区名称相同的所述第一小区,则获取所述第二小区的附近区域内的所述第一小区,并通过预设规则获取所述目标第一小区;
输出模块,具体用于输出所述第二小区的信息、所述目标第一小区的信息和所述目标第一小区的置信分数。
7.根据权利要求6所述的装置,其特征在于,所述匹配模块在用于根据所述区域信息和所述第一小区地址获取目标第一小区的过程中,具体用于:
若所述第一小区名称与所述第二小区名称相同的所述第一小区唯一,且所述第一小区地址的所在区域与所述第二小区所在的区域信息一致,则根据匹配到的所述第一小区获取所述目标第一小区;其中,匹配到的所述第一小区为所述目标第一小区;
若所述第一小区名称与所述第二小区名称相同的所述第一小区为多个,则判断根据所述区域信息是否可以得到所述第二小区的地理坐标信息,若是,则根据所述第一小区与所述第二小区距离的远近获取所述目标第一小区;若否,若所述区域信息包括城区信息,则根据所述城区信息获取所述目标第一小区。
8.根据权利要求6所述的装置,其特征在于,所述匹配模块在所述获取所述第二小区的附近区域内的所述第一小区后,在所述通过预设规则获取所述目标第一小区的过程中具体用于:
若判断获知获取的所述第一小区中存在所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区,则根据所述第一小区名称与所述第二小区名称具有包含关系的所述第一小区获取所述目标第一小区;否则,根据获取的所述第一小区的所述置信分数获取所述目标第一小区。
9.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一所述的方法。
CN201810074831.1A 2018-01-25 2018-01-25 一种小区信息匹配方法及装置 Active CN108399192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810074831.1A CN108399192B (zh) 2018-01-25 2018-01-25 一种小区信息匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810074831.1A CN108399192B (zh) 2018-01-25 2018-01-25 一种小区信息匹配方法及装置

Publications (2)

Publication Number Publication Date
CN108399192A true CN108399192A (zh) 2018-08-14
CN108399192B CN108399192B (zh) 2020-07-24

Family

ID=63095013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810074831.1A Active CN108399192B (zh) 2018-01-25 2018-01-25 一种小区信息匹配方法及装置

Country Status (1)

Country Link
CN (1) CN108399192B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275096A (zh) * 2020-01-17 2020-06-12 青梧桐有限责任公司 基于图像识别的同名小区辨别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1875419A1 (en) * 2005-04-25 2008-01-09 The Boeing Company Advanced ground transportation management
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN102607577A (zh) * 2011-01-25 2012-07-25 北京四维图新科技股份有限公司 一种导航电子地图的增量更新方法、装置及系统
CN104216895A (zh) * 2013-05-31 2014-12-17 高德软件有限公司 一种生成poi数据的方法及装置
CN107526786A (zh) * 2017-08-01 2017-12-29 江苏速度信息科技股份有限公司 基于多源数据的地名地址数据整合的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1875419A1 (en) * 2005-04-25 2008-01-09 The Boeing Company Advanced ground transportation management
CN102607577A (zh) * 2011-01-25 2012-07-25 北京四维图新科技股份有限公司 一种导航电子地图的增量更新方法、装置及系统
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN104216895A (zh) * 2013-05-31 2014-12-17 高德软件有限公司 一种生成poi数据的方法及装置
CN107526786A (zh) * 2017-08-01 2017-12-29 江苏速度信息科技股份有限公司 基于多源数据的地名地址数据整合的方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275096A (zh) * 2020-01-17 2020-06-12 青梧桐有限责任公司 基于图像识别的同名小区辨别方法及系统

Also Published As

Publication number Publication date
CN108399192B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
US10621493B2 (en) Multiple record linkage algorithm selector
CN110008399A (zh) 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN107679189A (zh) 一种兴趣点更新方法、装置、服务器和介质
CN111028016A (zh) 销量数据预测方法、装置以及相关设备
CN106897205A (zh) 一种测试数据生成方法及装置
CN108011987A (zh) Ip地址定位方法及装置,电子设备及存储介质
CN109117275A (zh) 基于数据分片的对账方法、装置、计算机设备及存储介质
CN106874356B (zh) 地理位置信息管理方法和装置
CN111723959A (zh) 区域的划分方法、装置、存储介质及电子装置
CN107330464A (zh) 数据处理方法和装置
CN109951846A (zh) 无线网络识别方法、装置、存储介质及计算机设备
CN109993184A (zh) 一种数据融合的方法以及数据融合设备
CN108616525A (zh) 网站访问方法和装置、电子设备及存储介质
CN116662509A (zh) 大规模语言模型的开放域问答实现方法、装置及设备
CN112650931B (zh) 一种内容推荐方法
CN108399192A (zh) 一种小区信息匹配方法及装置
CN108711074A (zh) 业务分类方法、装置、服务器及可读存储介质
CN110532193A (zh) 一种性能分析方法、装置、计算设备及存储介质
CN110955760A (zh) 判决结果的评价方法和相关装置
CN108256694A (zh) 基于重复遗传算法的模糊时间序列预测系统、方法及装置
CN109783559B (zh) 房产交易数据的获取方法、装置、电子设备以及存储介质
CN111768290A (zh) 确定业务的风险权重系数的方法及装置
CN111784503B (zh) 一种通信征信数据的运营变现方法、系统和存储介质
CN111127065A (zh) 用户职住地的获取方法和装置
CN110856253B (zh) 定位方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing

Applicant after: Seashell Housing (Beijing) Technology Co., Ltd.

Address before: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing

Applicant before: Chain home network (Beijing) Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant