CN111522838B - 地址相似度计算方法及装置 - Google Patents

地址相似度计算方法及装置 Download PDF

Info

Publication number
CN111522838B
CN111522838B CN202010327969.5A CN202010327969A CN111522838B CN 111522838 B CN111522838 B CN 111522838B CN 202010327969 A CN202010327969 A CN 202010327969A CN 111522838 B CN111522838 B CN 111522838B
Authority
CN
China
Prior art keywords
address
candidate
information
similarity
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010327969.5A
Other languages
English (en)
Other versions
CN111522838A (zh
Inventor
张欢韵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Finance Ltd
Original Assignee
Digital Finance Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Finance Ltd filed Critical Digital Finance Ltd
Priority to CN202010327969.5A priority Critical patent/CN111522838B/zh
Publication of CN111522838A publication Critical patent/CN111522838A/zh
Application granted granted Critical
Publication of CN111522838B publication Critical patent/CN111522838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种地址相似度计算方法及装置,方法包括:通过调用地图接口获取待识别地址对应的候选地址集,所述候选地址集包括至少一个候选地址;获取所述至少一个候选地址中每个候选地址的特征信息,所述特征信息包括带层级的地址信息、经纬度和标签信息;根据所述特征信息从地址数据库中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址;根据至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从至少一个匹配地址中确定出所述待识别地址的相似地址。借助于开放的地图接口,以及具有多维度特征信息的地址,可以提升待识别地址相似度计算的效率,并有效提升地址匹配的准确度。

Description

地址相似度计算方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种地址相似度计算方法及装置。
背景技术
随着计算机技术的发展,在互联网领域,往往需要根据用户提供的信息通过计算信息相似度对用户进行聚类分析。其中,用户地址是一个重要的分析要素。目前在计算用户地址相似度时,多基于获取到的地址进行层级拆分,然后逐级计算相似度,再汇总各级别的相似度,最终得到两个地址的相似度地址。计算繁琐,效率低下。而且在其中任意一方地址层级信息缺失或者不准确的情况下,会直接影响地址相似度计算的准确性,进一步影响基于地址相似度的运用效果。
因此,急需解决针对层级信息不准确的地址信息进行相似度计算的问题。
发明内容
本申请实施例提供了一种地址相似度计算方法及装置。可以提升待识别地址相似度计算的效率,并有效提升地址匹配的准确度。
第一方面,一种地址相似度计算方法,所述方法包括:
通过调用地图接口获取待识别地址对应的候选地址集,所述候选地址集包括至少一个候选地址;
获取所述至少一个候选地址中每个候选地址的特征信息,所述特征信息包括带层级的地址信息、经纬度和标签信息;
根据所述特征信息从地址数据库中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址;
根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址。
第二方面,一种地址相似度计算装置,所述装置包括:
通信单元,用于通过调用地图接口获取待识别地址对应的候选地址集,所述候选地址集包含至少一个候选地址;
处理单元,用于获取所述至少一个候选地址中每个候选地址的特征信息,所述特征信息包括带层级的地址信息、经纬度和标签信息;
所述处理单元,还用于根据所述特征信息从数据库中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址;
所述处理单元,还用于根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。
第四方面,本申请实施例提供了一种芯片,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行如上述第一方面中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
第六方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
本申请实施例中,在获取待识别地址后,先基于已有的覆盖全面的地图接口获取对应的候选地址集,能得到较为全面准确的候选地址信息;再基于至少一个候选地址中每个候选地址的特征信息,并且从地址数据库中确定出与之相似度达到预设相似度阈值的地址作为匹配地址,并且将其中相似度最大的匹配地址作为所述待识别地址的相似地址。通过基于多个维度的特征信息进行筛选匹配,提升地址相似度计算的准确程度。并且先确定出至少一个匹配地址,再计算候选地址与对应的匹配地址的相似度,简化计算过程,提升计算效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种地址相似度计算系统的结构示意图;
图2是本申请实施例提供的一种地址相似度计算方法的流程示意图;
图3是本申请实施例提供的另一种地址相似度计算方法的流程示意图;
图4是本申请实施例提供的一种地址相似度计算装置的功能单元示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
目前在计算用户地址相似度时,多基于获取到的地址进行层级拆分,然后逐级计算相似度,再汇总各级别的相似度,最终得到两个地址的相似度地址。计算繁琐,效率低下。而且在其中任意一方地址层级信息缺失或者不准确的情况下,会直接影响地址相似度计算的准确性,进一步影响基于地址相似度的运用效果。针对上述问题,本申请实施例提供一种地址相似度计算的方法及装置。下面结合附图进行详细介绍。
首先,请参看图1所示的一种地址相似度计算系统的结构100示意图,包括地址相似度计算装置110,地图系统120,终端130。
本方案可以应用到各种需要提供用户地址信息并校验的业务场景中,如贷款申请、保险申请等。当用户通过终端130提交业务申请时,如果提交的申请信息中包含了用户的地址信息,也即待识别的地址,地址相似度计算装置110则在获取该待识别的地址后,利用地图系统120获取与待识别地址存在关联性的候选地址集,并且基于地址数据库去筛选与候选地址集相似度满足预设相似度阈值的至少一个匹配地址,并且确定出相似度最高的匹配地址为该待识别地址的相似地址。
上述地址相似度计算装置110,例如可以包括分布式存储服务器、传统服务器、大型存储系统、台式电脑、笔记本电脑、平板电脑、掌上电脑、智能手机、等电子设备,也可以为上述电子设备的内置或者外接装置。上述地址数据库可以为地址相似度计算装置110的内置存储介质,也可以是与地址相似度计算装置110连接的大型分布式存储系统,大型存储系统等,存储有覆盖较为全面的用户地址信息,例如带层级的地址信息,以及用户地址信息的关联信息,例如经纬度和标签信息等。上述地图系统120,具有一套基于地图服务的应用接口,包括JavaScript API、Web服务API、Android SDK、iOS SDK、定位SDK、车联网API、LBS云等多种开发工具与服务,提供基本地图展现、搜索、定位、逆/地理编码、路线规划、LBS云存储与检索等功能,适用于PC端、移动端、服务器等多种设备,多种操作系统下的地图应用开发。上述终端130包括但不限于带通讯功能的设备、智能手机、平板电脑、笔记本电脑、台式电脑、便携式数字播放器、智能手环以及智能手表等。
本申请实施例的技术方案可以基于图1举例所示架构的通信系统或其形变架构来具体实施。
参见图2,图2是本申请实施例提供的一种地址相似度计算方法的流程示意图,这种方法可包括但不限于如下步骤:
201、通过调用地图接口获取待识别地址对应的候选地址集,所述候选地址集包括至少一个候选地址。
具体的,该待识别地址比如为某公司名称、餐馆名称、某公交车站台名称、某路口名称等。当地址相似度计算装置获取到所述待识别地址后,将该待识别地址输入地图系统,该候选地址集包括至少一个候选地址。比如在地图系统的搜索栏中输入某一个小区名,可以输出多个在地图上被标记的地理位置,也即多个候选地址。即当地址相似度计算装置通过地图接口输入待识别地址A,地图系统便会输出候选地址集{A1、B1…N1}。
202、获取所述至少一个候选地址中每个候选地址的特征信息,所述特征信息包括带层级的地址信息、经纬度和标签信息。
具体的,地址相似度计算装置获取由地图系统输出的候选地址集后,进一步的,便获取该候选地址集中每一个候选地址的特征信息。特征信息包括带层级的地址信息,比如*街道惠民路口32号等,又或者中国A市(直辖市)渝北区**街道惠民路口32号等。并且将“中国A省成都市*区”,即国家,省、市、区作为进行层级划分的第一地址信息,将“*街道惠民路口32号”等剩余地址信息作为未进行层级划分的第二地址信息。另外,特征信息还包括经纬度信息,比如经度为106.4575,纬度为29.5410;以及,特征信息还包括标签信息,比如“餐饮”、“某某公司”、“电动车销售”等,如果没有具体的标签信息,则标记标签信息为空。
203、根据所述特征信息从地址数据库中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址。
具体的,地址相似度计算装置在获取候选地址的特征信息后,会基于该类候选地址的特征信息从地址数据库中确定出与该类候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址。也即匹配地址与对应的候选地址的相似度要大于相似度阈值。比如相似度阈值为0.9,地址数据库中的地址a1与候选地址A1的相似度为0.93,则a1为候选地址A1的匹配地址。所述地址数据库可以为需要进行聚类分析的企业私有地址数据库,也可以是开放的专用以聚类分析的数据库。
204、根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址。
具体的,比如待识别地址为A,候选地址A1对应的匹配地址为a1,a2,其中,A1与a1的相似度为0.9,A1与a2的相似度为0.95;候选地址B1对应的匹配地址为b1,b2,其中,B1与b1的相似度为0.9,B1与b2的相似度为0.93,相似度阈值为0.9。则候选地址A1与其对应的匹配地址a2的相似度最大。则将A1对应的匹配地址a2作为该待识别地址A的相似地址。
另外,可以理解为候选地址A1以及B1与该待识别地址具有强关联性,可以是语义关联,也可以是字符串匹配度高等。
可选的,将该待识别地址归为相似度最大的匹配地址一类存储至上述地址数据库中。
可选的,若未确定出相似度达到预设相似度阈值的至少一个匹配地址,则将该待匹配地址作为新的一类地址存储至上述地址数据库中,并以所述待匹配地址的关联信息标记该待匹配地址。
可见,在地址相似度计算装置获取待识别地址后,先基于已有的覆盖全面的地图接口获取对应的候选地址集,能得到较为全面准确的候选地址信息;再基于至少一个候选地址中每个候选地址的特征信息,并且从地址数据库中确定出与之相似度达到预设相似度阈值的地址作为匹配地址,并且将其中相似度最大的匹配地址作为该待识别地址的相似地址。通过基于多个维度的特征信息进行筛选匹配,提升地址相似度计算的准确程度。并且先确定出至少一个待匹配地址,再进行相似度计算,简化计算程序,提升计算效率。
与上述图2所示的实施例一致,请参阅图3,图3是本申请实施例提供的另一种地址相似度计算方法的流程示意图,包括:
301、获取输入的待识别地址。
具体的,可以理解为当用户通过终端输入用户业务申请信息时,该申请信息中包含了用户的地址信息,也即待识别地址。地址相似度计算装置即可从该申请信息中获取该待识别地址。
302、判断所述待识别地址是否符合预设的地址类型,所述预设的地址类型包括地址信息缺失、不符合填写规范和差异化表述中的至少一种。
具体的,可以理解为在用户输入待识别地址后,地址相似度计算装置会判断该待识别地址是否符合预设的地址类型,而预设的地址类型包括地址信息缺失、不符合填写规范和差异化表述中的至少一种。比如重庆市水湾街道13号,美丽港湾公交站旁,港湾公交站与金沙港湾公交站之间等。该类预设的地址类型无法按照基于标准的行政层级划分的地址相似度计算方法计算地址间的相似度。另外,与预设的地址类型互斥的地址类型为非预设的地址类型,即按照标准行政层级划分的地址类型。比如中国广东省深圳市南山区科兴街道北海岸社区45号等。
303、若是,通过调用地图接口获取待识别地址对应的候选地址集,所述候选地址集包括至少一个候选地址。
具体的,在地址相似度计算装置判断出该待识别地址为预设的地址类型时,也即该待识别地址为地址信息缺失、不符合填写规范以及差异化表述等类型的地址时,地址相似度计算装置便调用地图接口获取地图系统中该待识别地址对应的候选地址集。
304、获取所述至少一个候选地址中每个候选地址的特征信息,所述特征信息包括带层级的地址信息、经纬度和标签信息,所述带层级的地址信息包括进行层级划分的第一地址信息与未进行层级划分的第二地址信息。
具体的,按照标准行政层级划分的地址,比如中国广东省深圳市南山区科兴街道北海岸社区45号等。从地图系统获取的候选地址集中的地址具有带层级的地址信息,带层级的地址信息包括进行层级划分的第一地址信息,国家,省、市、区四级层级划分的第一地址信息,比如中国广东省深圳市南山区;还包括未进行层级划分的第二地址信息,某街道,某道路,某小区,楼栋号等,比如科兴街道北海岸社区45号。候选地址的经纬度信息以及标签信息如前述步骤202中所述,在此不再赘述。
305、从地址数据库中筛选出与所述第一地址信息、所述经纬度以及所述标签信息匹配的目标地址集,根据所述第二地址信息从所述目标地址集中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址。
具体的,地址相似度计算装置先从该地址数据库中筛选出与上述第一地址信息、上述经纬度以及上述标签信息匹配的目标地址集,极大地缩小了相似度计算范围;然后根据第二地址信息,计算候选地址与该候选地址对应的匹配地址的相似度,提高计算效率以及计算准确度。从地址数据库中筛选出目标地址集的具体过程可以如下述示例中所述。
在一个可能的示例中,所述从地址数据库中筛选出与所述第一地址信息、所述经纬度以及所述标签信息匹配的目标地址集,包括:根据所述第一地址信息从所述数据库包括的用户地址中筛选出第一地址集;根据所述标签信息从所述第一地址集中筛选出第二地址集;根据所述经纬度从所述第二地址集中筛选出第三地址集;将所述第三地址集作为所述数据库中与所述特征信息匹配的目标地址集。
具体的,可以理解为,地址相似度计算装置先根据所述候选地址的第一地址信息,从上述地址数据库中筛选出与多个候选地址中每一个候选地址的第一地址信息相同的地址集,比如具有相同的国家、省、市、区四个地址层级信息。比如示例性的候选地址集为{A1、B1},也可以包含更多的候选地址。A1的进行层级划分的第一地址信息为中国广东省深圳市南山区,B1的进行层级划分的第一地址信息为中国四川省成都市青白江区,再分别从所述地址数据库中筛选出与A1第一地址信息相同,皆为中国广东省深圳市南山区的ai(a1、a2…an),与B1第一地址信息相同,皆为中国四川省成都市青白江区的bi(b1、b2…bn),得到第一地址集{a1、a2…an,b1、b2…bn};
进一步的,A1的标签信息为小微贷款企业,则再从第一地址集中筛选出与A1标签信息同为小微贷款企业、贷款企业,贷款,或者标签信息为空的(a1、a2);B1的标签信息为餐饮行业,与B1标签信息相同的b1的标签信息可以为餐饮,美食,人气美食等;另外,b2的标签信息为空,b2也作为与所述B1标签信息匹配的匹配地址,由此得到第二地址集{a1、a2,b1、b2};
更进一步的,地址相似度计算装置利用A1、B1、a1、a2,b1、b2的经纬度信息,分别计算A1与a1、a2的距离,如A1与a1的距离为100米,A1与a2的距离为1000米,预设的距离范围为500米,则a1在预设的距离范围内,a2不在预设的距离范围内。同理,得出B1与b2的距离在预设的范围内。由此得到第三地址集{a1,b2};并且将所述第三地址集{a1,b2}作为所述目标地址集。
可见,在地址相似度计算装置确定目标地址集时,基于候选地址集中候选地址的第一地址信息、上述经纬度以及标签信息从至少一个匹配地址中确定所述目标地址集,逐层细化,多层筛选,最终确定出的与各个候选地址匹配的目标地址集,有效减少后续基于目标地址集与候选地址的相似度计算量,提升计算效率。
在一个可能的示例中,所述第一地址集包括的每个地址的第一地址信息与对应的候选地址的第一地址信息相同;所述第二地址集包括的每个地址的标签信息与对应的候选地址的标签信息相匹配,或者为空;所述第三地址集包括的每个地址的经纬度与对应的候选地址的经纬度之间的距离在预设距离范围内。
具体的,如前所述,比如第一地址集为{a1、a2…an,b1、b2…bn},(a1、a2…an)为与候选地址A1具有相同的第一地址信息,比如同为中国,四川省,成都市,青白江区,同理,(b1、b2…bn)与B1具有相同的第一地址信息;
另外,若第二地址集为{a1、a2,b1、b2},则(a1、a2)与A1的标签信息相同,b1与B1的标签信息相同,以及,b2的标签信息为空,则(b1、b2)与B1的标签信息也匹配;
另外,若第三地址集为{a1,b2},则A1与a1的距离在预设的距离范围内,B1与b2的距离在预设的范围内。对应的距离是通过各个地址的经纬度信息计算得出的。
可见,在筛选目标地址集时,基于特征信息包括的多个维度的信息层层筛选,逐步缩小中间地址集的筛选量,保证筛选准确程度的同时,提升筛选效率。
306、根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址。
具体的,比如待识别地址为A,候选地址A1对应的的匹配地址为a1,a2,其中,A1与a1的相似度为0.9,A1与a2的相似度为0.95;候选地址B1对应的的匹配地址为b1,b2,其中,B1与b1的相似度为0.9,B1与b2的相似度为0.93,相似度阈值为0.9。显然候选地址A1与其对应的匹配地址a2的相似度最大。则将A1对应的匹配地址a2作为该待识别地址A的相似地址。
可见,在地址相似度计算装置获取待识别的地址后,先进行判断,在确定该地址为预设的地址类型时,利用地图接口获取与所述待识别地址相关的候选地址集,再根据候选地址集中候选地址的特征信息,从地址数据库中确定出与每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址;并确定出相似度最大的匹配地址为该待识别地址的相似地址。借助于开放的地图接口,以及多维度的特征信息,提升匹配效果,有效解决针对地址信息缺失、不符合填写规范和差异化表述等类型地址的相似度计算问题。
在一个可能的示例中,所述根据所述第二地址信息从所述目标地址集中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址,包括:获取所述每个候选地址对应的目标地址集中每个地址的第二地址信息;计算所述每个候选地址的第二地址信息与对应的目标地址集中每个地址的第二地址信息之间的相似度;从所述目标地址集中确定出对应的相似度达到预设相似度阈值的至少一个匹配地址。
具体的,可以理解为,基于上述阐述,以目标地址集为{a1,b2}为例,分别获取a1,b2的第二地址信息,比如A1的第二地址信息为土湾街道沙滨路金沙港湾旁,石门大桥旁,a1的第二地址信息为土湾街道沙滨路12号,采用相似度计算,A1与a1的相似度为0.89,同理,计算得到B1与b2的相似度为0.92,预设相似度阈值为0.9,则确定所述目标地址集中相似度达到预设相似度阈值的匹配地址为b2。
可选的,计算相似度的算法可以为余弦相似度、simHash、Levenshtein算法等。
可见,通过上述筛选过程使得需要参与相似度计算的目标地址集中的地址数量有效减少,并且基于未进行层级划分的第二地址信息而非全部的带层级的地址信息进行相似度计算,从而极大地简化计算的繁杂程度,提升计算效率。
在一个可能的示例中,所述根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址,包括:比较所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度的大小;将对应的相似度最大的匹配地址作为所述待识别地址的相似地址。
具体的,匹配地址有与候选地址A1匹配的a1,以及与候选地址B1匹配的b1,比较每个匹配地址与对应的候选地址之间的相似度的大小,比如匹配地址a1与候选地址A1的相似度为0.9,匹配地址b2与候选地址B1的相似度为0.93,则与候选地址B1匹配的匹配地址b2的相似度最大,则将匹配地址b2作为该待识别地址A的相似地址。
可见,在存在多个达到预设相似度阈值的匹配地址时,选取相似度最大的匹配地址作为待匹配地址的相似地址,提高归类的准确度。
请参阅图4,图4是本申请实施例提供的一种地址相似度计算装置的功能单元示意图,所述地址相似度计算装置包括通信单元410,处理单元420,其中,
通信单元410,用于通过调用地图接口获取待识别地址对应的候选地址集,所述候选地址集包含至少一个候选地址;
处理单元420,用于获取所述至少一个候选地址中每个候选地址的特征信息,所述特征信息包括带层级的地址信息、经纬度和标签信息;
所述处理单元420,还用于根据所述特征信息从数据库中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址;
所述处理单元420,还用于根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址。
可见,在获取待识别地址后,先通过通信单元410调用已有的覆盖全面的地图接口获取对应的候选地址集,能得到较为全面准确的候选地址信息;再通过处理单元420基于至少一个候选地址中每个候选地址的特征信息,并且从地址数据库中确定出与之相似度达到预设相似度阈值的地址作为匹配地址,并且将其中相似度最大的匹配地址作为所述待识别地址的相似地址。通过基于多个维度的特征信息进行筛选匹配,提升地址相似度计算的准确程度。并且先确定出至少一个待匹配地址,再进行相似度计算,简化计算程序,提升计算效率。
在一个可能的示例中,所述带层级的地址信息包括进行层级划分的第一地址信息与未进行层级划分的第二地址信息,在所述根据所述特征信息从数据库中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址方面,所述处理单元420,具体用于从数据库中筛选出与所述第一地址信息、所述经纬度以及所述标签信息匹配的目标地址集;根据所述第二地址信息从所述目标地址集中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址。
在一个可能的示例中,在所述从地址数据库中筛选出与所述第一地址信息、所述经纬度以及所述标签信息匹配的目标地址集方面,所述处理单元420,具体用于根据所述第一地址信息从所述数据库包括的用户地址中筛选出第一地址集;根据所述标签信息从所述第一地址集中筛选出第二地址集;根据所述经纬度从所述第二地址集中筛选出第三地址集;将所述第三地址集作为所述数据库中与所述特征信息匹配的目标地址集。
在一个可能的示例中,在所述根据所述第二地址信息从所述目标地址集中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址方面,所述处理单元420,具体用于获取所述每个候选地址对应的目标地址集中每个地址的第二地址信息;计算所述每个候选地址的第二地址信息与对应的目标地址集中每个地址的第二地址信息之间的相似度;从所述目标地址集中确定出对应的相似度达到预设相似度阈值的至少一个匹配地址。
在一个可能的示例中,所述第一地址集包括的每个地址的第一地址信息与对应的候选地址的第一地址信息相同;所述第二地址集包括的每个地址的标签信息与对应的候选地址的标签信息相匹配,或者为空;所述第三地址集包括的每个地址的经纬度与对应的候选地址的经纬度之间的距离在预设距离范围内。
在一个可能的示例中,在所述根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址方面,所述处理单元420,具体用于比较所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度的大小;将对应的相似度最大的匹配地址作为所述待识别地址的相似地址。
在一个可能的示例中,在所述通信单元410,用于所述通过调用地图接口获取待识别地址对应的候选地址集之前,所述处理单元420,用于获取输入的待识别地址,判断所述待识别地址是否符合预设的地址类型,所述预设的地址类型包括地址信息缺失、不符合填写规范和差异化表述中的至少一种;若是,则执行所述通过调用地图接口获取待识别地址对应的候选地址集的步骤;其中,所述候选地址集中的每一个候选地址与所述待识别地址存在语义关联。
请参阅图5,图5是本申请实施例提供的一种电子设备500的结构示意图,如图所示,所述电子设备500包括应用处理器510、存储器520、通信接口530以及一个或多个程序521,其中,所述一个或多个程序521被存储在上述存储器520中,并且被配置由上述应用处理器510执行,所述一个或多个程序521包括用于执行以下步骤:
通过调用地图接口获取待识别地址对应的候选地址集,所述候选地址集包含至少一个候选地址;
获取所述至少一个候选地址中每个候选地址的特征信息,所述特征信息包括带层级的地址信息、经纬度和标签信息;
根据所述特征信息从数据库中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址;
根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址。
在一个可能的示例中,所述带层级的地址信息包括进行层级划分的第一地址信息与未进行层级划分的第二地址信息,在所述根据所述特征信息从数据库中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址方面,所述一个或多个程序521包括用于执行以下步骤:从数据库中筛选出与所述第一地址信息、所述经纬度以及所述标签信息匹配的目标地址集;根据所述第二地址信息从所述目标地址集中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址。
在一个可能的示例中,在所述从地址数据库中筛选出与所述第一地址信息、所述经纬度以及所述标签信息匹配的目标地址集方面,所述一个或多个程序521包括用于执行以下步骤:根据所述第一地址信息从所述数据库包括的用户地址中筛选出第一地址集;根据所述标签信息从所述第一地址集中筛选出第二地址集;根据所述经纬度从所述第二地址集中筛选出第三地址集;将所述第三地址集作为所述数据库中与所述特征信息匹配的目标地址集。
在一个可能的示例中,在所述根据所述第二地址信息从所述目标地址集中确定出与所述每个候选地址之间的相似度达到预设相似度阈值的至少一个匹配地址方面,所述一个或多个程序521包括用于执行以下步骤:获取所述每个候选地址对应的目标地址集中每个地址的第二地址信息;计算所述每个候选地址的第二地址信息与对应的目标地址集中每个地址的第二地址信息之间的相似度;从所述目标地址集中确定出对应的相似度达到预设相似度阈值的至少一个匹配地址。
在一个可能的示例中,所述第一地址集包括的每个地址的第一地址信息与对应的候选地址的第一地址信息相同;所述第二地址集包括的每个地址的标签信息与对应的候选地址的标签信息相匹配,或者为空;所述第三地址集包括的每个地址的经纬度与对应的候选地址的经纬度之间的距离在预设距离范围内。
在一个可能的示例中,在所述根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址方面,所述一个或多个程序521包括用于执行以下步骤:比较所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度的大小;将对应的相似度最大的匹配地址作为所述待识别地址的相似地址。
在一个可能的示例中,所述通过调用地图接口获取待识别地址对应的候选地址集之前,所述一个或多个程序521包括用于执行以下步骤:获取输入的待识别地址,判断所述待识别地址是否符合预设的地址类型,所述预设的地址类型包括地址信息缺失、不符合填写规范和差异化表述中的至少一种;若是,则执行所述通过调用地图接口获取待识别地址对应的候选地址集的步骤;其中,所述候选地址集中的每一个候选地址与所述待识别地址存在语义关联。
可以理解为电子设备500可以为前述地址相似度计算装置,或者作为该装置的载体,则所述一个或多个程序521包括用于执行前述地址相似度计算装置方法实施例中任一步骤的指令。
其中,处理器510也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器510还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器520可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器520还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器520至少用于存储以下计算机程序,其中,该计算机程序被处理器510加载并执行之后,能够实现前述任一实施例公开的多元主体硬件的管理方法中的相关步骤。另外,存储器520所存储的资源还可以包括操作系统和数据等,存储方式可以是短暂存储或者永久存储。其中,操作系统可以包括Windows、Unix、Linux等。数据可以包括但不限于终端交互数据、终端设备信号等。
在一些实施例中,电子设备500还可包括有输入输出接口、通信接口、电源以及通信总线。
本领域技术人员可以理解,本实施例公开的结构并不构成对电子设备的限定,可以包括更多或更少的组件。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。

Claims (7)

1.一种地址相似度计算方法,其特征在于,所述方法包括:
通过调用地图接口获取待识别地址对应的候选地址集,所述候选地址集包括至少一个候选地址;
获取所述至少一个候选地址中每个候选地址的特征信息,所述特征信息包括带层级的地址信息、经纬度和标签信息,所述带层级的地址信息包括进行层级划分的第一地址信息与未进行层级划分的第二地址信息;
根据所述第一地址信息从地址数据库包括的用户地址中筛选出第一地址集;根据所述标签信息从所述第一地址集中筛选出第二地址集;根据所述经纬度从所述第二地址集中筛选出第三地址集;将所述第三地址集作为所述地址数据库中与所述特征信息匹配的目标地址集;
获取所述每个候选地址对应的目标地址集中每个地址的第二地址信息;计算所述每个候选地址的第二地址信息与对应的目标地址集中每个地址的第二地址信息之间的相似度;从所述目标地址集中确定出对应的相似度达到预设相似度阈值的至少一个匹配地址;
根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址。
2.根据权利要求1所述的方法,其特征在于,所述第一地址集包括的每个地址的第一地址信息与对应的候选地址的第一地址信息相同;
所述第二地址集包括的每个地址的标签信息与对应的候选地址的标签信息相匹配,或者为空;
所述第三地址集包括的每个地址的经纬度与对应的候选地址的经纬度之间的距离在预设距离范围内。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址,包括:
比较所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度的大小;
将对应的相似度最大的匹配地址作为所述待识别地址的相似地址。
4.根据权利要求1所述的方法,其特征在于,所述通过调用地图接口获取待识别地址对应的候选地址集之前,所述方法还包括:
获取输入的待识别地址;
判断所述待识别地址是否符合预设的地址类型,所述预设的地址类型包括地址信息缺失、不符合填写规范和差异化表述中的至少一种;
若是,则执行所述通过调用地图接口获取待识别地址对应的候选地址集的步骤;
其中,所述候选地址集中的每一个候选地址与所述待识别地址存在语义关联。
5.一种地址相似度计算装置,其特征在于,所述装置包括:
通信单元,用于通过调用地图接口获取待识别地址对应的候选地址集,所述候选地址集包含至少一个候选地址;
处理单元,用于获取所述至少一个候选地址中每个候选地址的特征信息,所述特征信息包括带层级的地址信息、经纬度和标签信息,所述带层级的地址信息包括进行层级划分的第一地址信息与未进行层级划分的第二地址信息;
所述处理单元,还用于根据所述第一地址信息从地址数据库包括的用户地址中筛选出第一地址集;根据所述标签信息从所述第一地址集中筛选出第二地址集;根据所述经纬度从所述第二地址集中筛选出第三地址集;将所述第三地址集作为所述地址数据库中与所述特征信息匹配的目标地址集;获取所述每个候选地址对应的目标地址集中每个地址的第二地址信息;计算所述每个候选地址的第二地址信息与对应的目标地址集中每个地址的第二地址信息之间的相似度;从所述目标地址集中确定出对应的相似度达到预设相似度阈值的至少一个匹配地址;
所述处理单元,还用于根据所述至少一个匹配地址中每个匹配地址与对应的候选地址之间的相似度,从所述至少一个匹配地址中确定出所述待识别地址的相似地址。
6.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-4任一项所述的方法中的步骤的指令。
7.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-4任一项所述的方法。
CN202010327969.5A 2020-04-23 2020-04-23 地址相似度计算方法及装置 Active CN111522838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010327969.5A CN111522838B (zh) 2020-04-23 2020-04-23 地址相似度计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010327969.5A CN111522838B (zh) 2020-04-23 2020-04-23 地址相似度计算方法及装置

Publications (2)

Publication Number Publication Date
CN111522838A CN111522838A (zh) 2020-08-11
CN111522838B true CN111522838B (zh) 2023-07-21

Family

ID=71903456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010327969.5A Active CN111522838B (zh) 2020-04-23 2020-04-23 地址相似度计算方法及装置

Country Status (1)

Country Link
CN (1) CN111522838B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287671A (zh) * 2020-09-29 2021-01-29 深圳市跨越新科技有限公司 基于simhash的地址解析方法及系统
CN112632409A (zh) * 2020-12-22 2021-04-09 深圳壹账通智能科技有限公司 同一用户识别方法、装置、计算机设备和存储介质
CN112818685B (zh) * 2021-01-29 2024-07-26 上海寻梦信息技术有限公司 地址匹配方法、装置、电子设备及存储介质
CN112906394A (zh) * 2021-03-18 2021-06-04 北京字节跳动网络技术有限公司 地址识别方法、装置、设备和存储介质
CN113128222A (zh) * 2021-05-13 2021-07-16 上海寻梦信息技术有限公司 电子面单生成方法、系统、设备及存储介质
CN113987114B (zh) * 2021-09-17 2023-04-07 上海燃气有限公司 一种基于语义分析的地址匹配方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012168892A (ja) * 2011-02-16 2012-09-06 Shigenori Tanaka グループ化装置およびエレメント抽出装置
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN107203823A (zh) * 2016-03-16 2017-09-26 滴滴(中国)科技有限公司 一种用户乘车地址调整方法及装置
CN109388634A (zh) * 2018-09-18 2019-02-26 平安科技(深圳)有限公司 地址信息的处理方法、终端设备及计算机可读存储介质
CN109657163A (zh) * 2018-12-19 2019-04-19 拉扎斯网络科技(上海)有限公司 目的地址确定方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012168892A (ja) * 2011-02-16 2012-09-06 Shigenori Tanaka グループ化装置およびエレメント抽出装置
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN107203823A (zh) * 2016-03-16 2017-09-26 滴滴(中国)科技有限公司 一种用户乘车地址调整方法及装置
CN109388634A (zh) * 2018-09-18 2019-02-26 平安科技(深圳)有限公司 地址信息的处理方法、终端设备及计算机可读存储介质
CN109657163A (zh) * 2018-12-19 2019-04-19 拉扎斯网络科技(上海)有限公司 目的地址确定方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于AC自动机和地址概率模型的地址标准化算法;刘宇;《计算机与现代化》;20181215;第45-50页 *

Also Published As

Publication number Publication date
CN111522838A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111522838B (zh) 地址相似度计算方法及装置
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
CN110390054B (zh) 兴趣点召回方法、装置、服务器和存储介质
CN110968654B (zh) 文本数据的地址类目确定方法、设备以及系统
US20190034816A1 (en) Methods and system for associating locations with annotations
CN103370702A (zh) 藉由地理编码无结构化地址信息获得结构化地址的系统及方法
CN108460046A (zh) 一种地址聚合的方法以及设备
CN103473253A (zh) 经地理编码的数据的检测及用于其的用户界面
CN107729944B (zh) 一种低俗图片的识别方法、装置、服务器及存储介质
CN113642313A (zh) 地址文本的处理方法、装置、设备、存储介质及程序产品
CN113139110B (zh) 区域特征处理方法、装置、设备、存储介质和程序产品
CN114595302A (zh) 空间要素的多层级空间关系构建方法、装置、介质及设备
CN110598122B (zh) 社交群体挖掘方法、装置、设备及存储介质
JP5587281B2 (ja) 注記表記変換装置、注記表記変換方法および注記表記変換プログラム
CN106453822A (zh) 基于异步加载的地图信息展示方法
CN113722580A (zh) 地址信息处理方法、装置、电子设备和计算机可读介质
CN110263140B (zh) 一种主题词的挖掘方法、装置、电子设备及存储介质
CN111986020A (zh) 金融借贷风险评估方法、装置、设备及存储介质
CN110580270B (zh) 地址输出方法及系统、计算机系统和计算机可读存储介质
CN114925680A (zh) 物流兴趣点信息生成方法、装置、设备和计算机可读介质
CN114036414A (zh) 兴趣点的处理方法、装置、电子设备、介质及程序产品
CN113868360A (zh) 地址数据处理方法、装置、电子设备和存储介质
CN111126120B (zh) 城市区域分类方法、装置、设备和介质
CN113360586A (zh) 地址聚集度查询方法、装置、设备及计算机可读存储介质
CN113779370A (zh) 一种地址检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant