CN115544197A - 一种细粒度地址匹配方法及系统 - Google Patents

一种细粒度地址匹配方法及系统 Download PDF

Info

Publication number
CN115544197A
CN115544197A CN202211314465.5A CN202211314465A CN115544197A CN 115544197 A CN115544197 A CN 115544197A CN 202211314465 A CN202211314465 A CN 202211314465A CN 115544197 A CN115544197 A CN 115544197A
Authority
CN
China
Prior art keywords
address
standard
matched
matching
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211314465.5A
Other languages
English (en)
Inventor
时磊
胡华
周逸聪
孙涛
郭鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Firehome Putian Information Technology Co ltd
Original Assignee
Wuhan Firehome Putian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Firehome Putian Information Technology Co ltd filed Critical Wuhan Firehome Putian Information Technology Co ltd
Priority to CN202211314465.5A priority Critical patent/CN115544197A/zh
Publication of CN115544197A publication Critical patent/CN115544197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24528Standardisation; Simplification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种细粒度地址匹配方法及系统,该方法包括:将地址库中存储的地址信息标准化处理为地址串;将待匹配地址信息拆分为关键小区部分和楼栋号/门牌号两部分,对两部分进行细粒度的拆分,将拆分后的两部分地址合并得到标准化地址;将所述标准化地址与地址库中的地址串逐级匹配,得到相似的标准地址信息;对所述标准地址信息和待匹配标准化地址进行逐级加权,将加权后的标准地址信息和待匹配标准化地址进行相似度计算,得到最相似的标准地址,并输出最相似的标准地址位置信息。通过该方案可以大大提升地址匹配速度和匹配准确度,减少地址匹配搜索处理的数据量。

Description

一种细粒度地址匹配方法及系统
技术领域
本发明属于信息技术领域,尤其涉及一种细粒度地址匹配方法及系统。
背景技术
在电网系统中的海量故障日志挖掘中,经常需要在电网故障日志信息中找到故障点所在的详细地址信息及故障点之间的距离,以提高电网故障排查、处理的效率。这就需要将日志中的故障点地址和已知标准地址库中的地址进行比对,得到故障的标准地址和在地图中对应的经纬度,从而通过标准地图计算处故障点位之间的距离。但在实际的电网项目中,标准地址库中的地址信息往往都是千万甚至亿级的数量,如果直接将没有处理的故障地址和数据库中的已有标准地址进行匹配,数据处理量会十分庞大且匹配速度慢。
发明内容
有鉴于此,本发明实施例提供了一种细粒度地址匹配方法及系统,用于解决现有的地址匹配方法数据处理量大且匹配速度慢的问题。
在本发明实施例的第一方面,提供了一种细粒度地址匹配方法,包括:
将地址库中存储的地址信息标准化处理为地址串;
将待匹配地址信息拆分为关键小区部分和楼栋号/门牌号两部分,对两部分进行细粒度的拆分,将拆分后的两部分地址合并得到标准化地址;
将所述标准化地址与地址库中的地址串逐级匹配,得到相似的标准地址信息;
对所述标准地址信息和待匹配标准化地址进行逐级加权,将加权后的标准地址信息和待匹配标准化地址进行相似度计算,得到最相似的标准地址,并输出最相似的标准地址位置信息。
在本发明实施例的第二方面,提供了一种细粒度地址匹配系统,包括:
地址预处理模块,用于将地址库中存储的地址信息标准化处理为地址串
地址标准化模块,用于将待匹配地址信息拆分为关键小区部分和楼栋号/门牌号两部分,对两部分进行细粒度的拆分,将拆分后的两部分地址合并得到标准化地址;
地址筛选模块,用于将所述标准化地址与地址库中的地址串逐级匹配,得到相似的标准地址信息;
地址推荐模块,用于对所述标准地址信息和待匹配标准化地址进行逐级加权,将加权后的标准地址信息和待匹配标准化地址进行相似度计算,得到最相似的标准地址,并输出最相似的标准地址位置信息。
在本发明实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。
在本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。
本发明实施例中,通过更细粒度的标准化过程,对地址进行层级切分,不仅能提高地址匹配的准确度,而且能够提升匹配速度。通过对层级地址加权,计算地址相似度,可以快速进行相似地址匹配,降低数据处理量,并能保障匹配结果的准确性和可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述的附图仅仅是本发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他附图。
图1为本发明一个实施例提供的一种细粒度地址匹配方法的流程示意图;
图2为本发明一个实施例提供的一种细粒度地址匹配系统的结构示意图;
图3为本发明的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,本发明的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述,意指覆盖不排他的包含,如包含一系列步骤或单元的过程、方法或系统、设备没有限定于已列出的步骤或单元。此外,“第一”“第二”用于区分不同对象,并非用于描述特定顺序。
请参阅图1,本发明实施例提供的一种细粒度地址匹配方法的流程示意图,包括:
S101、将地址库中存储的地址信息标准化处理为地址串;
所述地址串为按地址层级划分的地址信息,如按行政区划可以分为省、市、区、县、乡等,或按道路名、小区、楼栋等进行划分。将标准化处理后的地址串存储至数据库。
示例性的,对地址库中的数据预处理为省、市、区、县、镇、乡、街道、村委、村、路、小区、主路号、楼栋号、单元号、房间号等十五级地址串。例如地址:“江苏省常州市钟楼区怀德中路XX号”,标准化之后的地址为,省:江苏省,市:常州市,区:钟楼区,路:怀德中路,主路号:XX。
S102、将待匹配地址信息拆分为关键小区部分和楼栋号/门牌号两部分,对两部分进行细粒度的拆分,将拆分后的两部分地址合并得到标准化地址;
将待匹配的地址拆分为关键小区和楼栋号门牌号两部分,然后分别对两部分进行标准化。例如“新桥一村XX幢甲单元XXX室”,拆分之后为,关键小区:新桥一村,楼栋号门牌号:XX幢甲单元XXX室。最后将两部分地址进行合并,经过标准化处理之后的待匹配地址信息就可以用于相似地址匹配。
S103、将所述标准化地址与地址库中的地址串逐级匹配,得到相似的标准地址信息;
其中,将所述标准化地址按地址串层级进行逐层匹配,输出所有相匹配的标准地址信息。
具体的,从标准化数列的第一个不为空的值开始,逐级去标准地址库中进行匹配,直到查询完到所有相似的地址,返回查询到的标准地址信息。
S104、对所述标准地址信息和待匹配标准化地址进行逐级加权,将加权后的标准地址信息和待匹配标准化地址进行相似度计算,得到最相似的标准地址,并输出最相似的标准地址位置信息。
所述标准地址信息中可能包含有多条相似的地址信息,要查找到最准确或最接近的唯一地址,需要将多条相似的地址信息与待匹配标准化地址进行相似度计算。所述位置信息中至少包括有标准地址的经纬度。
具体的,预先设定不同层级地址权重值,对相似的标准地址信息进和待匹配标准化地址分别进行加权;通过余弦相似度计算得到最相似的标准地址。
对查询到的相似地址信息,首先与输入的待匹配地址进行逐级加权处理,再将处理完成的相似地址信息逐级和待匹配地址数据进行相似度计算,得到相似度最高的地址。
本实施例中,通过更细粒度的地址标准化,,使得地址的匹配准确率大大提高,并能有效减少地址匹配时间,降低数据处理量。通过逐级加权,计算地址相似度,可以提升匹配速度,保障匹配结果的可靠性、准确性。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图2为本发明实施例提供的一种细粒度地址匹配系统的结构示意图,该系统包括:
地址预处理模块210,用于将地址库中存储的地址信息标准化处理为地址串
地址标准化模块220,用于将待匹配地址信息拆分为关键小区部分和楼栋号/门牌号两部分,对两部分进行细粒度的拆分,将拆分后的两部分地址合并得到标准化地址;
地址筛选模块230,用于将所述标准化地址与地址库中的地址串逐级匹配,得到相似的标准地址信息;
其中,将所述标准化地址按地址串层级进行逐层匹配,输出所有相匹配的标准地址信息。
地址推荐模块240,用于对所述标准地址信息和待匹配标准化地址进行逐级加权,将加权后的标准地址信息和待匹配标准化地址进行相似度计算,得到最相似的标准地址,并输出最相似的标准地址位置信息。
其中,预先设定不同层级地址权重值,对相似的标准地址信息进和待匹配标准化地址分别进行加权;通过余弦相似度计算得到最相似的标准地址。
本实施例中,与现有的地址匹配算法相比,本实施例采用更细粒度的地址标准化模块,使得地址切分的过程更精确、准确率更高。同时,在筛选模块中加入了权重,使得筛选出的地址信息更加精确。
同时,采用层级逐级加权计算相似度,可以重点计算需要关注的某一级地址,从而使的推荐过程更加灵活,计算结果更加精确。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和模块的具体工作过程可以参考前述方法实施例中对应的过程,在此不再赘述。
图3是本发明一实施例提供的一种电子设备的结构示意图。所述电子设备用于地址匹配。如图3所示,该实施例的电子设备3包括:存储器310、处理器320以及系统总线330,所述存储器310包括存储其上的可运行的程序3101,本领域技术人员可以理解,图3中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图3对电子设备的各个构成部件进行具体的介绍:
存储器310可用于存储软件程序以及模块,处理器320通过运行存储在存储器310的软件程序以及模块,从而执行电子设备的各种功能应用以及数据处理。存储器310可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如缓存数据)等。此外,存储器310可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在存储器310上包含网络请求方法的可运行程序3101,所述可运行程序3101可以被分割成一个或多个模块/单元,所述一个或多个模块/单元被存储在所述存储器310中,并由处理器320执行,以实现地址匹配等,所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序3101在所述电子设备3中的执行过程。例如,所述计算机程序3101可以被分割为地址预处理模块、地址标准化模块、地址筛选模块和地址推荐模块等功能模块。
处理器320是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器310内的软件程序和/或模块,以及调用存储在存储器310内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体状态监控。可选的,处理器320可包括一个或多个处理单元;优选的,处理器320可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器320中。
系统总线330是用来连接计算机内部各功能部件,可以传送数据信息、地址信息、控制信息,其种类可以是例如PCI总线、ISA总线、CAN总线等。处理器320的指令通过总线传递至存储器310,存储器310反馈数据给处理器320,系统总线330负责处理器320与存储器310之间的数据、指令交互。当然系统总线330还可以接入其他设备,例如网络接口、显示设备等。
在本发明实施例中,该电子设备所包括的处理320执行的可运行程序包括:
将地址库中存储的地址信息标准化处理为地址串;
将待匹配地址信息拆分为关键小区部分和楼栋号/门牌号两部分,对两部分进行细粒度的拆分,将拆分后的两部分地址合并得到标准化地址;
将所述标准化地址与地址库中的地址串逐级匹配,得到相似的标准地址信息;
对所述标准地址信息和待匹配标准化地址进行逐级加权,将加权后的标准地址信息和待匹配标准化地址进行相似度计算,得到最相似的标准地址,并输出最相似的标准地址位置信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种细粒度地址匹配方法,其特征在于,包括:
将地址库中存储的地址信息标准化处理为地址串;
将待匹配地址信息拆分为关键小区部分和楼栋号/门牌号两部分,对两部分进行细粒度的拆分,将拆分后的两部分地址合并得到标准化地址;
将所述标准化地址与地址库中的地址串逐级匹配,得到相似的标准地址信息;
对所述标准地址信息和待匹配标准化地址进行逐级加权,将加权后的标准地址信息和待匹配标准化地址进行相似度计算,得到最相似的标准地址,并输出最相似的标准地址位置信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述标准化地址与地址库中的地址串逐级匹配,得到相似的标准地址信息包括:
将所述标准化地址按地址串层级进行逐层匹配,输出所有相匹配的标准地址信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述标准地址信息和待匹配标准化地址进行逐级加权,将加权后的标准地址信息和待匹配标准化地址进行相似度计算包括:
预先设定不同层级地址权重值,对相似的标准地址信息进和待匹配标准化地址分别进行加权;
通过余弦相似度计算得到最相似的标准地址。
4.一种细粒度地址匹配系统,其特征在于,包括:
地址预处理模块,用于将地址库中存储的地址信息标准化处理为地址串
地址标准化模块,用于将待匹配地址信息拆分为关键小区部分和楼栋号/门牌号两部分,对两部分进行细粒度的拆分,将拆分后的两部分地址合并得到标准化地址;
地址筛选模块,用于将所述标准化地址与地址库中的地址串逐级匹配,得到相似的标准地址信息;
地址推荐模块,用于对所述标准地址信息和待匹配标准化地址进行逐级加权,将加权后的标准地址信息和待匹配标准化地址进行相似度计算,得到最相似的标准地址,并输出最相似的标准地址位置信息。
5.根据权利要求4所述的系统,其特征在于,所述将所述标准化地址与地址库中的地址串逐级匹配,得到相似的标准地址信息包括:
将所述标准化地址按地址串层级进行逐层匹配,输出所有相匹配的标准地址信息。
6.根据权利要求4所述的系统,其特征在于,所述将加权后的标准地址信息和待匹配标准化地址进行相似度计算包括:
预先设定不同层级地址权重值,对相似的标准地址信息进和待匹配标准化地址分别进行加权;
通过余弦相似度计算得到最相似的标准地址。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的一种细粒度地址匹配方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1至3任一项所述的一种细粒度地址匹配方法的步骤。
CN202211314465.5A 2022-10-22 2022-10-22 一种细粒度地址匹配方法及系统 Pending CN115544197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211314465.5A CN115544197A (zh) 2022-10-22 2022-10-22 一种细粒度地址匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211314465.5A CN115544197A (zh) 2022-10-22 2022-10-22 一种细粒度地址匹配方法及系统

Publications (1)

Publication Number Publication Date
CN115544197A true CN115544197A (zh) 2022-12-30

Family

ID=84718815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211314465.5A Pending CN115544197A (zh) 2022-10-22 2022-10-22 一种细粒度地址匹配方法及系统

Country Status (1)

Country Link
CN (1) CN115544197A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306627A (zh) * 2023-02-09 2023-06-23 北京海致星图科技有限公司 多路融合地址相似度计算方法、装置、存储介质和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306627A (zh) * 2023-02-09 2023-06-23 北京海致星图科技有限公司 多路融合地址相似度计算方法、装置、存储介质和设备

Similar Documents

Publication Publication Date Title
Mu et al. Hourly and daily urban water demand predictions using a long short-term memory based model
CN110377667B (zh) 关联图谱展示方法、装置、计算机设备和存储介质
US10033570B2 (en) Distributed map reduce network
CN103970604B (zh) 基于MapReduce架构实现图处理的方法和装置
CN109753356A (zh) 一种容器资源调度方法、装置及计算机可读存储介质
US11526769B2 (en) Encoding knowledge graph entries with searchable geotemporal values for evaluating transitive geotemporal proximity of entity mentions
US8024205B2 (en) System and method for calculating damage as a result of natural catastrophes
US20130085673A1 (en) System, method and program product for providing populace centric weather forecasts
KR102310306B1 (ko) 발전소 군집화 및 군집 기반 이상진단 방법
CN111522838A (zh) 地址相似度计算方法及相关装置
CN117079148B (zh) 城市功能区的识别方法、装置、设备和介质
CN115544197A (zh) 一种细粒度地址匹配方法及系统
CN114819596B (zh) 一种区域变电站规划方法、系统、终端及存储介质
CN115658837A (zh) 地址数据处理方法和装置、电子设备和存储介质
CN109919357B (zh) 一种数据确定方法、装置、设备及介质
CN114219023A (zh) 数据聚类方法、装置、电子设备及可读存储介质
CN113901166B (zh) 电子地图构建方法、装置、设备及存储介质
CN111126422B (zh) 行业模型的建立及行业的确定方法、装置、设备及介质
CN113434708B (zh) 地址信息检测方法、装置、电子设备和存储介质
CN111986552B (zh) 地图数据质量鲜度获取方法、装置及存储介质
CN113496305A (zh) 数据处理方法及装置
CN111784239B (zh) 派送网点的确定方法、装置、电子设备及存储介质
CN112541834B (zh) 水电工业数字对象的标识符处理方法、装置和系统
CN114048797A (zh) 确定地址相似度的方法、装置、介质及电子设备
CN113221558A (zh) 一种快递地址纠错方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination