CN114168705A - 一种基于地址要素索引的中文地址匹配方法 - Google Patents

一种基于地址要素索引的中文地址匹配方法 Download PDF

Info

Publication number
CN114168705A
CN114168705A CN202111464331.7A CN202111464331A CN114168705A CN 114168705 A CN114168705 A CN 114168705A CN 202111464331 A CN202111464331 A CN 202111464331A CN 114168705 A CN114168705 A CN 114168705A
Authority
CN
China
Prior art keywords
address
matching
chinese
elements
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111464331.7A
Other languages
English (en)
Other versions
CN114168705B (zh
Inventor
赵文强
王铁
张雪英
孙汉
吴晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Canyon Information Technology Co ltd
Original Assignee
Nanjing Canyon Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Canyon Information Technology Co ltd filed Critical Nanjing Canyon Information Technology Co ltd
Priority to CN202111464331.7A priority Critical patent/CN114168705B/zh
Publication of CN114168705A publication Critical patent/CN114168705A/zh
Application granted granted Critical
Publication of CN114168705B publication Critical patent/CN114168705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于地址要素索引的中文地址匹配方法,该方法结合现有地址分类标准及中文地址数据的组织结构特征,构建中文地址要素组成结构,为确保地址数据的质量,在对低质量的地址数据进行清洗与筛选等预处理工作后,结合组成结构中的地址组合模式利用分词方法对标准地址数据进行要素解析,参考中文地址要素组成结构,基于解析结果构建标准地址要素索引文件,形成标准地址索引库,将待匹配地址进行初步要素解析,依据索引库中的各级地址要素索引和匹配策略进行地址要素检索与匹配,获得地址匹配结果的较优地址集合,利用设定的地址要素权重和地址相似度计算方法对结果集合进行筛选和排序,从而获得最优的匹配结果和对应的地址空间位置坐标。

Description

一种基于地址要素索引的中文地址匹配方法
技术领域
本发明属于地理信息技术领域,特别涉及一种基于地址要素索引的中文地址匹配方法。
背景技术
地址作为不可或缺的基础地理信息和社会公共信息,是各类社会信息关联的重要桥梁,在国家和社会管理、经济发展、文化建设、国防外交等方面发挥着重要作用。中文地址是由连续的字符串组成,能够帮助人们描述具体的地理位置。完整地址描述应该包括国家、省、市、区县、街道、乡村、道路、门牌号码、局部区域、楼址、楼栋号、楼层号和房间号等。一个有效的中文地址应该是唯一的,能够快速标识并定位某一地理实体位置。地址作为现代社会发展过程中所必需的地理空间数据资源和战略性基础信息资源,已经成为智慧城市中时空基础框架的重要组成部分,也是社会大数据组织、关联与共享应用的桥梁。
地址匹配是将自然语言描述的地址数据,在地址模型或编码规范的基础上进行智能化的地址解析,从而建立地址描述信息与空间坐标转换的过程。通过地址匹配可以建立标准地址与非标准地址之间的有机联系,满足空间信息与非空间信息的有效融合,实现不同地址数据类型之间的共享与集成。地址模型是地址匹配的基础,地址解析是地址匹配过程中对地址结构化的关键步骤。随着人们空间认知和信息化技术的不断提升,先进的人工智能、大数据和自然语言处理等技术快速发展,为中文地址的解析和智能匹配提供了强有力的技术支撑。
将带有中文地址要素模型的地址层级分类体系以及索引技术相融合,形成一种基于地址要素索引的中文地址匹配方法,可解决地址匹配中建立标准地址与非标准地址有机联系的问题,满足空间信息有效表达的需求,同时有效应对中文地址存在分隔符缺失、描述名称省略或者冗余以及形式复杂多样等问题导致的匹配效率低下、准确度亟待提高的窘境。
发明内容
为了解决中文地址数据存在的数据不规范、存在冗余和复杂多样的问题,以及传统中文地址匹配中字符匹配效率和准确率不能完美适用大量非标准地址数据的情况,本发明目的在于提供一种基于地址要素索引的中文地址匹配方法,该方法在地址解析的基础上,首先对解析后的地址要素,按照其要素的类型进行归类,并对每一类型的地址要素集分别建立相应的倒排索引。同时对符合要求的多个结果进行归并,从而获得候选地址集合。基于地址要素的索引可以在最大程度上避免不同类型的地址要素结果的混淆。这样的中文地址要素索引可解决不同类型地址要素对匹配结果混淆的问题,提升了中文地址的数据组织效率和匹配性能。
本发明解决其技术问题所采取的技术方案是:一种基于地址要素索引的中文地址匹配方法,该方法包括以下步骤:
步骤1:基于地址要素分类体系及地址数据特点构建中文地址要素组成结构,分析中文地址要素组合模式,在地址要素分类与地址空间关系描述的基础上,对中文地址采用分段组合的方式进行描述。
步骤2:在对地址数据进行清洗、筛选和行政区划补全等预处理工作后,基于所构建的中文地址要素组成结构对地址数据以分词方法进行解析;
步骤3:根据中文地址要素组成结构,构建包含其各级地址要素的地址要素数据库,将用于构建索引的解析结果进行结构化后存入地址要素数据库;
步骤4:根据地址要素数据库中结构化的地址数据,利用Elasticsearch引擎并结合地址要素库的分级数据,构建地址要素索引文件后将索引存入索引数据库中;
步骤5:将待匹配地址数据经过地址解析后,引入地址要素索引文件,通过构建的地址索引文件将待匹配地址进行检索匹配,匹配中将参考索引数据的地址要素层级关系,将待匹配地址和各级行政区划索引进行匹配并获得地址匹配结果的待选集合;
步骤6:结合设定的地址要素权重和地址相似度计算模型计算待匹配地址的匹配权重值,根据权重值的高低进行排序,得到匹配的优选结果。
进一步地,本发明步骤1中所述中文地址要素组成结构共分为行政区划、道路、局部区域、楼址、楼室号、附属信息6个大类、18个小类进行表示。
进一步地,本发明步骤1中所述中文地址要素组合模式,通过对详细地址中的要素规律统计,可以得出以下四种组合模式。分别为:道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式和道路交汇处地址模式。
进一步地,本发明步骤1中所述的中文地址分段描述分为行政区划部分、详细地址部分、楼室号地址和附属信息四个组成部分。
进一步地,本发明中文地址要素组成结构的行政区划大类,其层级结构可通过扩展巴斯克范式表示为:行政区划名::=<一级行政区划><二级行政区划><三级行政区划>[四级行政区划][五级行政区划]。
进一步地,本发明中文地址分段描述中的详细地址部分存在四种地址要素组合模式:道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式、道路交汇处地址模式。
进一步地,本发明步骤5中所述的引入地址要素索引文件通过Elasticsearch引擎构建和存储的地址索引文件对待匹配地址进行检索,并基于该引擎进行地址要素等级的检索以便地址要素的匹配。
进一步地,本发明地址匹配时所参考的中文地址匹配策略结合精准匹配、模糊匹配和回溯匹配的策略。
进一步地,本发明地址精确匹配是指地址要素与地址数据库中目标地址要素完全相同的检索方式;地址模糊匹配采用获得包含相同地址要素最多的地址集合的方式进行匹配;地址回溯匹配采用对匹配失败的地址进行二次匹配,返回最接近的地址结果的方式进行匹配。
进一步地,本发明步骤6中所述的地址要素权重将中文地址要素组成结构的行政区划、道路、局部区域、楼址、楼室号、附属信息六个大类地址列为一级类型权重,大类下的地址二级分类列为二级类型权重。
进一步地,本发明当二级行政区划匹配的相似度超过0.95,则一级的行政区划部分的权重设置为0。多个局部区域名称嵌套时,权重从后向前进行递减,当局部区域要素的个数超过3个及以上时,设置权重为0.3且不再递减。对于每一个类别要素相似度计算都需要进行归一化,避免计算单位的不统一。
进一步地,本发明步骤6中所述的地址相似度计算模型是基于加权的字符编辑距离算法与地址语义余弦相似度计算融合的综合模型。
有益效果:
1、本发明基于现有地址要素分类体系和大规模地址数据的数据结构作为分析标准,构建了有利于完善中文地址要素和表达中文地址的分类体系。分析了地址中存在的空间关系及其表达方式后,生成了中文地址要素的组合模式,能够为地址模型的建立提供参考与借鉴,为地址解析和地址匹配的过程提供数据结构的基础,为实验提供理论支撑。
2、本发明构建的中文地址要素模型,在地址解析和地址匹配的过程中可以确保地址数据的标准化流程,提高地址数据标准化程度可以大幅度提高解析与匹配的效率和准确率,避免由于数据存在冗余和地址数据本身的复杂性而造成的数据处理层面的问题。同时对于地址要素索引的构建也有精准度上的提升。
3、本发明在地址解析的基础上,首先对解析后的地址要素,按照其要素的类型进行归类,并对每一类型的地址要素集分别建立相应的倒排索引。同时对符合要求的多个结果进行归并,从而获得候选地址集合。基于地址要素的索引可以在最大程度上避免不同类型的地址要素结果的混淆。这样的中文地址要素索引可解决不同类型地址要素对匹配结果混淆的问题,提升了中文地址的数据组织效率和匹配性能。
附图说明
为了清楚地说明本发明实施例的技术方案,下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例所述的一种基于地址要素索引的中文地址匹配方法的流程图
图2是本发明公开的一种中文地址要素组成结构
图3是本发明实施例的地址数据预处理流程图
图4是本发明实施例的地址要素索引建立流程图
具体实施方式
下面结合附图对本发明的具体实施过程作详细说明。基于地址要素索引的中文地址匹配方法包含以下步骤:
(1)根据中文地址的特征分析和中文地址数据特点,进行中文地址要素组成结构的构建以及组合模式分析。考虑到中文地址由多个不同空间范围的地址要素所组成。地址要素是指在特定区域内可以确定一个具体地理区域范围的地址字段,地址要素每一个都是不可以再继续分割的字段,是具有最小地址语义的单元。地址要素继续分割的话会引起歧义,例如“长江路”再继续分割为“长”、“江”、“路”,便失去了其原有语义。所以,构建合理的中文地址要素组成结构需要充分考虑地址规划的现状和中文地址实际特征,并兼顾公众对地址的认知规律。
如图2所示,本发明在参考国家地址标准规范和行业地址分类标准规范的基础上,兼顾地址的通用性、统一性和扩展性,把中文地址元素分为六大类,其中包括行政区划、道路、局部区域、门牌号、楼址、单元户室号,每一类别又具有各自详细的小类。
(2)地址数据预处理。地址数据预处理目的是对低质量的地址数据进行清洗与筛选,从而保证实验数据的可靠性。由于实验数据存在要素冗余、数据不完整、地址中含有非地址要素等问题,主要包括删除残缺数据、删除非地址数据、删除非地址要素、删除重复数据、删除特殊符号、删除空白字符以及补充部分行政区划等。具体流程如图3所示。
预处理主要步骤如下:1)建立行政区划数据库,包括市、区、街道和社区等,具体数据内容将参考《中华人民共和国行政区划代码(GB/T 2260-2007)》;2)删除非地址数据、删除非地址元素、删除特殊符号空白字符,例如“@”、“。”、“、”和“!”等;3)规范部分地址数据;4)前三级行政区划要素补齐;5)地址数据去重;6)地址数据统一转化为简体并进行存储。
(3)对地址数据进行解析,并利用解析后结构化的地址数据建立地址索引文件,同时保存地址索引文件。地址解析的过程将参考先前构建的地址要素组合模式,待数据预处理完成后使用分词解析方法,结合各类型要素进行地址解析。随后将根据地址数据的解析结果建立地址索引文件,将索引进行存储。地址要素的索引构建流程如图4所示,要素索引建立步骤如下:
1)地址要素词典文件存储。将地址数据库中的原始地址数据取出,经过地址解析后生不同语义的地址要素数据T1、T2、...Tn,其中Tn由同语义的多个地址要素组成。每一个语义类别的所有地址要素按照统一的方式依次排列,生成地址要素序列St=T1、T2、...Tn,将地址要素序列存储在地址要素词典中。
2)地址要素索引文件构建。地址要素索引是存储地址要素索引记录的物理文件,用于存储地址要素索引记录条目和地址要素词典文件中地址要素之间的相互对应关系。地址要素词典文件中存储各个类别中不重复的地址要素,形成一条要素索引记录。每条地址要素索引记录中包含三个部分的数据信息:地址要素个数,地址要素的字符编码和地址要素词典文件存储位置。
3)候选地址集合查询。首先对待查询地址进行解析,将地址按照解析后不同语义的地址要素进行结构化,获得带有语义的多个地址要素W1、W2、...,Wn。其次,利用解析后不同语义的地址要素分别作为检索关键字,在地址要素索引文件中搜索其要素对应的索引记录信息。最后,通过对索引记录中的地址信息进行反向解析查询,利用地址要素索引中记录的位置信息查询词典文件中对应的地址数据,并将全部搜索结果返回R={R1,R2,...Rn)。
4)地址相似度排序。利用中文地址相似度计算模型进行排序(后文详细介绍),从而返回正确的地址匹配结果。
(4)加载地址索引文件,通过地址索引文件对待匹配地址进行检索,获得地址匹配结果的待选集合。同时利用地址相似度计算方法对结果集合进行筛选和排序,从而获得最优的匹配结果和对应的地址空间位置坐标。地址要素相似度计算模型包括两个部分。第一部分是基于地址要素加权的相似度计算,第二部分是基于地址语义的相似度计算。地址要素的加权相似度计算可以突出重要的地址要素,有效提高重点要素在地址匹配时的权重。地址语义相似度的计算可以解决在长地址匹配过程中,地址要素的匹配只能参考地址字符串中的局部信息,无法进行全局依赖及关联性的参考。
1)地址要素权重:中文地址由多个层级的地址要素组成,地址要素的层级越高,其表示的范围越大,定位精度越低。层级较低的地址要素部分,往往指向的空间范围较小,定位精度较高。实验依据第二章统计的地址要素使用频率和地址组合模式频率,对不同类型的地址要素设置相应的匹配权重,使得匹配结果中权重较高的地址要素可以获得更高的匹配优先级。中文地址要素权重详情如表1所示。
表1地址要素匹配权重
Figure BDA0003390677980000061
将权重矩阵用Wi和Wij表示,Wi表示地址要素一级权重,Wij表示地址在一级类型下的二级权重。对前二级行政区划设置权重的阈值,当二级行政区划匹配的相似度超过0.95,则一级的行政区划部分的权重设置为0。例如对行政区划“江苏省南京市”进行匹配,当“南京市”匹配成功时候,“江苏省”则不需要再进行匹配。多个局部区域名称嵌套时,权重从后向前进行递减,当局部区域要素的个数超过3个及以上时,设置权重为0.3且不再递减。对于每一个类别要素相似度计算都需要进行归一化,避免计算单位的不统一。
2)地址相似度计算:地址语义相似度计算模型是基于加权的字符编辑距离算法与地址语义余弦相似度计算融合的综合模型。加权的编辑距离算法能够更加准确的计算不同类型地址要素间的相似程度,而地址语义余弦相似度计算能够弥补地址要素相似度计算的缺陷,获得地址整体语义的相似度数值。
地址相似度计算详细步骤如下:
(1)地址Address1、Address2进行相似度计算。首先对地址进行解析,或者直接从数据库中获取地址解析后的结果,得到不同级别的地址要素。
Address1={P1,P2,P3,...Pn}
Address2={P1,P2,P3,...Pn}
式中,Pn表示地址经过地址解析后的不同地址要素部分。
(2)计算Address1、Address2两个地址中相同层级地址要素的加权相似度数值。
Figure BDA0003390677980000071
式中,wi表示地址一级矩阵,Wij表示地址要素二级矩阵,Pij表示地址要素之间计算的字符相似度。
(3)计算Address1、Address2两个地址语义信息的余弦相似度。
Figure BDA0003390677980000072
式中vi,wi为Address1、Address2通过BERT模型获得的地址语义矩阵。
(4)对地址语义信息的余弦相似度与地址要素字符距离加权相似度进行相加,并归一化,得出最终的地址相似度值。
Figure BDA0003390677980000073
式中,sim1,sim2分别表示地址要素加权相似度值和地址语义余弦相似度值。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (12)

1.一种基于地址要素索引的中文地址匹配方法,其特征在于,包括以下步骤:
步骤1:基于地址要素分类体系及地址数据特点构建中文地址要素组成结构,分析中文地址要素组合模式,在地址要素分类与地址空间关系描述的基础上,对中文地址采用分段组合的方式进行描述;
步骤2:在对地址数据进行清洗、筛选和行政区划补全预处理工作后,基于所构建的中文地址要素组成结构对地址数据以分词方法进行解析;
步骤3:根据中文地址要素组成结构,构建包含其各级地址要素的地址要素数据库,将用于构建索引的解析结果进行结构化后存入地址要素数据库;
步骤4:根据地址要素数据库中结构化的地址数据,利用Elasticsearch引擎并结合地址要素库的分级数据,构建地址要素索引文件后将索引存入索引数据库中;
步骤5:将待匹配地址数据经过地址解析后,引入地址要素索引文件,通过构建的地址索引文件将待匹配地址进行检索匹配,匹配中将参考索引数据的地址要素层级关系,将待匹配地址和各级行政区划索引进行匹配并获得地址匹配结果的待选集合;
步骤6:结合设定的地址要素权重和地址相似度计算模型计算待匹配地址的匹配权重值,根据权重值的高低进行排序,得到匹配的优选结果。
2.根据权利要求1所述的一种基于地址要素索引的中文地址匹配方法,其特征在于,步骤1中所述中文地址要素组成结构共分为行政区划、道路、局部区域、楼址、楼室号、附属信息6个大类、18个小类进行表示。
3.根据权利要求1所述的一种基于地址要素索引的中文地址匹配方法,其特征在于,步骤1中所述中文地址要素组合模式,通过对详细地址中的要素规律统计,可以得出以下四种组合模式,分别为:道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式和道路交汇处地址模式。
4.根据权利要求1所述的一种基于地址要素索引的中文地址匹配方法,其特征在于,步骤1中所述的中文地址分段描述分为行政区划部分、详细地址部分、楼室号地址和附属信息四个组成部分。
5.根据权利要求2所述的一种基于地址要素索引的中文地址匹配方法,其特征在于,所述中文地址要素组成结构的行政区划大类,其层级结构可通过扩展巴斯克范式表示为:行政区划名::=<一级行政区划><二级行政区划><三级行政区划>[四级行政区划][五级行政区划]。
6.根据权利要求4所述的一种基于地址要素索引的中文地址匹配方法,其特征在于,中文地址分段描述中的详细地址部分存在四种地址要素组合模式:道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式、道路交汇处地址模式。
7.根据权利要求1所述的基于地址要素索引的中文地址匹配方法,其特征在于,步骤5中所述的引入地址要素索引文件通过Elasticsearch引擎构建和存储的地址索引文件对待匹配地址进行检索,并基于该引擎进行地址要素等级的检索以便地址要素的匹配。
8.根据权利要求7所述的基于地址要素索引的中文地址匹配方法,其特征在于,匹配地址时所参考的中文地址匹配策略结合精准匹配、模糊匹配和回溯匹配的策略。
9.根据权利要求8所述的基于地址要素索引的中文地址匹配方法,其特征在于,地址的精确匹配是指地址要素与地址数据库中目标地址要素完全相同的检索方式;地址模糊匹配采用获得包含相同地址要素最多的地址集合的方式进行匹配;地址回溯匹配采用对匹配失败的地址进行二次匹配,返回最接近的地址结果的方式进行匹配。
10.根据权利要求1所述的基于地址要素索引的中文地址匹配方法,其特征在于,步骤6中所述的地址要素权重将中文地址要素组成结构的行政区划、道路、局部区域、楼址、楼室号、附属信息六个大类地址列为一级类型权重,大类下的地址二级分类列为二级类型权重。
11.根据权利要求10所述的基于地址要素索引的中文地址匹配方法,其特征在于,当二级行政区划匹配的相似度超过0.95,则一级的行政区划部分的权重设置为0,多个局部区域名称嵌套时,权重从后向前进行递减,当局部区域要素的个数超过3个及以上时,设置权重为0.3且不再递减,对于每一个类别要素相似度计算都需要进行归一化,避免计算单位的不统一。
12.根据权利要求1中所述的基于地址要素索引的中文地址匹配方法,其特征在于,步骤6中所述的地址相似度计算步骤包括:
(1)地址Address1、Address2进行相似度计算,首先对地址进行解析,或者直接从数据库中获取地址解析后的结果,得到不同级别的地址要素;
Address1={P1,P2,P3,...Pn}
Address2={P1,P2,P3,...Pn}
式中,Pn表示地址经过地址解析后的不同地址要素部分;
(2)计算Address1、Address2两个地址中相同层级地址要素的加权相似度数值;
Figure FDA0003390677970000021
式中,wi表示地址一级矩阵,Wij表示地址要素二级矩阵,Pij表示地址要素之间计算的字符相似度;
(3)计算Address1、Address2两个地址语义信息的余弦相似度;
Figure FDA0003390677970000031
式中vi,wi为Address1,Addess2通过BERT模型获得的地址语义矩阵;
(4)对地址语义信息的余弦相似度与地址要素字符距离加权相似度进行相加,并归一化,得出最终的地址相似度值;
Figure FDA0003390677970000032
式中,sim1,sim2分别表示地址要素加权相似度值和地址语义余弦相似度值。
CN202111464331.7A 2021-12-03 2021-12-03 一种基于地址要素索引的中文地址匹配方法 Active CN114168705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111464331.7A CN114168705B (zh) 2021-12-03 2021-12-03 一种基于地址要素索引的中文地址匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111464331.7A CN114168705B (zh) 2021-12-03 2021-12-03 一种基于地址要素索引的中文地址匹配方法

Publications (2)

Publication Number Publication Date
CN114168705A true CN114168705A (zh) 2022-03-11
CN114168705B CN114168705B (zh) 2022-11-11

Family

ID=80482684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111464331.7A Active CN114168705B (zh) 2021-12-03 2021-12-03 一种基于地址要素索引的中文地址匹配方法

Country Status (1)

Country Link
CN (1) CN114168705B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461540A (zh) * 2022-04-12 2022-05-10 湖南三湘银行股份有限公司 一种地址归一化的处理系统
CN116541801A (zh) * 2023-07-07 2023-08-04 小象飞羊(北京)科技有限公司 多设备信息集中处理系统、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN108052609A (zh) * 2017-12-13 2018-05-18 武汉烽火普天信息技术有限公司 一种基于词典和机器学习的地址匹配方法
CN109145169A (zh) * 2018-07-26 2019-01-04 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法
CN111767476A (zh) * 2020-05-25 2020-10-13 江苏省测绘工程院 一种基于hmm模型的智慧城市时空大数据空间化引擎构建方法
CN112347222A (zh) * 2020-10-22 2021-02-09 中科曙光南京研究院有限公司 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
CN112581252A (zh) * 2020-12-03 2021-03-30 信用生活(广州)智能科技有限公司 融合多维相似度与规则集合的地址模糊匹配方法及系统
CN112612863A (zh) * 2020-12-23 2021-04-06 武汉大学 一种基于中文分词器的地址匹配方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN108052609A (zh) * 2017-12-13 2018-05-18 武汉烽火普天信息技术有限公司 一种基于词典和机器学习的地址匹配方法
CN109145169A (zh) * 2018-07-26 2019-01-04 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法
CN111767476A (zh) * 2020-05-25 2020-10-13 江苏省测绘工程院 一种基于hmm模型的智慧城市时空大数据空间化引擎构建方法
CN112347222A (zh) * 2020-10-22 2021-02-09 中科曙光南京研究院有限公司 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
CN112581252A (zh) * 2020-12-03 2021-03-30 信用生活(广州)智能科技有限公司 融合多维相似度与规则集合的地址模糊匹配方法及系统
CN112612863A (zh) * 2020-12-23 2021-04-06 武汉大学 一种基于中文分词器的地址匹配方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461540A (zh) * 2022-04-12 2022-05-10 湖南三湘银行股份有限公司 一种地址归一化的处理系统
CN114461540B (zh) * 2022-04-12 2022-07-12 湖南三湘银行股份有限公司 一种地址归一化的处理系统
CN116541801A (zh) * 2023-07-07 2023-08-04 小象飞羊(北京)科技有限公司 多设备信息集中处理系统、设备及存储介质
CN116541801B (zh) * 2023-07-07 2023-09-05 小象飞羊(北京)科技有限公司 多设备信息集中处理系统、设备及存储介质

Also Published As

Publication number Publication date
CN114168705B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN112347222B (zh) 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
CN112612863B (zh) 一种基于中文分词器的地址匹配方法及系统
CN114168705B (zh) 一种基于地址要素索引的中文地址匹配方法
CN103605752A (zh) 一种基于语义识别的地址匹配方法
CN101882163A (zh) 一种基于匹配规则的模糊中文地址地理赋值方法
CN113535788B (zh) 一种面向海洋环境数据的检索方法、系统、设备及介质
CN107291895B (zh) 一种快速的层次化文档查询方法
CN109933797A (zh) 基于Jieba分词及地址词库的地理编码方法和系统
JP7432801B2 (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
CN115270738B (zh) 一种研报生成方法、系统及计算机存储介质
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN111767476B (zh) 一种基于hmm模型的智慧城市时空大数据空间化引擎构建方法
CN114780680A (zh) 基于地名地址数据库的检索与补全方法及系统
CN117151659B (zh) 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN114201480A (zh) 一种基于nlp技术的多源poi融合方法、装置及可读存储介质
CN117909754A (zh) 基于孪生神经网络的电厂设备缺陷辅助消除方法及系统
CN113569946A (zh) 开源地图与专业数据源路网自适应匹配法
CN117033534A (zh) 地理信息处理方法、装置、计算机设备和存储介质
CN111090630A (zh) 基于多源空间点数据的数据融合处理方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN116258612A (zh) 一种基于知识嵌入模型的城市土地利用分布评估方法
CN113792157A (zh) 一种面向领域机理知识库的构建方法
CN111444299A (zh) 基于地址树模型的中文地址提取方法
WO2020008180A1 (en) Method and system for integrating data sets
CN116578676B (zh) 一种地名时空演化查询方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant