CN116955541B - 融合地理要素语义分割与相似度的地址匹配方法和系统 - Google Patents

融合地理要素语义分割与相似度的地址匹配方法和系统 Download PDF

Info

Publication number
CN116955541B
CN116955541B CN202311224080.4A CN202311224080A CN116955541B CN 116955541 B CN116955541 B CN 116955541B CN 202311224080 A CN202311224080 A CN 202311224080A CN 116955541 B CN116955541 B CN 116955541B
Authority
CN
China
Prior art keywords
address
text
matching
matched
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311224080.4A
Other languages
English (en)
Other versions
CN116955541A (zh
Inventor
刘秀
江燕
张骏源
粟宣艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuance Information Technology Co ltd
Original Assignee
Yuance Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuance Information Technology Co ltd filed Critical Yuance Information Technology Co ltd
Priority to CN202311224080.4A priority Critical patent/CN116955541B/zh
Publication of CN116955541A publication Critical patent/CN116955541A/zh
Application granted granted Critical
Publication of CN116955541B publication Critical patent/CN116955541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及地址匹配技术领域,公开一种融合地理要素语义分割与相似度的地址匹配方法和系统,包括:获取历史地址文本数据并构建地址要素数据集和地址对相似度数据集,构建地址语义分割模型和地址语义匹配模型,使用地址要素数据集和地址语义分割模型构建地址要素检索库,使用地址对相似度数据集和地址语义匹配模型构建地址向量检索库;获取待匹配地址文本,匹配地址要素检索得到第一地址候选集,匹配地址向量检索库得到第二地址候选集;根据相似度从第一地址候选集和第二地址候选集中选出最终的匹配结果。本发明可以在规范地址描述的同时降低对词库的依赖性,提高地址匹配的准确率和效率。

Description

融合地理要素语义分割与相似度的地址匹配方法和系统
技术领域
本发明涉及地址匹配技术领域,尤其是指一种融合地理要素语义分割与相似度的地址匹配方法和系统。
背景技术
在智慧城市的建设过程中,匹配地址位置时使用的任何解决方案均离不开空间位置数据、即空间坐标。但是,在实际情况中,人们往往是通过地址文本来对空间位置进行描述,如报警场景中的报警位置、投诉场景中的投诉地点等。这就需要对用来描述位置的自然语言地址进行解析,并通过地址匹配将其映射到相应的经纬度,才能得到匹配的地址位置。
现有技术中,对位置的描述从主体描述对象的角度主要分为三类:以兴趣点(Point of Interest,POI)为主体的描述,如“某街道某广场某酒店内”;以道路为主体的描述,如“某大道某街道路口”;以城市部件为主体的描述,如“某大道349号灯杆”。从描述方式的角度,对位置的描述不仅包含规范化的描述,例如由标准的四级行政区划、门牌号、poi等按照顺序组成的位置描述;也包含非规范化的、口语化的描述,其可能是存在地理要素省略或通过其他位置对主体位置加以限制,夹杂着空间关系的描述,且同一地理要素也会存在不同的表达方式。由此可见,大部分情况下对位置的描述不具备统一的规范。
现有技术中,对地址解析时,常用的为基于规则和基于词库的对地址切分匹配的解析方式。但是,这些方法难以解决不具备统一规范的复杂地址描述的定位,定位质量严重依赖于词库的丰富度。在地址匹配过程中,仅通过字词之间的匹配度计算无法有效处理不具备统一规范的地址描述,并且在大量地址匹配的实际应用中也无法保障较好的匹配效率。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种融合地理要素语义分割与相似度的地址匹配方法和系统,可以在规范地址描述的同时降低对词库的依赖性,提高地址匹配的准确率和效率。
为解决上述技术问题,本发明提供了一种融合地理要素语义分割与相似度的地址匹配方法,包括:
获取历史地址文本数据并抽取数据分别构建地址要素数据集和地址对相似度数据集,所述地址要素数据集中的数据为标注了地址要素标签的地址文本,所述地址要素标签包括地址要素和地址类型,所述地址对相似度数据集中的数据为两个地址文本和地址对文本的匹配得分;
构建地址语义分割模型,使用所述地址要素数据集训练所述地址语义分割模型得到训练完成的地址语义分割模型,所述地址语义分割模型的输出为地址要素标签序列,所述地址要素标签序列为包含地址要素标签的序列;
构建地址语义匹配模型,使用所述地址对相似度数据集训练所述地址语义匹配模型得到训练完成的地址语义匹配模型,所述地址语义匹配模型包括文本向量提取模块和分类层,所述文本向量提取模块用于从输入数据中提取得到地址向量,提取得到的地址向量经过所述分类层得到地址对文本的匹配得分;
将所述历史地址文本数据输入训练完成的地址语义分割模型得到地址要素检索库,将所述历史地址文本数据输入训练完成的地址语义匹配模型得到地址向量检索库;
获取待匹配地址文本,将所述待匹配地址文本输入训练完成的地址语义分割模型得到待匹配的地址要素标签序列,将所述待匹配的地址要素标签序列与所述地址要素检索库进行匹配得到第一地址候选集;
将所述待匹配地址文本输入训练完成的地址语义匹配模型得到待匹配的地址向量,将所述待匹配的地址向量与所述地址向量检索库进行匹配得到第二地址候选集;
根据相似度从所述第一地址候选集和第二地址候选集中选出最终的匹配结果。
在本发明的一个实施例中,所述地址语义分割模型包括输入层、嵌入层、全连接层、CRF层和输出层,
所述地址要素数据集中的数据经所述输入层输入所述地址语义分割模型,通过所述嵌入层得到每个地址文本的词嵌入,所述词嵌入经过所述全连接层得到预测的每个词对应的各地址要素和地址类型的标签,所述预测的每个词对应的各地址要素和地址类型的标签经过所述CRF层进行约束,约束后得到预测的地址文本的地址要素标签序列,预测的地址文本的地址要素标签序列经所述输出层输出。
在本发明的一个实施例中,所述地址语义匹配模型包括相同的两路所述文本向量提取模块、拼接层、分类层和输出层,
所述文本向量提取模块包括输入层、嵌入层、池化层,所述地址对相似度数据集中的数据中的所述两个地址文本分别经所述输入层输入一路所述文本向量提取模块,通过所述嵌入层得到每个地址文本的词嵌入,通过所述池化层对所述词嵌入的每个维度取平均值得到固定长度的地址向量;
所述拼接层拼接两路所述文本向量提取模块输出的地址向量和两路所述文本向量提取模块输出的地址向量的差向量,将拼接结果输入所述分类层得到预测的地址对文本的匹配得分,所述分类层包括全连接层和softmax函数,预测的地址对文本的匹配得分经过所述输出层输出。
在本发明的一个实施例中,将所述历史地址文本数据输入训练完成的地址语义分割模型得到地址要素检索库,包括:
将所述历史地址文本数据输入训练完成的地址语义分割模型得到预测的地址要素标签序列,对预测的地址要素标签序列进行格式解析得到地址要素切分序列和地址要素类型序列,所述地址要素切分序列包含所述地址要素,所述地址要素类型序列包含所述地址类型;
对所述地址要素切分序列进行规范化,取规范化后的地址要素切分序列和地址要素类型序列得到所述地址要素检索库;
所述规范化包括:去除重复冗余的地址要素,对地址要素进行标准化补全,对地址要素的格式进行统一化。
在本发明的一个实施例中,将所述历史地址文本数据输入训练完成的地址语义匹配模型得到地址向量检索库,包括:
将所述历史地址文本数据输入训练完成的地址语义匹配模型,取训练完成的地址语义匹配模型的池化层的输出向量进行归一化得到所述地址向量检索库。
在本发明的一个实施例中,将所述待匹配的地址要素标签序列与所述地址要素检索库进行匹配得到第一地址候选集,包括:
解析所述待匹配的地址要素标签序列得到待匹配的地址要素切分序列和待匹配的地址要素类型序列,所述待匹配的地址要素切分序列包含所述地址要素,所述待匹配的地址要素类型序列包含所述地址类型;
根据待匹配的地址要素切分序列包含的地址要素和地址要素对应的地址类型设置匹配条件,根据所述匹配条件将待匹配的地址要素切分序列中需要进行匹配的地址要素与地址要素检索库中的各历史地址文本所含的地址要素进行匹配,检索出符合匹配条件的历史地址文本作为第一地址候选集;
将所述待匹配的地址向量与所述地址向量检索库进行匹配得到第二地址候选集,包括:
将待匹配的地址向量与地址向量检索库进行匹配,计算待匹配的地址向量与地址向量检索库中的每个地址向量的余弦相似度,挑选出余弦相似度高的多个地址向量检索库中的地址向量对应的历史地址文本作为第二地址候选集。
在本发明的一个实施例中,所述根据相似度从所述第一地址候选集和第二地址候选集中选出最终的匹配结果,具体为:
取第一地址候选集和第二地址候选集的并集作为最终候选集,从地址要素检索库中获取所述最终候选集中所有地址文本的地址要素切分序列和地址要素类型序列,从地址向量检索库中获取所述最终候选集中所有地址文本的地址向量;
根据待匹配的地址要素切分序列,待匹配的地址要素类型序列和最终候选集中的各地址的地址要素切分序列、各地址的地址要素类型序列,计算待匹配地址文本与最终候选集中的地址文本的文本匹配度S text
计算总评分score为:
score=W text ×S text +W vec ×S vec
其中,W text 为文本匹配度权重,W vec 为向量相似度权重,S vec 为待匹配的地址向量与最终候选集中的地址向量的余弦相似度;
选择总评分score最大时对应的地址文本作为最终的匹配结果。
在本发明的一个实施例中,所述待匹配地址文本与最终候选集中的地址文本的文本匹配度S text 的计算方法为:
其中,Q表示待匹配的地址要素切分序列,A表示最终候选集中任一地址的地址要素切分序列,表示交集,/>表示并集,w i 表示/>中包含的地址要素对应的地址类型的权重,w j 表示/>中包含的地址要素对应的地址类型的权重,地址要素对应的地址类型从该地址要素对应的地址要素类型序列中获取。
在本发明的一个实施例中,所述得到地址要素检索库时建立地址要素检索库的要素索引,所述要素索引为倒排索引;
所述得到地址向量检索库时建立地址向量检索库的向量索引,所述向量索引使用IVF_FLAT建立。
本发明还提供了一种融合地理要素语义分割与相似度的地址匹配系统,包括:
历史数据模块,用于获取历史地址文本数据并抽取数据分别构建地址要素数据集和地址对相似度数据集,所述地址要素数据集中的数据为标注了地址要素标签的地址文本,所述地址要素标签包括地址要素和地址类型,所述地址对相似度数据集中的数据为两个地址文本和地址对文本的匹配得分;
地址语义分割模型构建模块,用于构建地址语义分割模型,使用所述地址要素数据集训练所述地址语义分割模型得到训练完成的地址语义分割模型,所述地址语义分割模型的输出为地址要素标签序列,所述地址要素标签序列为包含地址要素标签的序列;
地址语义匹配模型构建模块,用于构建地址语义匹配模型,使用所述地址对相似度数据集训练所述地址语义匹配模型得到训练完成的地址语义匹配模型,所述地址语义匹配模型包括文本向量提取模块和分类层,所述文本向量提取模块用于从输入数据中提取得到地址向量,提取得到的地址向量经过所述分类层得到地址对文本的匹配得分;
检索库构建模块,用于将所述历史地址文本数据输入训练完成的地址语义分割模型得到地址要素检索库,将所述历史地址文本数据输入训练完成的地址语义匹配模型得到地址向量检索库;
候选地址集构建模块,用于获取待匹配地址文本,将所述待匹配地址文本输入训练完成的地址语义分割模型得到待匹配的地址要素标签序列,将所述待匹配的地址要素标签序列与所述地址要素检索库进行匹配得到第一地址候选集;将所述待匹配地址文本输入训练完成的地址语义匹配模型得到待匹配的地址向量,将所述待匹配的地址向量与所述地址向量检索库进行匹配得到第二地址候选集;
地址匹配模块,用于根据相似度从所述第一地址候选集和第二地址候选集中选出最终的匹配结果。
本发明的上述技术方案相比现有技术具有以下优点:
本发明通过构建地址要素数据集和地址对相似度数据集,具有更好的泛化能力、切分更加精确,规范地址描述的同时可以有效利用现有数据降低对词库的依赖性,大幅提高了地址初筛的精确度以及地址匹配度计算的准确度;通过构建地址语义分割模型和地址语义匹配模型将地址文本映射到向量空间,能够在向量空间中考虑语义信息,提升地址初筛的召回率;通过构建地址候选集并在此基础上结合相似度选择最终的地址匹配,既考虑字面信息又考虑语义信息,能更好地解决一址多表问题,提高匹配的准确度;结合地址候选集进行地址初筛能缩小精确匹配的计算范围,提高匹配效率。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明的流程图。
图2是本发明中地址语义分割模型的结构示意图。
图3是本发明中地址语义匹配模型的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一
参照图1所示,本发明公开了一种融合地理要素语义分割与相似度的地址匹配方法,包括以下步骤:
S1:获取历史地址文本数据并抽取数据分别构建地址要素数据集和地址对相似度数据集。
S1-1:获取历史地址文本数据并进行数据清洗,本实施例中的数据清洗包括去除地址文本中的重复字符、非法字符及无意义字符。
S1-2:使用BOI序列标注对数据清洗后的部分地址文本数据中的每个字符进行地址要素标签标注得到地址要素数据集,地址要素数据集中的数据带地址要素标签,地址要素标签包括地址要素和地址类型。地址要素为地址文本数据中的每个字符、例如某路、某区、某号。所述地址类别包括地址的空间要素和空间关系。所述地址要素数据集中的数据为一条条带地址要素标注的地址文本。本实施例中空间要素包括:行政区划类要素,例如省、市、区等;街路巷类要素,例如道路、道路门牌号、道路附属等;建筑类要素,例如兴趣点、建筑片区、楼栋、单元等;部件类要素,例如部件、部件编号等。本实施例中空间关系包括方位、距离、拓扑等。
S1-3:从数据清洗后的地址文本数据中随机选取两条地址文本作为地址对并进行匹配评分得到地址对相似度数据集,所述地址对相似度数据集中的数据为两个地址文本和地址对文本的匹配得分。本实施例中,匹配得分为取值为0-2的整数。其中,0代表地址对之间完全不匹配;1代表地址对之间基本匹配,地址对在最小空间要素粒度上不一致,但能共同指代一个较大的空间要素;2代表地址对之间精确匹配,在最小空间要素粒度上能指代同一位置。随机采样可能很多样本匹配得分都是0,本实施列中,为防止随机选取采样出过多负例,可采取传统文本匹配方法通过匹配计算来提高正例占比、即提升匹配得分为2的样本量。
S2:构建地址语义分割模型,将所述地址要素数据集分为地址要素训练集和地址要素测试集,使用地址要素训练集训练所述地址语义分割模型、并使用地址要素测试集测试所述地址语义分割模型得到训练完成的地址语义分割模型,所述地址语义分割模型的输入为地址要素数据集中地址的每个字符,所述地址语义分割模型的输出为地址要素标签序列,所述地址要素标签序列为包含地址要素标签的序列。
如图2所示,所述地址语义分割模型包括输入层、嵌入层、全连接层、CRF层和输出层,CRF层为命名实体识别中的CRF层,本实施例中嵌入层为transformer编码器。所述地址要素数据集中的数据经输入层输入所述地址语义分割模型,通过所述嵌入层得到每个地址文本的词嵌入,本实施例中输入的为字符、相应得到的为字嵌入,所述字嵌入经过所述全连接层得到每个字对应的各地址要素和地址类型的标签,所述预测的每个字对应的各地址要素和和地址类型的标签输入所述CRF层进行约束,约束后得到预测的地址文本的地址要素标签序列,预测的地址文本的地址要素标签序列经所述输出层输出。
使用所述地址要素训练集训练所述地址语义分割模型前,嵌入层可使用预训练模型,本实施例中使用的预训练模型为现有模型。
S3:构建地址语义匹配模型,将所述地址对相似度数据集分为地址对训练集和地址对测试集,使用地址对训练集训练所述地址语义匹配模型、并使用地址对测试集测试所述地址语义匹配模型得到训练完成的地址语义匹配模型,所述地址语义匹配模型的输出为地址对文本的匹配得分。
如图3所示,所述地址语义匹配模型包括相同的两路文本向量提取模块、拼接层、分类层和输出层。所述文本向量提取模块包括输入层、嵌入层、池化层,本实施例中嵌入层为transformer编码器,池化层为平均池化层;所述地址对相似度数据集中的所述两个地址文本addr1、addr2分别经所述输入层输入一路所述文本向量提取模块,通过所述嵌入层得到每个地址文本的字嵌入,通过所述池化层对所述字嵌入的每个维度取平均值得到固定长度的地址向量vec1、vec2。所述拼接层拼接两路所述文本向量提取模块输出的地址向量和两路所述文本向量提取模块输出的地址向量的差向量,将拼接结果{vec1⊕vec2⊕(vec1-vec2)}输入所述分类层得到预测的地址对文本的匹配得分,⊕表示拼接操作,所述分类层包括全连接层(FC)和softmax函数,预测的地址对文本的匹配得分经过所述输出层输出。
使用所述地址对训练集训练所述地址语义匹配模型前,使用预训练模型进行训练,本实施例中使用的预训练模型为现有模型。
S4:将所述历史地址文本数据输入训练完成的地址语义分割模型得到地址要素检索库。
S4-1:将所述历史地址文本数据输入训练完成的地址语义分割模型得到预测的地址要素标签序列,对预测的地址要素标签序列进行格式解析得到地址要素切分序列和地址要素类型序列,所述地址要素切分序列包含所述地址要素、例如[某省,某市,某区,某路,101号,某大厦],地址要素类型序列包含所述地址类型、即地址要素对应的类别信息、例如[省、市、区、道路、道路编号、POI]。
S4-2:对所述地址要素切分序列进行规范化,取规范化后的地址要素切分序列和地址要素类型序列得到所述地址要素检索库。所述规范化包括:去除重复冗余的地址要素,对预测得到的行政区划要素基于标准行政区划库进行行政区划标准化补全、可以是通过对历史地址坐标和行政区划空间数据进行计算得到标准化的行政区划要素并对缺失部分进行补全,对地址要素的格式进行统一化、如字母大小写统一与数字类统一。
得到地址要素检索库时建立地址要素检索库的要素索引,所述要素索引为根据所述地址要素检索库中的地址类型为空间要素的对应的地址要素词条建立的倒排索引。
S5:将所述历史地址文本数据输入训练完成的地址语义匹配模型得到地址向量检索库。
将所述历史地址文本数据输入训练完成的地址语义匹配模型,取训练完成的地址语义匹配模型的池化层的输出向量进行归一化得到所述地址向量检索库。本实施例中归一化为L2范数归一化、即将向量转为向量模长为1的向量。可选的,在归一化前还可以通过主成分分析(Principal Component Analysis,PCA)等方法对向量进行降维,以缓解数据库存储压力和提升检索效率。
得到地址向量检索库时建立地址向量检索库的向量索引,所述向量索引使用IVF_FLAT建立。
S6:获取待匹配地址文本,将待匹配地址文本输入训练完成的地址语义分割模型得到待匹配的地址要素标签序列,对地址要素标签序列进行格式解析后得到待匹配地址的地址要素切分序列和地址要素类型序列,将所述待匹配的地址要素切分序列与所述地址要素检索库进行匹配得到第一地址候选集。
S6-1:解析所述待匹配的地址要素标签序列得到待匹配的地址要素切分序列和待匹配的地址要素类型序列,对待匹配的地址要素切分序列进行规范化处理。所述地址要素切分序列包含所述地址要素,所述地址要素类型序列包含所述地址类型。
S6-2:根据地址要素切分序列包含的地址要素和地址要素对应的地址类型设置匹配条件。本实施例中,可以根据地址要素切分序列所含的地址要素及地址类型,自定义匹配条件需要包含哪些地址要素。
S6-3:根据所述匹配条件将待匹配的地址要素切分序列中需要进行匹配的地址要素与地址要素检索库中的各历史地址文本所含的地址要素进行匹配,检索出符合匹配条件的历史地址文本作为第一地址候选集。
将待匹配的地址要素切分序列与地址要素检索库进行匹配时,匹配条件可以设置为必须包含地址要素切分序列中的任一关键空间要素,关键空间要素可以是道路、POI等带有独立位置信息的空间要素。可选的,为了缩小候选集范围,检索时还可以根据需要将行政区划要素单独配置为必要检索条件,例如:使用关键空间要素检索‘某路378号某商城’进行匹配时,会检索到所有包含某路及某商城的候选地址,如果需要将检索范围限定在某市或者某园区,可以在检索时加入行政区划限制,以防取到其他地区的地址。
S7:将待匹配地址文本输入训练完成的地址语义匹配模型得到待匹配的地址向量,对待匹配的地址向量进行归一化;将待匹配的地址向量与地址向量检索库进行匹配,挑选地址向量检索库中的地址向量对应的历史地址文本作为第二地址候选集。
将待匹配的地址向量与地址向量检索库进行匹配时,计算待匹配的地址向量与地址向量检索库中的每个地址向量的余弦相似度,挑选出余弦相似度高的多个地址向量检索库中的地址向量对应的历史地址文本作为第二地址候选集。
在查询地址要素检索库、地址向量检索库挑选第一地址候选集、第二地址候选集时,通过倒排索引、向量索引可以提高检索的速度。
S8:根据相似度从第一地址候选集和第二地址候选集中选出最终的匹配结果。具体为:
S8-1取第一地址候选集和第二地址候选集的并集作为最终候选集,从地址要素检索库中获取最终候选集中所有地址文本的地址要素切分序列和地址要素类型序列,从地址向量检索库中获取最终候选集中所有地址文本的地址向量。
S8-2:根据待匹配的地址要素切分序列,待匹配的地址要素类型序列和最终候选集中的各地址的地址要素切分序列、各地址的地址要素类型序列,计算待匹配地址文本与最终候选集中的地址文本的文本匹配度S text
其中,Q表示待匹配的地址要素切分序列,A表示最终候选集中任一地址的地址要素切分序列,表示交集,/>表示并集,w i 表示/>中包含的地址要素对应的地址类型的权重,w j 表示/>中包含的地址要素对应的地址类型的权重,地址要素对应的地址类型从该地址要素对应的地址要素类型序列中获取。地址类型的权重为根据不同地址类型设定的经验值。
S8-3:计算总评分score为:
score=W text ×S text +W vec ×S vec
其中,W text 为文本匹配度权重,W vec 为向量相似度权重;S vec 为待匹配的地址向量与最终候选集中的地址向量的所述余弦相似度;W text W vec 为根据具体效果设定的经验值,本实施例中W text 取值为0.4,W vec 取值为0.6。
S8-4:选择总评分score最大时对应的地址文本作为最终的匹配结果。
实施例二
本发明还公开了一种融合地理要素语义分割与相似度的地址匹配系统,包括历史数据模块、地址语义分割模型构建模块、地址语义匹配模型构建模块、检索库构建模块、候选地址集构建模块和地址匹配模块。
历史数据模块,用于获取历史地址文本数据并抽取数据分别构建地址要素数据集和地址对相似度数据集,所述地址要素数据集中的数据为标注了地址要素标签的地址文本,所述地址要素标签包括地址要素和地址类型,所述地址对相似度数据集中的数据为两个地址文本和地址对文本的匹配得分;
地址语义分割模型构建模块,用于构建地址语义分割模型,使用所述地址要素数据集训练所述地址语义分割模型得到训练完成的地址语义分割模型,所述地址语义分割模型的输出为地址要素标签序列,所述地址要素标签序列为包含地址要素标签的序列;
地址语义匹配模型构建模块,用于构建地址语义匹配模型,使用所述地址对相似度数据集训练所述地址语义匹配模型得到训练完成的地址语义匹配模型,所述地址语义匹配模型包括文本向量提取模块和分类层,所述文本向量提取模块用于从输入数据中提取得到地址向量,提取得到的地址向量经过所述分类层得到地址对文本的匹配得分;
检索库构建模块,用于将所述历史地址文本数据输入训练完成的地址语义分割模型得到地址要素检索库,将所述历史地址文本数据输入训练完成的地址语义匹配模型得到地址向量检索库;
候选地址集构建模块,用于获取待匹配地址文本,将所述待匹配地址文本输入训练完成的地址语义分割模型得到待匹配的地址要素标签序列,将所述待匹配的地址要素标签序列与所述地址要素检索库进行匹配得到第一地址候选集;将所述待匹配地址文本输入训练完成的地址语义匹配模型得到待匹配的地址向量,将所述待匹配的地址向量与所述地址向量检索库进行匹配得到第二地址候选集;
地址匹配模块,用于根据相似度从所述第一地址候选集和第二地址候选集中选出最终的匹配结果。
实施例三
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的融合地理要素语义分割与相似度的地址匹配方法。
实施例四
本发明还公开了一种设备,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的融合地理要素语义分割与相似度的地址匹配方法。
本发明基于自然语言处理技术和地理空间语义理解对地址进行语义分割并将地址映射到向量空间,且分别构建了文本索引和向量索引,通过融合文本相似度和向量相似度最终获取地址匹配结果。与现有技术相比,本发明的有益效果有:
1、本发明通过综合空间要素、空间关系的精细语义分割构建地址要素数据集和地址对相似度数据集,相较于传统基于规则和词库分割的方式具有更好的泛化能力、切分更加精确,规范地址描述的同时可以有效利用现有数据降低对词库的依赖性,大幅提高了地址初筛的精确度以及地址匹配度计算的准确度。
2、本发明通过构建地址语义分割模型和地址语义匹配模型将地址文本映射到向量空间,能够在向量空间中考虑语义信息,对于非规范化的地址或有一定相似性的地址仍能进行匹配,有效提升地址初筛的召回率。
3、本发明通过构建地址候选集并在此基础上结合相似度选择最终的地址匹配,融合了向量之间的相似性以及文本匹配度来衡量地址的相似程度,既考虑字面信息又考虑语义信息,能更好地解决一址多表问题,进一步提高匹配的准确度;结合地址候选集进行地址初筛能缩小精确匹配的计算范围,从而提高大数据下的匹配效率。
4、本发明可选择地构建要素索引和构建合适维度的向量索引,可以提升检索效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (9)

1.一种融合地理要素语义分割与相似度的地址匹配方法,其特征在于,包括:
获取历史地址文本数据并抽取数据分别构建地址要素数据集和地址对相似度数据集,所述地址要素数据集中的数据为标注了地址要素标签的地址文本,所述地址要素标签包括地址要素和地址类型,所述地址对相似度数据集中的数据为两个地址文本和地址对文本的匹配得分;
构建地址语义分割模型,使用所述地址要素数据集训练所述地址语义分割模型得到训练完成的地址语义分割模型,所述地址语义分割模型的输出为地址要素标签序列,所述地址要素标签序列为包含地址要素标签的序列;
构建地址语义匹配模型,使用所述地址对相似度数据集训练所述地址语义匹配模型得到训练完成的地址语义匹配模型,所述地址语义匹配模型包括文本向量提取模块和分类层,所述文本向量提取模块用于从输入数据中提取得到地址向量,提取得到的地址向量经过所述分类层得到地址对文本的匹配得分;
将所述历史地址文本数据输入训练完成的地址语义分割模型得到地址要素检索库,将所述历史地址文本数据输入训练完成的地址语义匹配模型得到地址向量检索库;
获取待匹配地址文本,将所述待匹配地址文本输入训练完成的地址语义分割模型得到待匹配的地址要素标签序列,将所述待匹配的地址要素标签序列与所述地址要素检索库进行匹配得到第一地址候选集;
将所述待匹配地址文本输入训练完成的地址语义匹配模型得到待匹配的地址向量,将所述待匹配的地址向量与所述地址向量检索库进行匹配得到第二地址候选集;
根据相似度从所述第一地址候选集和第二地址候选集中选出最终的匹配结果,具体为:
解析所述待匹配的地址要素标签序列得到待匹配的地址要素切分序列和待匹配的地址要素类型序列,所述待匹配的地址要素切分序列包含所述地址要素,所述待匹配的地址要素类型序列包含所述地址类型;
取第一地址候选集和第二地址候选集的并集作为最终候选集,从地址要素检索库中获取所述最终候选集中所有地址文本的地址要素切分序列和地址要素类型序列,从地址向量检索库中获取所述最终候选集中所有地址文本的地址向量;
根据待匹配的地址要素切分序列,待匹配的地址要素类型序列和最终候选集中的各地址的地址要素切分序列、各地址的地址要素类型序列,计算待匹配地址文本与最终候选集中的地址文本的文本匹配度Stext
计算总评分score为:
score=Wtext×Stext+Wvec×Svec
其中,Wtext为文本匹配度权重,Wvec为向量相似度权重,Svec为待匹配的地址向量与最终候选集中的地址向量的余弦相似度;
选择总评分score最大时对应的地址文本作为最终的匹配结果。
2.根据权利要求1所述的融合地理要素语义分割与相似度的地址匹配方法,其特征在于:所述地址语义分割模型包括输入层、嵌入层、全连接层、CRF层和输出层,
所述地址要素数据集中的数据经所述输入层输入所述地址语义分割模型,通过所述嵌入层得到每个地址文本的词嵌入,所述词嵌入经过所述全连接层得到预测的每个词对应的各地址要素和地址类型的标签,所述预测的每个词对应的各地址要素和地址类型的标签经过所述CRF层进行约束,约束后得到预测的地址文本的地址要素标签序列,预测的地址文本的地址要素标签序列经所述输出层输出。
3.根据权利要求1所述的融合地理要素语义分割与相似度的地址匹配方法,其特征在于:所述地址语义匹配模型包括相同的两路所述文本向量提取模块、拼接层、分类层和输出层,
所述文本向量提取模块包括输入层、嵌入层、池化层,所述地址对相似度数据集中的数据中的所述两个地址文本分别经所述输入层输入一路所述文本向量提取模块,通过所述嵌入层得到每个地址文本的词嵌入,通过所述池化层对所述词嵌入的每个维度取平均值得到固定长度的地址向量;
所述拼接层拼接两路所述文本向量提取模块输出的地址向量和两路所述文本向量提取模块输出的地址向量的差向量,将拼接结果输入所述分类层得到预测的地址对文本的匹配得分,所述分类层包括全连接层和softmax函数,预测的地址对文本的匹配得分经过所述输出层输出。
4.根据权利要求1所述的融合地理要素语义分割与相似度的地址匹配方法,其特征在于:将所述历史地址文本数据输入训练完成的地址语义分割模型得到地址要素检索库,包括:
将所述历史地址文本数据输入训练完成的地址语义分割模型得到预测的地址要素标签序列,对预测的地址要素标签序列进行格式解析得到地址要素切分序列和地址要素类型序列,所述地址要素切分序列包含所述地址要素,所述地址要素类型序列包含所述地址类型;
对所述地址要素切分序列进行规范化,取规范化后的地址要素切分序列和地址要素类型序列得到所述地址要素检索库;
所述规范化包括:去除重复冗余的地址要素,对地址要素进行标准化补全,对地址要素的格式进行统一化。
5.根据权利要求3所述的融合地理要素语义分割与相似度的地址匹配方法,其特征在于:将所述历史地址文本数据输入训练完成的地址语义匹配模型得到地址向量检索库,包括:
将所述历史地址文本数据输入训练完成的地址语义匹配模型,取训练完成的地址语义匹配模型的池化层的输出向量进行归一化得到所述地址向量检索库。
6.根据权利要求1所述的融合地理要素语义分割与相似度的地址匹配方法,其特征在于:将所述待匹配的地址要素标签序列与所述地址要素检索库进行匹配得到第一地址候选集,包括:
根据待匹配的地址要素切分序列包含的地址要素和地址要素对应的地址类型设置匹配条件,根据所述匹配条件将待匹配的地址要素切分序列中需要进行匹配的地址要素与地址要素检索库中的各历史地址文本所含的地址要素进行匹配,检索出符合匹配条件的历史地址文本作为第一地址候选集;
将所述待匹配的地址向量与所述地址向量检索库进行匹配得到第二地址候选集,包括:
将待匹配的地址向量与地址向量检索库进行匹配,计算待匹配的地址向量与地址向量检索库中的每个地址向量的余弦相似度,挑选出余弦相似度高的多个地址向量检索库中的地址向量对应的历史地址文本作为第二地址候选集。
7.根据权利要求1所述的融合地理要素语义分割与相似度的地址匹配方法,其特征在于:所述待匹配地址文本与最终候选集中的地址文本的文本匹配度Stext的计算方法为:
其中,Q表示待匹配的地址要素切分序列,A表示最终候选集中任一地址的地址要素切分序列,∩表示交集,∪表示并集,wi表示Q∩A中包含的地址要素对应的地址类型的权重,wj表示Q∪A中包含的地址要素对应的地址类型的权重,地址要素对应的地址类型从该地址要素对应的地址要素类型序列中获取。
8.根据权利要求1所述的融合地理要素语义分割与相似度的地址匹配方法,其特征在于:所述得到地址要素检索库时建立地址要素检索库的要素索引,所述要素索引为倒排索引;
所述得到地址向量检索库时建立地址向量检索库的向量索引,所述向量索引使用IVF_FLAT建立。
9.一种融合地理要素语义分割与相似度的地址匹配系统,其特征在于,包括:
历史数据模块,用于获取历史地址文本数据并抽取数据分别构建地址要素数据集和地址对相似度数据集,所述地址要素数据集中的数据为标注了地址要素标签的地址文本,所述地址要素标签包括地址要素和地址类型,所述地址对相似度数据集中的数据为两个地址文本和地址对文本的匹配得分;
地址语义分割模型构建模块,用于构建地址语义分割模型,使用所述地址要素数据集训练所述地址语义分割模型得到训练完成的地址语义分割模型,所述地址语义分割模型的输出为地址要素标签序列,所述地址要素标签序列为包含地址要素标签的序列;
地址语义匹配模型构建模块,用于构建地址语义匹配模型,使用所述地址对相似度数据集训练所述地址语义匹配模型得到训练完成的地址语义匹配模型,所述地址语义匹配模型包括文本向量提取模块和分类层,所述文本向量提取模块用于从输入数据中提取得到地址向量,提取得到的地址向量经过所述分类层得到地址对文本的匹配得分;
检索库构建模块,用于将所述历史地址文本数据输入训练完成的地址语义分割模型得到地址要素检索库,将所述历史地址文本数据输入训练完成的地址语义匹配模型得到地址向量检索库;
候选地址集构建模块,用于获取待匹配地址文本,将所述待匹配地址文本输入训练完成的地址语义分割模型得到待匹配的地址要素标签序列,将所述待匹配的地址要素标签序列与所述地址要素检索库进行匹配得到第一地址候选集;将所述待匹配地址文本输入训练完成的地址语义匹配模型得到待匹配的地址向量,将所述待匹配的地址向量与所述地址向量检索库进行匹配得到第二地址候选集;
地址匹配模块,用于根据相似度从所述第一地址候选集和第二地址候选集中选出最终的匹配结果,具体为:
解析所述待匹配的地址要素标签序列得到待匹配的地址要素切分序列和待匹配的地址要素类型序列,所述待匹配的地址要素切分序列包含所述地址要素,所述待匹配的地址要素类型序列包含所述地址类型;
取第一地址候选集和第二地址候选集的并集作为最终候选集,从地址要素检索库中获取所述最终候选集中所有地址文本的地址要素切分序列和地址要素类型序列,从地址向量检索库中获取所述最终候选集中所有地址文本的地址向量;
根据待匹配的地址要素切分序列,待匹配的地址要素类型序列和最终候选集中的各地址的地址要素切分序列、各地址的地址要素类型序列,计算待匹配地址文本与最终候选集中的地址文本的文本匹配度Stext
计算总评分score为:
score=Wtext×Stext+Wvec×Svec
其中,Wtext为文本匹配度权重,Wvec为向量相似度权重,Svec为待匹配的地址向量与最终候选集中的地址向量的余弦相似度;
选择总评分score最大时对应的地址文本作为最终的匹配结果。
CN202311224080.4A 2023-09-21 2023-09-21 融合地理要素语义分割与相似度的地址匹配方法和系统 Active CN116955541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311224080.4A CN116955541B (zh) 2023-09-21 2023-09-21 融合地理要素语义分割与相似度的地址匹配方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311224080.4A CN116955541B (zh) 2023-09-21 2023-09-21 融合地理要素语义分割与相似度的地址匹配方法和系统

Publications (2)

Publication Number Publication Date
CN116955541A CN116955541A (zh) 2023-10-27
CN116955541B true CN116955541B (zh) 2023-12-26

Family

ID=88453324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311224080.4A Active CN116955541B (zh) 2023-09-21 2023-09-21 融合地理要素语义分割与相似度的地址匹配方法和系统

Country Status (1)

Country Link
CN (1) CN116955541B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312478B (zh) * 2023-11-30 2024-03-22 中国科学院空天信息创新研究院 地址定位方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982316A (zh) * 2022-12-08 2023-04-18 四川新网银行股份有限公司 一种基于多模态的文本检索方法、系统及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8595219B1 (en) * 2012-05-16 2013-11-26 Trans Union, Llc System and method for contextual and free format matching of addresses

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982316A (zh) * 2022-12-08 2023-04-18 四川新网银行股份有限公司 一种基于多模态的文本检索方法、系统及介质

Also Published As

Publication number Publication date
CN116955541A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN110008300B (zh) Poi别名的确定方法、装置、计算机设备和存储介质
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
CN112347222B (zh) 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
CN112527938A (zh) 基于自然语言理解的中文poi匹配方法
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN116955541B (zh) 融合地理要素语义分割与相似度的地址匹配方法和系统
CN111522901B (zh) 文本中地址信息的处理方法及装置
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN108388559A (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108304411B (zh) 地理位置语句的语义识别方法和装置
Mokhtari et al. Tagging address queries in maps search
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
CN110795515A (zh) 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
Zhang et al. Social media meets big urban data: A case study of urban waterlogging analysis
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
Guo et al. Adaln: a vision transformer for multidomain learning and predisaster building information extraction from images
CN113392147B (zh) 一种vr场景知识图谱表示及动态更新方法
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN114091454A (zh) 一种互联网文本中地名信息提取及空间定位方法
CN107247716B (zh) 一种增加电子眼信息的方法及装置、导航芯片及服务器
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN117077071A (zh) 一种基于数据分级的数据分析方法及系统
CN111767476A (zh) 一种基于hmm模型的智慧城市时空大数据空间化引擎构建方法
CN111427977A (zh) 电子眼数据的处理方法及装置
CN114513550B (zh) 一种地理位置信息的处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant