CN116431746A - 基于编码库的地址映射方法、装置、电子设备及存储介质 - Google Patents
基于编码库的地址映射方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116431746A CN116431746A CN202310205887.7A CN202310205887A CN116431746A CN 116431746 A CN116431746 A CN 116431746A CN 202310205887 A CN202310205887 A CN 202310205887A CN 116431746 A CN116431746 A CN 116431746A
- Authority
- CN
- China
- Prior art keywords
- address
- information
- candidate
- matching
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013507 mapping Methods 0.000 title claims abstract description 52
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 8
- 239000013598 vector Substances 0.000 description 25
- 230000011218 segmentation Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的一种基于编码库的地址映射方法、装置、电子设备及存储介质,通过获取地址查询信息;对地址查询信息进行解析,得到地址信息特征;根据地址信息特征在地理编码库中进行匹配,得到与地址信息特征对应的候选地址列表;对所述候选地址列表中的候选地址进行匹配度评价;将匹配度评分最高的候选地址作为目标候选地址。本发明能够在地址查询过程中,通过将解析后的查询信息与地理编码库中的数据进行匹配,从而得到需要查询的目标候选地址,保证了地址匹配的准确率。而且能够基于设置好的评分规则自动从匹配结果中选取一个作为最终的地址匹配结果,从而实现自动化地址匹配,降低人工干预的程度。本发明能应用于地理信息系统技术领域。
Description
技术领域
本发明涉及地理信息系统技术领域,尤其涉及一种基于编码库的地址映射方法、装置、电子设备及存储介质。
背景技术
地址匹配,是将文字性的描述地址与其空间的地理位置坐标建立起对应关系的过程,其目的是要根据用户输入的待检索地址快速查找到匹配的地址,并以在线服务的形式返回用户检索结果。在电子地图领域中,地址检索、查询服务是网络地图在线服务的重要功能。通过地址匹配将用户输入的待匹配地址转化为地理位置,以便于在电子地图上显示该待匹配地址,方便用户了解该待匹配地址所处的地理位置。
然而,常规的地址库构建与对应的文本解析方法无法准确识别某些专业领域的独特文本形式,导致现有的地址检索手段缺少对某些专业领域的个性化检索应用支撑。
综上所述,现有技术存在的问题亟需得到解决。
发明内容
本发明提供一种基于编码库的地址映射方法、装置、电子设备及存储介质,用以解决现有技术中无法准确识别某些专业领域的独特文本形式的缺陷,提高检索的准确率。
本发明提供一种基于编码库的地址映射方法,包括:
获取地址查询信息;
对所述地址查询信息进行解析,得到地址信息特征;
根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址列表;
对所述候选地址列表中的候选地址进行匹配度评价;
将匹配度评分最高的候选地址作为目标候选地址。
所述对所述地址查询信息进行解析,得到地址信息特征,包括:
将所述地址查询信息进行切分,得到地址词组信息;
对所述地址词组信息进行关键词提取,得到地址信息特征。
根据本发明提供的一种基于编码库的地址映射方法,所述根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址列表,包括:
构建所述地址信息特征与所述候选地址的映射关系;
根据所述映射关系,在所述地理编码库中匹配与所述地址信息特征对应的候选地址列表。
根据本发明提供的一种基于编码库的地址映射方法,所述对所述候选地址列表中的候选地址进行匹配度评价,包括:
确定地址查询信息的地址信息特征与候选地址的地址信息特征的相似度;
确定地址查询信息的地址信息特征的完整度;
根据所述相似度和所述完整度进行匹配度评价,得到匹配度评分。
根据本发明提供的一种基于编码库的地址映射方法,所述方法还包括:
获取地理坐标信息;
根据所述地理坐标信息在地理编码库中进行匹配,得到与所述地理坐标信息对应的目标地址;
生成所述目标地址的地址环境信息。
根据本发明提供的一种基于编码库的地址映射方法,在所述对所述候选地址列表中的候选地址进行匹配度评价这一步骤之后,所述方法还包括:
将所述匹配度评分与预设评分进行比较;
将所述匹配度评分低于所述预设评分的候选地址从所述候选地址列表中移除;
根据所述匹配度评分对所述候选地址列表进行排序;
对排序后的候选地址列表进行可视化显示。
根据本发明提供的一种基于编码库的地址映射方法,所述方法还包括:
根据所述地址查询信息,获取关键词的搜索次数;
将所述搜索次数与预设次数进行比较;
将所述搜索次数高于所述预设次数的关键词进行可视化显示。
本发明还提供一种基于编码库的地址映射装置,包括:
信息获取单元,用于获取地址查询信息;
信息解析单元,用于对所述地址查询信息进行解析,得到地址信息特征;
匹配单元,用于根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址;
评分单元,用于对所述候选地址进行匹配度评分;
筛选单元,用于将匹配度评分最高的候选地址作为目标候选地址。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于编码库的地址映射方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于编码库的地址映射方法。
本发明提供的一种基于编码库的地址映射方法、装置、电子设备及存储介质,通过获取地址查询信息;对所述地址查询信息进行解析,得到地址信息特征;根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址列表;对所述候选地址列表中的候选地址进行匹配度评价;将匹配度评分最高的候选地址作为目标候选地址。本发明能够在地址查询过程中,通过将解析后的查询信息与地理编码库中的数据进行匹配,从而得到需要查询的目标候选地址,保证了地址匹配的准确率。而且能够基于设置好的评分规则自动从匹配结果中选取一个作为最终的地址匹配结果,从而实现自动化地址匹配,降低人工干预的程度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于编码库的地址映射方法的流程示意图;
图2是本发明提供的基于编码库的地址映射装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
计算机、通信以及网络等技术的突飞猛进,促进信息技术广泛应用于国计民生的各行各业,基于地理信息服务的数字技术已深入人们学习、工作和生活的方方面面。作为面向地理或地学领域的信息技术,地理信息系统架起信息技术与地学领域的“桥梁”。
传统的地址匹配方法通常采用基于关键词的精确或模糊匹配方法,这对于大规模或大范围的地名地址数据,匹配速度慢,很难满足电子地图在线服务的需要,再加上歧义词和未登录词较多,导致匹配的准确性比较低,匹配结果多种多样且往往不是用户所需要的结果。不仅如此,现有的地址检索手段缺少对某些专业领域的个性化检索应用支撑,因为常规的地址库构建与对应的文本解析方法无法准确识别该领域的独特文本形式。
为了解决现有的地址检索手段不智能、获取地址检索结果不准确的问题,本发明提出一种基于编码库的地址映射方法,以提高检索的准确率。该基于编码库的地址映射方法,如图1所示,包括但不限于以下步骤:
步骤110、获取地址查询信息。
在步骤110中,地址查询信息是指用户通过键盘、按键等输入设备在搜索输入栏中输入的信息。具体地,本实施例中,对于地址查询信息的获取渠道不做限制,该地址查询信息既可以是直接通过从应用软件中采集得到的,也可以是通过数据传输接口或者远程通信传输从其他电子设备及计算机系统获取得到的。
进一步地,用户通过键盘、按键等在地址输入栏中输入搜索地理位置的关键字。当地址输入栏中输入的关键字发生变化,则触发搜索功能,并且将搜索到的结果以补充关键词的形式在搜索栏下拉框中显示,以供用户进行选择。关键字发生变化是指输入的关键字相对于前一次输入的关键字发生变化,当其发生变化时,则触发搜索功能。其中,从空白到存在关键字也算发生变化。
进一步地,地址查询信息还可以包括语音查询信息,对于语音查询信息,需要进行文本特征提取。具体地,对语音查询信息进行文本化处理,可以采用自动语音识别技术(Automatic Speech Recognition,ASR)对语音查询信息进行语音识别,得到语音查询信息的文本内容,然后提取文本内容的文本特征信息,例如可以将语音查询信息的文本内容通过自然语言处理技术转换为结构化数据,比如说向量,从而将转换得到的结构化数据作为文本特征信息。
步骤120、对所述地址查询信息进行解析,得到地址信息特征。
在步骤120中,为了将地址查询信息与地理编码库进行匹配,需要对地址查询信息进行特征提取,得到地址信息特征。具体地,可以对地址查询信息进行句子级别的切分处理,得到多个语句。然后再分别对每个语句进行分词处理,得到组成该语句的词组。具体地,可以采用基于词典的分词算法,也可以采用基于语法和规则的分词算法,还可以采用基于统计的分词算法。本实施例中,对于分词的方法不作具体限制。
步骤130、根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址列表。
在步骤130中,可以构建地址信息特征与地理编码库中的候选地址的映射关系。通过输入地址信息特征,根据构建好的映射关系,即可匹配到对应的候选地址,形成候选地址列表。具体地,可以采用词嵌入向量的方式,词嵌入向量可以通过将词映射到一个具有统一的较低维度的向量空间中得到,生成这种映射的策略包括神经网络、单词共生矩阵的降维、概率模型以及可解释的知识库方法等。
步骤140、对所述候选地址列表中的候选地址进行匹配度评价。
在步骤140中,为了确定候选地址列表各个候选地址的可信度,需要对每个候选地址进行匹配度评价。
步骤150、将匹配度评分最高的候选地址作为目标候选地址。
在步骤140和步骤150中,需要对候选地址列表中的候选地址进行匹配度评价。在一些实施例中,可以将本申请中的评分任务设定为回归任务,以具体的数值表示评分结果,此时可以选择线性回归、逻辑回归、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、极端梯度提升(eXtreme Gradient Boosting,XGBoost)等机器学习算法来预测评分结果的数值。具体地,将地址查询信息的特征信息和候选地址输入到评分模型中,即可直接得到该候选地址对应的分值,该分值即为匹配度结果,分值的大小用于表征候选地址可信度的高低,为方便统一量化比较,可以通过调整模型的超参数将输出的分值约束到指定的范围内,比如说0~100的分值区间,在该分值区间内,分值的大小越大,表示候选地址可信度越高;反之,分值的大小越小,表示候选地址可信度越低。类似地,以上设置输出分值的回归预测方式仅用于举例说明本申请实施例的原理,实际的实施过程同样可以根据需要灵活设定。
上述执行分类任务或者回归任务的评分模型,需要事先训练完毕后投入使用,在此以执行分类任务的评分模型为例,简要说明评分模型的训练过程。在训练评分模型时,可以获取批量的带有分类标签的地址查询数据,其中的分类标签用于表征对应的地址查询数据属于哪个评分类别,分类标签的具体数据形式可以和前述的评分结果保持一致。将地址查询数据输入到初始化后的评分模型,评分模型将会输出该地址查询数据的评分结果,在此将其记为训练评分结果。根据各个地址查询数据对应的训练评分结果以及分类标签,可以确定评分模型预测各个口语样本数据的损失值。本申请实施例中,损失值可以采用0-1损失函数来确定,当评分模型预测正确时,即口语样本数据对应的训练评分结果以及分类标签一致时,损失值记为0;当评分模型预测错误时,即口语样本数据对应的训练评分结果以及分类标签不一致时,损失值记为1。当然,实际可以采用的损失值计算方式并不局限于上述的损失函数,例如平方差损失函数,交叉熵损失函数等均是可选的类型。通过约束评分模型预测多个口语样本数据的损失值之和最小化,可以对评分模型进行反向传播训练,更新其内部的参数,从而得到训练好的评分模型。
作为进一步可选的实施例,所述对所述地址查询信息进行解析,得到地址信息特征,包括:
将所述地址查询信息进行切分,得到地址词组信息;
对所述地址词组信息进行关键词提取,得到地址信息特征。
在本实施例中,可以对地址查询信息进行句子级别的切分处理,得到多个语句。然后再分别对每个语句进行分词处理,得到组成该语句的词组,即地址词组信息。示例性地,地址查询信息中包括语句“我要去海珠万达”,经过分词处理后可以得到词组“我,要,去,海珠,万达”。此处,可以采用的分词算法有多种,例如在一些实施例中,可以采用基于词典的分词算法,先把语句按照词典切分成词,再寻找词的最佳组合方式;在一些实施例中,也可以采用基于字的分词算法,先把语句分成一个个字,再将字组合成词,寻找最优的组合方式。将语句进行分词处理后,可以通过预先建立的词典来确定词组中每个词对应的词嵌入向量,当然,在一些实施例中,词嵌入向量可以通过将词映射到一个具有统一的较低维度的向量空间中得到,生成这种映射的策略包括神经网络、单词共生矩阵的降维、概率模型以及可解释的知识库方法等。比如说对于“我要去海珠万达”的语句,首先一一确定语句中各个词对应的词嵌入向量,并且可以将其中的“我,要,去”等非关键词进行剔除,词“海珠”对应的词向量为(0,5,1,1),词“万达”对应的词向量为(0,0,0,1)。在确定到词组“海珠,万达”中每个词对应的词嵌入向量后,可以对这些词嵌入向量进行累加,累加后的向量可以记为词组向量,如词组“海珠,万达”对应的词组向量为(0,5,1,2),对词组向量进行归一化处理,即可得到的语句对应的向量,比如说归一化处理时,可以设定语句对应的向量中元素和为1,则语句“我要去海珠万达”可以通过向量(0,1,0.2,0.4)来表示。可以理解的是,参照上述的方式,可以确定出地址查询信息的文本内容中所有语句对应的向量,对这些向量进行拼接或者将这些向量构造成矩阵,即可得到包含文本内容所有特征信息的结构化数据,本申请实施例中,可以将这些结构化数据作为地址信息特征。
作为进一步可选的实施例,所述根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址列表,包括:
构建所述地址信息特征与所述候选地址的映射关系;
根据所述映射关系,在所述地理编码库中匹配与所述地址信息特征对应的候选地址列表。
在本实施例中,为了获取地址信息特征对应的候选地址列表,可以构建地址信息特征与地理编码库中的候选地址的映射关系。通过输入地址信息特征,根据构建好的映射关系,即可匹配到对应的候选地址,形成候选地址列表。具体地,可以计算地址信息特征向量与地址向量之间的距离,并设置阈值距离,当地址信息特征向量与地址向量之间的距离小于阈值距离,则将该地址选入候选地址列表。
作为进一步可选的实施例,所述对所述候选地址列表中的候选地址进行匹配度评价,包括:
确定地址查询信息的地址信息特征与候选地址的地址信息特征的相似度;
确定地址查询信息的地址信息特征的完整度;
根据所述相似度和所述完整度进行匹配度评价,得到匹配度评分。
本实施例中,在评分过程中,可以将地址信息特征和候选地址特征一起输入到评分模型中,由评分模型计算两者的相似度,并根据相似度的大小,确定该次搜索的评分结果。此处的相似度用于表征地址信息特征和候选地址特征之间的相似程度,也用于反映了该次搜索的可信度,本申请实施例中,可以以百分比的形式来计量相似度,此时可以理解的是,当相似度的数值为100%时,可以认为地址信息特征和候选地址特征完全相同。
同时,还可以确定地址查询信息的地址信息特征的完整度,具体地,在地理库编码时进行分级,示例性地,把地址要素级别分为自上而下的八级,分别为:国家,省、直辖市,省会、地级市,区县,街道、乡镇,道路片区,POI,详细地址。确定地址信息特征是否包含上述地址要素级别,根据包含的多少,确定地址信息特征的完整度。可以理解的是,包含的越多,完整度越高,反之,包含的越少,完整度越低。
在确定玩相似度和完整度之后,即可通过匹配度和完整度,得到匹配度评分。具体地,可以采用加权平均的方式,将相似度和完整度进行特征融合,从而得到匹配度评分。
具体地,在确定地址信息特征和候选地址特征之间的相似度时,在一些实施例中,可以先确定地址信息特征和候选地址特征的数字特征之间的差异值,然后根据该差异值来确定相似度,差异值越大,相似度越小,反之,差异值越小,相似度越大。
作为进一步可选的实施例,所述方法还包括:
获取地理坐标信息;
根据所述地理坐标信息在地理编码库中进行匹配,得到与所述地理坐标信息对应的目标地址;
生成所述目标地址的地址环境信息。
在本实施例中,地理坐标信息包括经纬度、半径、点的数量等参数,可以通过输入地理坐标信息,在地理编码库中匹配到对应的目的地址,再将目的地址进行可视化显示。具体地,输入经纬度、半径、点的数量等参数返回地址相关信息进行查询。该实施例包括两种逆向查询方式,方式一为半径查询,输入经纬度、半径、点的数量三个参数,返回结果为以该经纬度为圆心、半径值为半径的圆形范围内指定数量的地址信息,包括地址的文本、经纬度和地址编码。方式二为最近邻查询,输入经纬度、点的数量两个个参数,返回结果为以该经纬度为中心、距离该点最近的指定数量的地址信息,包括地址的文本、经纬度和地址编码。
作为进一步可选的实施例,在所述对所述候选地址列表中的候选地址进行匹配度评价这一步骤之后,所述方法还包括:
将所述匹配度评分与预设评分进行比较;
将所述匹配度评分低于所述预设评分的候选地址从所述候选地址列表中移除;
根据所述匹配度评分对所述候选地址列表进行排序;
对排序后的候选地址列表进行可视化显示。
本实施例中,预设评分是用于过滤与输入内容匹配差别较大的错误地址,该预设评分可以根据实际情况进行调整。在进行匹配度评分之后,通过将匹配度评分与预设评分进行比较,将低于预设评分的地址进行剔除,从而输出新的候选地址列表。进一步地,为了提高用户的使用体验,可以根据匹配度评分对候选地址列表进行排序,将匹配度高的地址在搜索输入栏下拉框中进行显示,并且可以根据匹配度评分,在拉框中将候选地址从高到低进行可视化显示,以供用户选择。
进一步地,在对候选地址进行可视化显示时,不仅可以通过在搜索输入栏下拉框中进行显示候选地址的文字文本,还可以在文字文本对应的空白位置进行地图显示。具体地,可以显示下拉框中每个候选地址的小地图,该小地图显示了包括候选地址在内的一部分区域,并且用户可以通过触摸、点击等操作,将小地图进行放大显示,以供用户进行确认该候选地址是否为用户想要去的地址。可以理解的是,当得到的候选地址相距不远时,还可以将多个候选地址全部显示在一个大地图上,大地图相对于上述小地图而言,显示的区域会更大些。示例性地,用户搜索“地铁站”,那么候选地址列表则是附近一定范围内的地铁站,这些搜索得到的地址站相距较近,可以将这些搜索结果一起显示在同一个大地图上,以供用户查看,从而清楚这些地点的区别。
作为进一步可选的实施例,所述方法还包括:
根据所述地址查询信息,获取关键词的搜索次数;
将所述搜索次数与预设次数进行比较;
将所述搜索次数高于所述预设次数的关键词进行可视化显示。
为了给没有目的地的用户提供出行的选择,本实施例中,可以根据地址查询信息确定较多人搜索的热门地址,具体地,通过地址查询信息能够匹配到对应目标候选地址,在查询指令执行完之后,后台可以对被搜索过的关键词进行计数,通过将搜索次数与预设次数进行比较,将高于预设次数的地址作为热门关键词进行显示。基于前面所说的,可以将热门关键词在搜索输入栏上方中进行显示。可选地,在对热门关键词进行可视化显示时,不仅可以通过在搜索输入栏上方中进行显示热门关键词的文字文本,还可以在文字文本对应的空白位置进行热门关键词的地图显示。
下面对本发明提供的基于编码库的地址映射装置进行描述,下文描述的基于编码库的地址映射装置与上文描述的基于编码库的地址映射方法可相互对应参照。
一种基于编码库的地址映射装置,如图2所示,包括:
信息获取单元210,用于获取地址查询信息;
信息解析单元220,用于对所述地址查询信息进行解析,得到地址信息特征;
匹配单元230,用于根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址;
评分单元240,用于对所述候选地址进行匹配度评分;
筛选单元250,用于将匹配度评分最高的候选地址作为目标候选地址。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行基于编码库的地址映射方法,该方法包括:
获取地址查询信息;
对所述地址查询信息进行解析,得到地址信息特征;
根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址列表;
对所述候选地址列表中的候选地址进行匹配度评价;
将匹配度评分最高的候选地址作为目标候选地址。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于编码库的地址映射方法,该方法包括:
获取地址查询信息;
对所述地址查询信息进行解析,得到地址信息特征;
根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址列表;
对所述候选地址列表中的候选地址进行匹配度评价;
将匹配度评分最高的候选地址作为目标候选地址。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于编码库的地址映射方法,其特征在于,包括:
获取地址查询信息;
对所述地址查询信息进行解析,得到地址信息特征;
根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址列表;
对所述候选地址列表中的候选地址进行匹配度评价;
将匹配度评分最高的候选地址作为目标候选地址。
2.根据权利要求1所述的基于编码库的地址映射方法,其特征在于,所述对所述地址查询信息进行解析,得到地址信息特征,包括:
将所述地址查询信息进行切分,得到地址词组信息;
对所述地址词组信息进行关键词提取,得到地址信息特征。
3.根据权利要求1所述的基于编码库的地址映射方法,其特征在于,所述根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址列表,包括:
构建所述地址信息特征与所述候选地址的映射关系;
根据所述映射关系,在所述地理编码库中匹配与所述地址信息特征对应的候选地址列表。
4.根据权利要求1所述的基于编码库的地址映射方法,其特征在于,所述对所述候选地址列表中的候选地址进行匹配度评价,包括:
确定地址查询信息的地址信息特征与候选地址的地址信息特征的相似度;
确定地址查询信息的地址信息特征的完整度;
根据所述相似度和所述完整度进行匹配度评价,得到匹配度评分。
5.根据权利要求1-4任一项所述的基于编码库的地址映射方法,其特征在于,所述方法还包括:
获取地理坐标信息;
根据所述地理坐标信息在地理编码库中进行匹配,得到与所述地理坐标信息对应的目标地址;
生成所述目标地址的地址环境信息。
6.根据权利要求1-4任一项所述的基于编码库的地址映射方法,其特征在于,在所述对所述候选地址列表中的候选地址进行匹配度评价这一步骤之后,所述方法还包括:
将所述匹配度评分与预设评分进行比较;
将所述匹配度评分低于所述预设评分的候选地址从所述候选地址列表中移除;
根据所述匹配度评分对所述候选地址列表进行排序;
对排序后的候选地址列表进行可视化显示。
7.根据权利要求1-4任一项所述的基于编码库的地址映射方法,其特征在于,所述方法还包括:
根据所述地址查询信息,获取关键词的搜索次数;
将所述搜索次数与预设次数进行比较;
将所述搜索次数高于所述预设次数的关键词进行可视化显示。
8.一种基于编码库的地址映射装置,其特征在于,包括:
信息获取单元,用于获取地址查询信息;
信息解析单元,用于对所述地址查询信息进行解析,得到地址信息特征;
匹配单元,用于根据所述地址信息特征在地理编码库中进行匹配,得到与所述地址信息特征对应的候选地址;
评分单元,用于对所述候选地址进行匹配度评分;
筛选单元,用于将匹配度评分最高的候选地址作为目标候选地址。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于编码库的地址映射方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于编码库的地址映射方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310205887.7A CN116431746A (zh) | 2023-03-03 | 2023-03-03 | 基于编码库的地址映射方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310205887.7A CN116431746A (zh) | 2023-03-03 | 2023-03-03 | 基于编码库的地址映射方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116431746A true CN116431746A (zh) | 2023-07-14 |
Family
ID=87089785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310205887.7A Pending CN116431746A (zh) | 2023-03-03 | 2023-03-03 | 基于编码库的地址映射方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116431746A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312478A (zh) * | 2023-11-30 | 2023-12-29 | 中国科学院空天信息创新研究院 | 地址定位方法、装置、电子设备及存储介质 |
-
2023
- 2023-03-03 CN CN202310205887.7A patent/CN116431746A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312478A (zh) * | 2023-11-30 | 2023-12-29 | 中国科学院空天信息创新研究院 | 地址定位方法、装置、电子设备及存储介质 |
CN117312478B (zh) * | 2023-11-30 | 2024-03-22 | 中国科学院空天信息创新研究院 | 地址定位方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639171B (zh) | 一种知识图谱问答方法及装置 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110717034A (zh) | 一种本体构建方法及装置 | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
CN103823857B (zh) | 基于自然语言处理的空间信息检索方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN111488468A (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN111666764A (zh) | 一种基于XLNet的自动摘要方法与装置 | |
CN115017425B (zh) | 地点检索方法、装置、电子设备以及存储介质 | |
CN114661872A (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN117349423A (zh) | 一种模板匹配式水利领域知识问答模型 | |
CN116431746A (zh) | 基于编码库的地址映射方法、装置、电子设备及存储介质 | |
CN111222345A (zh) | 基于语义分词技术的地名地址可视化分析方法 | |
CN111104503A (zh) | 一种建筑工程质量验收规范问答系统及其构建方法 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN114091454A (zh) | 一种互联网文本中地名信息提取及空间定位方法 | |
CN117390198A (zh) | 构建电力领域科技知识图谱的方法、装置、设备及介质 | |
CN116662583A (zh) | 一种文本生成方法、地点检索方法及相关装置 | |
CN110941713B (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN113468881B (zh) | 一种地址标准化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |