CN113642313A - 地址文本的处理方法、装置、设备、存储介质及程序产品 - Google Patents
地址文本的处理方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN113642313A CN113642313A CN202111028289.4A CN202111028289A CN113642313A CN 113642313 A CN113642313 A CN 113642313A CN 202111028289 A CN202111028289 A CN 202111028289A CN 113642313 A CN113642313 A CN 113642313A
- Authority
- CN
- China
- Prior art keywords
- text
- address text
- address
- tile map
- geographic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 24
- 239000013598 vector Substances 0.000 claims abstract description 181
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 49
- 230000004927 fusion Effects 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 4
- 101150041570 TOP1 gene Proteins 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 241000208140 Acer Species 0.000 description 3
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 3
- 101150064138 MAP1 gene Proteins 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种地址文本的处理方法、装置及计算机存储介质。该方法包括:对待处理地址文本进行解析,得到文本解析结果;根据文本解析结果检索获得待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图;通过对待处理地址文本和各候选地址文本对应的瓦片地图进行编码,得到更全面丰富的多模态地理信息向量;根据多模态地理信息向量确定待处理地址文本和瓦片地图的关联度;获取关联度最大值对应的多模态地理信息向量,根据关联度最大值对应的多模态地理信息向量生成待处理地址文本对应的标准化地址文本,相较于基于单一的文本进行地址文本标准化的方案,提高了标准化地址文本的准确性。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种地址文本的处理方法、装置、电子设备、计算机存储介质及计算机程序产品。
背景技术
地址文本标准化是一种将一段描述不准确的地址文本通过分析、补全并规范化为地址文本库中预设格式的标准地址文本,实现与物理世界中的地址实体相对应的一种技术。
现有技术中,地址文本标准化方法大多是基于对纯文本的分析方式完成,而在描述地址文本时,对于同一地址,会存在一地多名、不准确、描述错误、同音字、简写等情况,因此,降低了标准化后的地址文本准确性,使得基于该地址文本的后续服务也变得极为困难,例如,网络购物、出行乘车等场景。
因此,亟需一种地址文本的处理方法,以提高地址文本标准化的准确性。
发明内容
有鉴于此,本申请实施例提供一种地址文本的处理方案,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种地址文本的处理方法,所述方法包括:对待处理地址文本进行解析,得到文本解析结果;根据所述文本解析结果检索获得所述待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图;对所述待处理地址文本和所述各候选地址文本对应的瓦片地图进行编码,得到多模态地理信息向量;根据所述多模态地理信息向量确定所述待处理地址文本和所述瓦片地图的关联度;获取关联度最大值对应的多模态地理信息向量,根据所述关联度最大值对应的多模态地理信息向量生成所述待处理地址文本对应的标准化地址文本。
根据本申请实施例的第二方面,提供了一种地址文本的处理装置,所述装置包括:解析模块,用于对待处理地址文本进行解析,得到文本解析结果;检索模块,用于根据所述文本解析结果检索获得所述待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图;编码模块,用于对所述待处理地址文本和所述各候选地址文本对应的瓦片地图进行编码,得到多模态地理信息向量;关联模块,用于根据所述多模态地理信息向量确定所述待处理地址文本和所述瓦片地图的关联度;生成模块,用于获取关联度最大值对应的多模态地理信息向量,根据所述关联度最大值对应的多模态地理信息向量生成所述待处理地址文本对应的标准化地址文本。
根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的地址文本的处理方法对应的操作。
根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的地址文本的处理方法。
根据本申请实施例的第五方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如第一方面所述的地址文本的处理方法对应的操作。
根据本申请实施例提供的地址文本的处理方案,对待处理地址文本进行解析,得到文本解析结果;根据文本解析结果检索获得待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图,通过解析、检索的步骤获得的瓦片地图与待处理地址文本之间具有关联性,该瓦片地图承载了物理世界的空间信息,从而使得地址文本也与空间信息产生关联。对待处理地址文本和各候选地址文本对应的瓦片地图进行编码,得到多模态地理信息向量,该向量可表征地址文本包含的文本信息与瓦片地图包含的地理信息融合后的信息,因此多模态地理信息向量更全面丰富。然后根据多模态地理信息向量确定待处理地址文本和瓦片地图的关联度,该关联度表征待处理地址文本和瓦片地图之间的联系密切程度,关联度越大,待处理地址文本和瓦片地图之间越密切;通过对关联度进行排序操作可以获取关联度最大值,获取关联度最大值对应的多模态地理信息向量,根据关联度最大值对应的多模态地理信息向量生成待处理地址文本对应的标准化地址文本。本申请实施例通过将地址文本和瓦片地图进行关联,并结合全面丰富的多模态地理信息向量生成标准化地址文本,相较于基于单一的纯文本进行地址文本标准化的方案,提高了标准化地址文本的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种地址文本的处理方法的步骤流程图;
图2为本申请实施例提供的一种应用场景示意图;
图3为本申请实施例提供的一种离线建立地址文本库及模型训练的步骤流程图;
图4为本申请实施例提供的一种网络模型的示意图;
图5为本申请实施例提供的一种地址文本标准化的步骤流程图;
图6为本申请实施例提供的一种地址文本的处理装置的结构框图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
需要说明的是,本申请中的多个指两个或两个以上,例如,多个候选地址文本、多个瓦片地图样本、多个正样本、多个负样本等等。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一、
本申请实施例一提供一种地址文本的处理方法,如图1所示,图1为本申请实施例提供的一种地址文本的处理方法的流程图,该地址文本的处理方法包括以下步骤:
步骤S101、对待处理地址文本进行解析,得到文本解析结果。
待处理地址文本可以为任意适当的包含地址信息的文本,其中可以包括多个属于不同级别的子地址,例如,待处理地址文本“杭州市余杭新城枫景小区”中,杭州市的级别为市、余杭新城的级别为区,枫景小区的级别为街道、社区或兴趣点等。在对待处理地址文本进行解析时,可以通过打标或添加标签等方式实现对待处理文本的结构化处理,得到文本解析结果。文本解析结果为结构化地址文本,可以是以标签对应文本的形式示出。例如,待处理地址文本“杭州市余杭新城枫景小区”,文本解析结果为“city=杭州市,district=余杭,poi=新城枫景小区”;再如,待处理地址文本“上海市黄浦区人民大道200号”,文本解析结果为“city=上海市,district=黄浦区road=人民大道,roadno=200号”。
步骤S102、根据文本解析结果检索获得待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图。
候选地址文本为预先设置的符合一定格式的地址文本,且候选地址文本对应有一个或多个瓦片地图,候选地址文本以及其对应的瓦片地图可预先存储在地址文本库中。基于此,可选地,根据文本解析结果在存储有多个符合一定格式的地址文本的地址文本库中进行检索,从而获得待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图,其中,一个候选地址文本对应一组瓦片地图,每组瓦片地图包括一个或多个空间关联的瓦片地图,每个瓦片地图同时有多个层级。
步骤S103、对待处理地址文本和各候选地址文本对应的瓦片地图进行编码,得到多模态地理信息向量。
瓦片地图是一种地图的展现方式,承载了物理世界中物理实体的地理信息,通过将地址文本与瓦片地图进行编码,可以得到多模态地理信息向量,该向量可表征地址文本包含的文本信息与瓦片地图包含的地理信息融合后的信息,因此多模态地理信息向量更全面丰富。
步骤S104、根据多模态地理信息向量确定待处理地址文本和瓦片地图的关联度。
关联度表征待处理地址文本和瓦片地图之间的联系密切程度。由于多模态地理信息向量表征地址文本包含的信息与瓦片地图包含的信息融合后的信息,因此通过多模态地理信息向量可以确定待处理地址文本和瓦片地图的关联度。例如,待处理文本是“余杭区美美道路西口”,瓦片地图1中包括“浙江省杭州市余杭区五常街道美美大厦”,瓦片地图2包括“浙江省杭州市余杭区五常街道与美美道路交叉口”,瓦片地图3包括“浙江省杭州市余杭区美美道路102号”,根据多模态地理信息向量确定待处理文本与瓦片地图1之间的关联度为10%,待处理文本与瓦片地图2之间的关联度为50%,待处理文本与瓦片地图3之间的关联度为90%。
步骤S105、获取关联度最大值对应的多模态地理信息向量,根据关联度最大值对应的多模态地理信息向量生成待处理地址文本对应的标准化地址文本。
标准化地址文本用于表示符合预设规范或预设格式的地址文本,预设规范或预设格式可以由本领域技术人员根据实际情况进行设置,或者可以理解为国家行政区划规定的真实地址,该行政区划规定的真实地址是预设格式的地址文本。例如,标准化地址文本包括但不限于各级别行政区域、道路名称、道路编号和POI名称,行政区域包括但不限于级别,省、市、区、乡和村;例如:标准化地址文本为“浙江省杭州市余杭区五常街道文一西路969号兴兴西溪园区1号楼”。
对待处理地址文本对应的多个候选地址文本,每个候选地址文本对应一组瓦片地图,基于此,对待处理地址文本和其对应的多个候选地址文本的多组瓦片地图进行编码,得到多个多模态地理信息向量。根据多个多模态地理信息向量确定多个关联度,本示例中获取多个关联度中的关联度最大值,然后根据关联度最大值对应的多模态地理信息向量生成标准化地址文本。关联度越大,表征待处理地址文本和瓦片地图之间的联系越密切,基于关联度最大值对应的多模态地理信息向量生成标准化地址文本,从而提高了标准化地址文本的准确性。
本申请实施例提供的地址文本的处理方法,目标是将一段描述不准确的非标地址文本通过分析、补全和纠错等处理方式,将其标准化为标准地址文本,从而和物理世界中的地址实体对应上。具体地,通过融合地址文本和瓦片地图,获得多模态地理信息向量,该多模态地理信息向量实现了对地址文本的补全和纠错等处理,并基于多模态地理信息向量进行标准化,即将非标地址文本转换为统一的、正确的标准地址文本,提高标准化地址文本的准确性。
本申请实施例中的地址文本的处理方法可以应用于以下场景:网络购物的物流服务场景,输入挪车地址、输入外卖地址、查询导航地址、智能汽车地址寻路等互联网场景,多源零售推广时地址匹配场景,能源精细化管理场景,金融风控场景等。可以理解的是,在网络购物的物流服务领域中,若用户输入的地址文本不准确,可能会导致物品无法正常运送至用户的手中;在输入移动互联网领域中,若用户输入的地址文本不准确,会导致用户无法及时获得相应服务;在金融领域中,个人和企业开卡、开户、登记、填写信息的过程中,地址文本往往会存在行政区划缺、漏、错、假的现象。而通过本申请实施例的方案,则可有效避免这些问题。
如图2所示,图2为本申请实施例提供的一种应用场景,图2中待处理地址文本为“鱼杭区兴兴园区东门”,对待处理文本进行解析后,得到文本解析结果“district=鱼杭区,POI=兴兴园区东门”。根据文本解析结果召回多个候选地址文本以及各候选地址文本对应的瓦片地图,图2中示出候选地址文本包括“浙江省杭州市余杭区五常街道兴兴西溪园区、浙江省杭州市余杭区五常街道兴兴西溪园区东门、浙江省杭州市余杭区五常街道兴兴西溪园区北门、浙江省杭州市余杭区五常街道兴兴滨江园区”。对待处理地址文本和各候选地址文本对应的每组瓦片地图进行编码,得到多个多模态地理信息向量。根据多个多模态地理信息向量确定多个关联度。选择关联度最大值对应的多模态地理信息向量,根据关联度最大值对应的多模态地理信息向量生成标准化地址文本,标准化地址文本为“浙江省杭州市余杭区五常街道文一西路969号兴兴西溪园区东门”。
可见,根据本申请实施例提供的地址文本的处理方案,对待处理地址文本进行解析,得到文本解析结果;根据文本解析结果检索获得待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图,通过解析、检索的步骤获得的瓦片地图与待处理地址文本之间具有关联性,该瓦片地图承载了物理世界的空间信息,从而使得地址文本也与空间信息产生关联。对待处理地址文本和各候选地址文本对应的瓦片地图进行编码,得到多模态地理信息向量,该向量可表征地址文本包含的文本信息与瓦片地图包含的地理信息融合后的信息,因此多模态地理信息向量更全面丰富。然后根据多模态地理信息向量确定待处理地址文本和瓦片地图的关联度,该关联度表征待处理地址文本和瓦片地图之间的联系密切程度,关联度越大,待处理地址文本和瓦片地图之间越密切;通过对关联度进行排序操作可以获取关联度最大值,获取关联度最大值对应的多模态地理信息向量,根据关联度最大值对应的多模态地理信息向量生成待处理地址文本对应的标准化地址文本。本申请实施例通过将地址文本和瓦片地图进行关联,并结合全面丰富的多模态地理信息向量生成标准化地址文本,相较于基于单一的纯文本进行地址文本标准化的方案,提高了标准化地址文本的准确性。
本实施例的地址文本的处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二、
本申请实施例二基于实施例一的方案,以在应用过程中使用预设的地址文本库、文本编码模型、图像编码模型、融合模型以及判定模型实现本申请实施例的方案为示例,首先对如何构建地址文件库、训练文本编码模型、训练图像编码模型、训练融合模型、以及训练判定模型进行说明,以便后续使用上述构建完成的地址文本库和训练完成的模型执行所述地址文本的处理方法。具体如下:
步骤A、构建地址文本库。
可选地,在本申请的一种实施例中,预设的地址文本库通过以下方式预先构建:获取多个瓦片地图样本以及多个携带地理位置信息的地址文本样本;通过地理位置信息,为瓦片地图样本和地址文本样本建立映射关联;根据映射关联的信息建立预设的地址文本库。
其中,多个瓦片地图可以从包括有瓦片地图的平台上,通过下载、剪切或复制等方式获取。地理位置信息可以是经纬度信息或者其他能够表示地理位置的信息。在为瓦片地图和地址文本建立映射关联时,以地理位置信息为经纬度信息为例进行说明,由于瓦片地图本身是具有范围的经纬度网格,因此可以通过经纬度信息将地址文本和瓦片地图建立映射关联,映射关联结果可以是一个地址文本对应一个或多个空间关联的瓦片地图,每个瓦片地图同时有多个层级。然后根据映射关联的信息基于文本索引的方式建立地址文本库索引,从而获得预设的地址文本库。
预设的地址文本库存储有多个地址文本、以及每个地址文本对应的一个或多个空间关联的瓦片地图,每个瓦片地图同时有多个层级。本申请实施例中的预设的地址文本库可以用于为训练文本编码模型、图像编码模型、融合模型和判定模型时提供训练样本。并且,可在后续应用过程中,提供候选地址文本以及瓦片地图的召回功能。
步骤B、从构建的地址文本库中获取训练样本,并使用训练样本对文本编码模型、图像编码模型、融合模型和判定模型进行训练。
需要说明的是,本实施例中,虽以从构建的地址文本库中获取训练样本为例,但本领域技术人员应当明了的是,其它获取训练样本的方式也同样适用于本实施例的方案。
可选地,在本申请的一种实施例中,文本编码模型、图像编码模型和融合模型,可以通过以下方式预先训练:从预设的地址文本库中获取多个正样本,正样本包括地址文本样本和地址文本样本对应的多个瓦片地图样本;根据多个正样本对文本编码模型、图像编码模型和融合模型进行训练,以得到用于对地址文本进行编码并输出对应的文本向量的文本编码模型、用于对瓦片地图进行编码并输出对应的图像向量的图像编码模型、和用于进行向量融合的融合模型。
本示例中文本编码模型、图像编码模型和融合模型在训练时的训练样本为正样本,可选地,由于预设的地址文本库存储有多个地址文本、以及每个地址文本对应的一个或多个空间关联的瓦片地图,因此本示例中的正样本可以从预设的地址文本库中获取的。
本示例在对文本编码模型、图像编码模型和融合模型进行训练时,可以一起训练,也可以分开训练,直到达到训练终止条件,例如,训练次数达到预设次数,或者,损失值达到预设阈值等。对此本申请实施例不做限制。
可选地,在训练文本编码模型时,由于文本编码模型是编码模型,因此在训练文本编码模型时,还同时对文本解码模型进行训练。示例地,将地址文本样本输入初始文本编码模型,得到地址文本预测编码向量;将地址文本预测编码向量输入初始文本解码器模型,得到地址预测文本;根据地址预测文本,采用损失函数对初始文本编码模型和初始文本解码模型进行训练,直至达到训练终止条件,例如,训练次数达到预设次数,或者,损失值达到预设阈值等,得到文本编码模型和文本解码模型。需要说明的是,在文本编码器模型和文本解码器模型训练结束后,在应用阶段,只使用文本编码器模型。
此外,本申请实施例中的文本编码模型可以是任意适当的、能够对地址文本进行编码得到文本向量的模型,对于采用的文本编码模型的具体结构,此处不做限定,只要是能够对地址文本进行编码得到文本向量即可。本示例中对待处理地址文本进行编码得到文本向量的文本编码模型,可以包括但不限于神经网络(NeuralNetwork,简称NN)、卷积神经网络(Convolutional NeuralNetwork,简称CNN)、循环神经网络(Recurrent NeuralNetwork,简称RNN)、卷积循环神经网络(Convolutional Recurrent Neural Network,简称CRNN)、长短期记忆网络(Long Short-Term Memory,简称LSTM)和双向LSTM等。
可选地,在训练图像编码模型时,图像编码模型同样是编码模型,具体训练方式与文本编码模型的训练过程类似,但训练样本不同,图像编码模型使用的样本是瓦片地图样本。
此外,本申请实施例中的图像编码模型可以是任意适当的、能够对瓦片地图进行编码得到图像向量的模型,对于采用的图像编码模型的具体结构,此处不做限定,只要是能够对瓦片地图进行编码得到图像向量即可。本示例中对瓦片地图进行编码得到图像向量的图像编码模型,可以包括但不限于卷积神经网络(Convolutional NeuralNetwork,简称CNN)、GoogLeNet、AlexNet和深度卷积神经网络(VGGNet)等。
可选地,在训练融合模型时,采用损失函数,根据地址文本样本的文本向量和瓦片地图样本对应的图像向量,对初始融合模型进行训练,直至达到训练终止条件,得到训练完成的融合模型。
此外,本申请实施例中的融合模型可以是任意适当的、能够对合并向量进行融合得到多模态地理信息向量的模型,对于采用的融合模型的具体结构,此处不做限定,只要是能够对合并向量进行融合处理得到多模态地理信息向量即可。本示例中对合并向量进行融合得到多模态地理信息向量的融合模型,可以包括但不限于卷积神经网络(ConvolutionalNeuralNetwork,简称CNN)、循环神经网络(Recurrent Neural Network,简称RNN)、卷积循环神经网络(Convolutional Recurrent Neural Network,简称CRNN)等。
其中,损失函数可以是L1损失函数、L2损失函数、重构损失函数或交叉熵损失函数等,具体的损失函数可以由本领域技术人员在进行模型训练时根据模型对应的实际情况进行确定,对此本申请实施例不做限制。
在将待处理地址文本输入文本编码模型得到文本向量,瓦片地图输入图像编码模型得到图像向量后,将文本向量和图像向量进行合并得到合并向量,通过融合模型对合并向量进行融合,得到多模态地理信息向量,然后还需要根据判定模型对多模态地理信息向量进行待处理地址文本和所述瓦片地图的关联度的判定,因此,本示例还对判定模型的训练进行介绍。可选地,在本申请的一种实施例中,判定模型可以通过以下方式预先训练:从预设的地址文本库中获取多个正样本,正样本包括地址文本样本和地址文本样本对应的多个瓦片地图样本;对地址文本样本或地址文本样本对应的多个瓦片地图样本进行替换;根据替换后的地址文本样本或地址文本样本对应的多个瓦片地图样本,生成多个负样本;根据多个正样本和多个负样本对判定模型进行训练,得到能够输出地址文本和瓦片地图关联度的判定模型。
在生成多个负样本时,本申请实施例可以通过以下两个示例实现。第一个示例,对地址文本样本进行替换,根据替换后的地址文本样本、以及地址文本样本对应的多个瓦片地图样本,生成多个负样本。第二个示例,对地址文本样本对应的多个瓦片地图样本进行替换,根据地址文本样本、以及替换后的地址文本样本对应的多个瓦片地图样本,生成多个负样本;也可以理解为,根据地址文本样本、以及从其他瓦片地图中随机采样的多个瓦片地图,确定多个负样本,其他瓦片地图为滤除地址文本样本对应的多个瓦片地图样本之外的瓦片地图。通过以上两个示例生成负样本,仅替换正样本中的一部分,降低了生成负样本的成本,且通过替换方式,使得生成的负样本中地址文本样本与瓦片地图样本必然不对应,相较于随机对地址文本样本与瓦片地图样本分别进行采样的方式,提高了负样本的准确性。
根据多个正样本和多个负样本,采用损失函数对判定模型进行训练,直至达到训练终止条件,例如,训练次数达到预设次数,或者,损失值达到预设阈值等,得到判定模型。示例地,判定模型可以理解为二分类模型,正样本输入判定模型得到的关联度为1、真或ture,负样本输入判定模型得到的关联度为0、假或false。
本申请实施例中的判定模型可以是任意适当的、能够对多模态地理信息向量进行判定,并输出关联度的模型,对于采用的判定模型的具体结构,此处不做限定,只要是能够对多模态地理信息向量进行判定处理得到关联度即可。本示例中判定模型,可以包括但不限于卷积神经网络(Convolutional NeuralNetwork,简称CNN)、循环神经网络(RecurrentNeural Network,简称RNN)、卷积循环神经网络(Convolutional Recurrent NeuralNetwork,简称CRNN)等。
本申请实施例通过地理位置信息为瓦片地图样本和地址文本样本建立映射关联,基于映射关联的信息构建地址文本库,该地址文本库一方面可以为后续训练模型提供训练样本,另一方面便于根据文本解析结果召回多个候选地址文本和瓦片地图。此外,本申请实施例还从预设的地址文本库中获取多个正样本,减少了数据采集的成本。然后利用多个正样本对文本编码模型、图像编码模型和融合模型进行训练,提高了训练准确度。采用替换正样本中地址文本样本或瓦片地图样本的方式获得负样本,提高了负样本的采集效率。然后根据多个正样本和多个负样本对判定模型进行训练,提高了训练准确度。
本实施例的地址文本的处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例三、
本申请实施例三基于实施例一和实施例二的方案,可选地,本申请实施例提供的地址文本的处理方法可使用前述实施例二构建的地址文本库和训练完成的多个模型实现。具体地,可包括以下步骤:
步骤S201、对待处理地址文本进行解析,得到文本解析结果。
步骤S201与上述实施例一中的步骤S101的描述一致,在此不再赘述。
步骤S202、根据文本解析结果在预设的地址文本库中进行检索,召回多个候选地址文本。
步骤S203、从预设的地址文本库中获取各候选地址文本对应的瓦片地图。
本申请实施例中的预设的地址文本库可以用于根据文本解析结果召回多个候选地址文本以及各候选地址文本对应的瓦片地图。可选地,本示例中预设的地址文本库可以是上述实施例二中建立完成的地址文本库。
本示例中根据文本解析结果在预设的地址文本库中进行检索,召回多个候选地址文本,然后根据候选地址文本从预设的地址文本库中获取该候选地址文本对应的一个或多个空间关联的瓦片地图,提高了召回瓦片地图的准确性。
步骤S204、通过文本编码模型对待处理地址文本进行编码,得到文本向量。
可选地,本示例中的文本编码模型可以是上述实施例二中训练完成的文本编码模型。
步骤S205、根据图像编码模型对各候选地址文本对应的瓦片地图进行编码,得到瓦片地图对应的图像向量。
可选地,本示例中的图像编码模型可以是上述实施例二中训练完成的图像编码模型。
步骤S206、将文本向量和图像向量进行合并,得到合并向量。
本示例可以通过拼接的方式对文本向量和图像向量进行合并处理,得到合并向量。
步骤S207、通过融合模型对合并向量进行融合,得到多模态地理信息向量。
可选地,本示例中的融合模型可以是上述实施例二中训练完成的融合模型。该融合模型也可以是包括全连接层的网络模型。通过融合模型的全连接层实现合并向量中文本特征和图像特征之间更进一步的交互,提高融合后的多模态地理信息向量的准确性。
需要说明的是,本示例在通过融合模型对合并向量进行融合时,还可以添加注意力机制等,对需要特别突出的文本特征和图像特征增加权重,提高多模态地理信息向量的准确性,以便后续根据多模态地理信息向量判定待处理地址文本和瓦片地图的关联度。
步骤S208、将多模态地理信息向量输入判定模型,通过判定模型对待处理地址文本和瓦片地图的关联度进行判定并输出对应的关联度。
步骤S209、将关联度进行排序,获得关联度最大值对应的多模态地理信息向量。
步骤S210、若关联度最大值大于预设阈值,则根据多模态地理信息向量生成待处理地址文本对应的标准化地址文本。
在实际应用中,预设阈值可以由本领域技术人员根据实际需求适当设置,或者通过对大量的根据关联度对应的多模态地理信息向量生成标准化地址文本的处理中,对使用的大量预设阈值的分析确定,本申请实施例对此不作限制。此外,在实际应用中,不进行预设阈值判定,直接进行标准化地址文本生成的方式也同样适用本实施例的方案。
本示例中生成标准化地址文本所依据的多模态地理信息向量,需要满足以下两个条件,一是多模态地理信息向量对应的关联度为最大值,二是关联度为最大值大于预设阈值,从而使得根据多模态地理信息向量生成的标准化地址文本更准确。
本申请实施例通过解析、检索的步骤召回多个候选地址文本,并在预设的地址文本库中获取各候选地址文本对应的瓦片地图,该瓦片地图与待处理地址文本之间具有关联性,该瓦片地图承载了物理世界的空间信息,从而使得地址文本也与空间信息产生关联。通过文本编码模型对待处理地址进行文本编码,通过图像编码对瓦片地图进行图像编码,提高了文本向量和图像向量的准确度。文本向量和图像向量进行合并得到合并向量,通过融合模型对合并向量进行融合,实现合并向量中文本特征和图像特征之间更进一步的交互,提高融合后得到多模态地理信息向量的准确性。该多模态地理信息向量可表征地址文本包含的文本信息与瓦片地图包含的地理信息融合后的信息,因此多模态地理信息向量更全面丰富。然后判定模型根据多模态地理信息向量确定待处理地址文本和瓦片地图的关联度,该关联度表征待处理地址文本和瓦片地图之间的联系密切程度;通过对关联度进行排序操作可以获取关联度最大值,若关联度最大值大于预设阈值,则说明待处理地址文本为能够进行标准化处理的地址文本。然后根据关联度最大值对应的多模态地理信息向量生成标准化地址文本,通过设置关联度最大值以及大于预设阈值的条件,提高了标准化地址文本的准确性。
本实施例的地址文本的处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例四、
列举一个具体地示例对本申请实施例中对地址文本的处理进行说明,具体如下。如图3所示,图3为本申请实施例提供的一种离线建立地址文本库及模型训练的步骤流程图。
步骤S301、获取瓦片地图样本和携带经纬度信息的地址文本样本。
示例地,多个瓦片地图样本可以从包括有瓦片地图的平台上,通过下载、剪切或复制等方式获取。并获取海量的携带经纬度信息的地址文本样本。
步骤S302、将携带经纬度信息的地址文本样本映射到瓦片地图样本。
通过经纬度信息将海量的地址文本样本和瓦片地图样本进行映射关联,因为瓦片地图样本本身是具有范围的经纬度网格,可以通过地址文本样本的经纬度信息将地址文本样本和瓦片地图样本之间建立关联,最终关联结果为一个地址文本样本对应一个或多个空间关联的瓦片地图样本,且每个瓦片地图样本同时有多个层级。
步骤S303、建立地址文本库。
本示例中按照常规索引方式,根据映射关联的信息基于文本索引的方式建立地址文本索引,从而获得预设的地址文本库。常规索引方式可以由本领域技术人员进行设置,包括但不限于遍历法、多字段索引方式和短语查询方式等,对此本示例不做限制,只要是能够通过该索引方式在预设的地址文本库中召回多个候选地址文本以及各候选地址文本对应的瓦片地图即可。
步骤S304、根据瓦片地图样本和地址文本样本训练深度神经网络判定模型。
将地址文本样本对应的文本向量和瓦片地图样本对应的图像向量进行融合后得到多模态地理信息向量样本,该判定模型负责对多模态地理信息向量样本进行关联度判定,并对关联度进行打分。
步骤S305、根据瓦片地图样本和地址文本样本训练深度神经网络生成模型。
该生成模型负责将多模态地理信息向量样本进行文本生成,生成结果是最终的标准化地址文本。
上述网络模型的示意图如图4所示,以下通过图4结合地址文本的处理过程对各个模型进行具体说明。为便于描述,图4中以非标地址文本表示待处理地址文本。
1、本示例中网络模型包括多模态混合模型;用于对多模态地理信息向量进行判定,输出地址文本和瓦片地图关联度的判定模型(图4中以DNN模型示出);和用于根据多模态地理信息向量生成标准化地址文本生成模型(图4中以LSTM模型示出)。其中,多模态混合模型用于将地址文本对应的文本向量和瓦片地图对应的图像向量进行融合后得到多模态地理信息向量,图4中多模态混合模型包括用于对地址文本进行编码并输出对应的文本向量的文本编码模型(图4中以LSTM模型示出)、用于对瓦片地图进行编码并输出对应的图像向量的图像编码模型(图4中以VGG模型示出)、和用于进行向量融合的融合模型(图4中以DNN模型示出)。
2、多模态混合模型输入为一个地址文本和多个层级的瓦片地图(图4中以瓦片地图1、瓦片地图2和瓦片地图3示出),输出为一个多模态地理信息向量。
具体地,通过图4中LSTM模型对地址文本进行文本编码,得到文本向量;同时瓦片地图通过图4中VGG模型,得到图像向量。然后将文本向量和多个图像向量进行合并后,通过一个图4中DNN模型进行向量融合,得到最终的一个多模态地理信息向量。
图4中通过不同的填充线条对不同向量进行区分。
本示例中,LSTM模型、VGG模型的DNN模型在训练时的训练样本可以通过经纬度信息将地址文本和瓦片地图建立关联得到,即可以通过地址文本库进行获取。
3、图4右下角的判定模型的输入是多模态混合模型输出的多模态地理信息向量,图4中通过DNN模型对多模态地理信息向量对应的地址文本和瓦片地图是否具有关联进行判定。该DNN模型在训练时的正样本可以通过经纬度信息将地址文本和瓦片地图建立关联得到,即可以通过地址文本库进行获取;负样本可以将地址文本或地址文本对应的多个瓦片地图进行替换得到。
4、图4右上角的生成模型以LSTM模型示出,LSTM模型可以理解为RNN解码模型,该LSTM模型的目标是对满足条件的多模态地理信息向量进行解码,得到地址文本的标准化地址文本,从而实现将输入的非标地址文本生成标准化地址文本。
在建立地址文本库以及模型训练完成后,本示例可以执行地址文本标准化的步骤,结合图4中各个网络模型,图5为本申请实施例提供了一种地址文本标准化的步骤流程图,包括步骤S501-步骤S504,如图5所示,图5中以非标地址文本表示待处理地址文本。
步骤S501、对输入的非标地址文本进行文本解析,得到文本解析结果。
步骤S502、根据文本解析结果在预设的地址文本库中进行文本检索,召回多个候选地址文本,并获得各候选地址文本对应的一组瓦片地图。
步骤S503、将输入的非标地址文本和步骤S502得到的每组瓦片地图输入多模态混合模型,获得多模态地理信息向量,并根据判定模型进行关联度判定,对关联度进行打分,并将关联度打分结果按照从高到低的顺序进行排序。
步骤S504、获取步骤S503中得到的top1结果,即获取关联度最大值。若top1结果大于预设阈值,则将top1结果对应的多模态地理信息向量输入到生成模型,生成标准化地址文本;若top1结果小于或等于预设阈值,则该非标地址文本无法处理。
相关技术中,通过直接基于文本信息进行地址文本标准化处理,该文本信息难以展现地址文本的空间关系以及地址文本对应物理实体的周边环境,缺少空间关联信息,与地址本身的物理特性相违背;而且,利用地址文本和经纬度信息只能获得部分空间信息,不能考虑到空间信息的复杂性,缺少环境信息,从而降低了地址文本标准化的准确性。本申请实施例通过多模态混合模型,结合瓦片地图中多层次空间信息和地址文本信息获得多模态地理信息向量,瓦片地图本身是一种电子地图,具有丰富的空间信息,不仅包括点空间信息,也包括道路对应的线空间信息,以及区域对应的面空间信息,同时还具备多层次多分辨率的特点。本申请实施例中通过将这些空间信息与地址文本进行融合,有效提高了融合获得的多模态地理信息向量的准确性,从而使得根据多模态地理信息向量生成标准化地址文本的准确性,即提高了非标地址文本的标准化效果。
本实施例的地址文本的处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例五、
基于上述实施例一至实施例四描述的任一项地址文本的处理方法,本申请实施例提供了一种地址文本的处理装置,如图6所示,图6为本申请实施例提供的一种地址文本的处理装置,地址文本的处理装置60包括:解析模块601,用于对待处理地址文本进行解析,得到文本解析结果;检索模块602,用于根据文本解析结果检索获得待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图;编码模块603,用于对待处理地址文本和各候选地址文本对应的瓦片地图进行编码,得到多模态地理信息向量;关联模块604,用于根据多模态地理信息向量确定待处理地址文本和瓦片地图的关联度;生成模块605,用于获取关联度最大值对应的多模态地理信息向量,根据关联度最大值对应的多模态地理信息向量生成待处理地址文本对应的标准化地址文本。
可选地,在本申请的一种实施例中,检索模块602还用于根据文本解析结果在预设的地址文本库中进行检索,召回多个候选地址文本;从预设的地址文本库中获取各候选地址文本对应的瓦片地图。
可选地,在本申请的一种实施例中,地址文本的处理装置60还包括构建模块,构建模块还用于获取多个瓦片地图样本以及多个携带地理位置信息的地址文本样本;通过地理位置信息,为瓦片地图样本和地址文本样本建立映射关联;根据映射关联的信息建立预设的地址文本库。
可选地,在本申请的一种实施例中,编码模块603还用于通过文本编码模型对待处理地址文本进行编码,得到文本向量;根据图像编码模型对各候选地址文本对应的瓦片地图进行编码,得到瓦片地图对应的图像向量;将文本向量和图像向量进行合并,得到合并向量;通过融合模型对合并向量进行融合,得到多模态地理信息向量。
可选地,在本申请的一种实施例中,地址文本的处理装置60还包括训练模块,训练模块还用于从预设的地址文本库中获取多个正样本,正样本包括地址文本样本和地址文本样本对应的多个瓦片地图样本;根据多个正样本对文本编码模型、图像编码模型和融合模型进行训练,以得到用于对地址文本进行编码并输出对应的文本向量的文本编码模型、用于对瓦片地图进行编码并输出对应的图像向量的图像编码模型、和用于进行向量融合的融合模型。
可选地,在本申请的一种实施例中,关联模块604还用于将多模态地理信息向量输入判定模型,通过判定模型对待处理地址文本和瓦片地图的关联度进行判定并输出对应的关联度。
可选地,在本申请的一种实施例中,训练模块还用于从预设的地址文本库中获取多个正样本,正样本包括地址文本样本和地址文本样本对应的多个瓦片地图样本;对地址文本样本或地址文本样本对应的多个瓦片地图样本进行替换;根据替换后的地址文本样本或地址文本样本对应的多个瓦片地图样本,生成多个负样本;根据多个正样本和多个负样本对判定模型进行训练,得到能够输出地址文本和瓦片地图关联度的判定模型。
可选地,在本申请的一种实施例中,生成模块605还用于将关联度进行排序,获得关联度最大值对应的多模态地理信息向量;若关联度最大值大于预设阈值,则根据多模态地理信息向量生成待处理地址文本对应的标准化地址文本。
本申请实施例的地址文本的处理装置60用于实现前述多个方法实施例中相应的地址文本的处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本申请实施例的地址文本的处理装置60中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例六、
基于上述实施例一至实施例四描述的任一项地址文本的处理方法,本申请实施例提供了一种电子设备,需要说明的,本申请实施例的地址文本的处理方法可以由任意适当的具有地址文本的处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。如图7所示,图7为本申请实施例提供的一种电子设备的结构图。本申请具体实施例并不对电子设备的具体实现做限定。该电子设备70可以包括:处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。
其中:处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
通信接口704,用于与其它电子设备或服务器进行通信。
处理器702,用于执行计算机程序710,具体可以执行上述地址文本的处理方法实施例中的相关步骤。
具体地,计算机程序710可以包括计算机程序代码,该计算机程序代码包括计算机操作指令。
处理器702可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器706,用于存放计算机程序710。存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序710中各步骤的具体实现可以参见上述地址文本的处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
实施例七、
基于上述实施例一至实施例四所描述的地址文本的处理方法,本申请实施例提供了一种计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现如实施例一至实施例四所描述的地址文本的处理方法。
基于上述实施例一至实施例四所描述的地址文本的处理方法,本申请实施例提供了一种计算机程序产品,包括计算机指令,计算机指令指示计算设备执行如实施例一至实施例四所描述的地址文本的处理方法对应的操作。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的地址文本的处理方法。此外,当通用计算机访问用于实现在此示出的地址文本的处理方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的地址文本的处理方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例地单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。
Claims (12)
1.一种地址文本的处理方法,包括:
对待处理地址文本进行解析,得到文本解析结果;
根据所述文本解析结果检索获得所述待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图;
对所述待处理地址文本和所述各候选地址文本对应的瓦片地图进行编码,得到多模态地理信息向量;
根据所述多模态地理信息向量确定所述待处理地址文本和所述瓦片地图的关联度;
获取关联度最大值对应的多模态地理信息向量,根据所述关联度最大值对应的多模态地理信息向量生成所述待处理地址文本对应的标准化地址文本。
2.根据权利要求1所述的方法,其中,根据所述文本解析结果检索获得所述待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图,包括:
根据所述文本解析结果在预设的地址文本库中进行检索,召回多个候选地址文本;
从所述预设的地址文本库中获取各候选地址文本对应的瓦片地图。
3.根据权利要求2所述的方法,其中,所述预设的地址文本库通过以下方式预先构建:
获取多个瓦片地图样本以及多个携带地理位置信息的地址文本样本;
通过所述地理位置信息,为所述瓦片地图样本和所述地址文本样本建立映射关联;
根据所述映射关联的信息建立所述预设的地址文本库。
4.根据权利要求1-3任一项所述的方法,其中,对所述待处理地址文本和所述各候选地址文本对应的瓦片地图进行编码,得到多模态地理信息向量,包括:
通过文本编码模型对所述待处理地址文本进行编码,得到文本向量;
根据图像编码模型对所述各候选地址文本对应的瓦片地图进行编码,得到瓦片地图对应的图像向量;
将所述文本向量和所述图像向量进行合并,得到合并向量;
通过融合模型对所述合并向量进行融合,得到所述多模态地理信息向量。
5.根据权利要求4所述的方法,其中,所述文本编码模型、所述图像编码模型和所述融合模型通过以下方式预先训练:
从预设的地址文本库中获取多个正样本,所述正样本包括地址文本样本和地址文本样本对应的多个瓦片地图样本;
根据所述多个正样本对所述文本编码模型、所述图像编码模型和所述融合模型进行训练,以得到用于对地址文本进行编码并输出对应的文本向量的所述文本编码模型、用于对瓦片地图进行编码并输出对应的图像向量的所述图像编码模型、和用于进行向量融合的所述融合模型。
6.根据权利要求1-3任一项所述的方法,其中,根据所述多模态地理信息向量确定所述待处理地址文本和所述瓦片地图的关联度,包括:
将所述多模态地理信息向量输入判定模型,通过所述判定模型对所述待处理地址文本和所述瓦片地图的关联度进行判定并输出对应的关联度。
7.根据权利要求6所述的方法,其中,所述判定模型通过以下方式预先训练:
从预设的地址文本库中获取多个正样本,所述正样本包括地址文本样本和地址文本样本对应的多个瓦片地图样本;
对所述地址文本样本或所述地址文本样本对应的多个瓦片地图样本进行替换;
根据替换后的所述地址文本样本或所述地址文本样本对应的多个瓦片地图样本,生成多个负样本;
根据所述多个正样本和所述多个负样本对所述判定模型进行训练,得到能够输出地址文本和瓦片地图关联度的所述判定模型。
8.根据权利要求1所述的方法,其中,获取关联度最大值对应的多模态地理信息向量,根据所述关联度最大值对应的多模态地理信息向量生成所述待处理地址文本对应的标准化地址文本,包括:
将所述关联度进行排序,获得所述关联度最大值对应的多模态地理信息向量;
若所述关联度最大值大于预设阈值,则根据所述多模态地理信息向量生成所述待处理地址文本对应的标准化地址文本。
9.一种地址文本的处理装置,包括:
解析模块,用于对待处理地址文本进行解析,得到文本解析结果;
检索模块,用于根据所述文本解析结果检索获得所述待处理地址文本对应的多个候选地址文本,并获得各候选地址文本对应的瓦片地图;
编码模块,用于对所述待处理地址文本和所述各候选地址文本对应的瓦片地图进行编码,得到多模态地理信息向量;
关联模块,用于根据所述多模态地理信息向量确定所述待处理地址文本和所述瓦片地图的关联度;
生成模块,用于获取关联度最大值对应的多模态地理信息向量,根据所述关联度最大值对应的多模态地理信息向量生成所述待处理地址文本对应的标准化地址文本。
10.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的地址文本的处理方法对应的操作。
11.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8中任一所述的地址文本的处理方法。
12.一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如权利要求1-8中任一所述的地址文本的处理方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111028289.4A CN113642313B (zh) | 2021-09-02 | 2021-09-02 | 地址文本的处理方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111028289.4A CN113642313B (zh) | 2021-09-02 | 2021-09-02 | 地址文本的处理方法、装置、设备、存储介质及程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642313A true CN113642313A (zh) | 2021-11-12 |
CN113642313B CN113642313B (zh) | 2024-03-29 |
Family
ID=78424938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111028289.4A Active CN113642313B (zh) | 2021-09-02 | 2021-09-02 | 地址文本的处理方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642313B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115451943A (zh) * | 2022-11-11 | 2022-12-09 | 阿里巴巴(中国)有限公司 | 电子地图处理、导航方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090248605A1 (en) * | 2007-09-28 | 2009-10-01 | David John Mitchell | Natural language parsers to normalize addresses for geocoding |
US20130145043A1 (en) * | 2007-10-12 | 2013-06-06 | Microsoft Corporation | Mapping network addresses to geographical locations |
CN106547770A (zh) * | 2015-09-21 | 2017-03-29 | 阿里巴巴集团控股有限公司 | 一种基于用户地址信息的用户分类、用户识别方法及装置 |
CN110569322A (zh) * | 2019-07-26 | 2019-12-13 | 苏宁云计算有限公司 | 地址信息解析方法、装置、系统及数据获取方法 |
CN110895651A (zh) * | 2018-08-23 | 2020-03-20 | 北京京东金融科技控股有限公司 | 地址标准化处理方法、装置、设备及计算机可读存储介质 |
WO2020057432A1 (zh) * | 2018-09-17 | 2020-03-26 | 阿里巴巴集团控股有限公司 | 地址的标准化方法、装置、存储介质及计算机终端 |
CN111159973A (zh) * | 2019-12-13 | 2020-05-15 | 中关村科技软件股份有限公司 | 一种中文地址的行政区划补齐及标准化方法 |
CN111324679A (zh) * | 2018-12-14 | 2020-06-23 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法、装置和系统 |
CN112818685A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 地址匹配方法、装置、电子设备及存储介质 |
-
2021
- 2021-09-02 CN CN202111028289.4A patent/CN113642313B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090248605A1 (en) * | 2007-09-28 | 2009-10-01 | David John Mitchell | Natural language parsers to normalize addresses for geocoding |
US20130145043A1 (en) * | 2007-10-12 | 2013-06-06 | Microsoft Corporation | Mapping network addresses to geographical locations |
CN106547770A (zh) * | 2015-09-21 | 2017-03-29 | 阿里巴巴集团控股有限公司 | 一种基于用户地址信息的用户分类、用户识别方法及装置 |
CN110895651A (zh) * | 2018-08-23 | 2020-03-20 | 北京京东金融科技控股有限公司 | 地址标准化处理方法、装置、设备及计算机可读存储介质 |
WO2020057432A1 (zh) * | 2018-09-17 | 2020-03-26 | 阿里巴巴集团控股有限公司 | 地址的标准化方法、装置、存储介质及计算机终端 |
CN111324679A (zh) * | 2018-12-14 | 2020-06-23 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法、装置和系统 |
CN110569322A (zh) * | 2019-07-26 | 2019-12-13 | 苏宁云计算有限公司 | 地址信息解析方法、装置、系统及数据获取方法 |
CN111159973A (zh) * | 2019-12-13 | 2020-05-15 | 中关村科技软件股份有限公司 | 一种中文地址的行政区划补齐及标准化方法 |
CN112818685A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 地址匹配方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
GU BIN, JIN YANFENG, ZHANG CHANG: "Study on the Standardized Method of Chinese Addresses Based on Expert System", ∥PROCEEDINGS OF THE IEEE 2ND INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND INTELLIGENT SYSTEMS(CCIS) * |
向雯婷;郭旦怀;: "基于地名相似度算法与空间场景相似性评价的地址规范化研究", 科研信息化技术与应用, no. 01 * |
王勇;刘纪平;郭庆胜;罗安;: "顾及位置关系的网络POI地址信息标准化处理方法", 测绘学报, no. 05 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115451943A (zh) * | 2022-11-11 | 2022-12-09 | 阿里巴巴(中国)有限公司 | 电子地图处理、导航方法、装置、设备及存储介质 |
CN115451943B (zh) * | 2022-11-11 | 2023-09-15 | 阿里巴巴(中国)有限公司 | 电子地图处理、导航方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113642313B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN112329467B (zh) | 地址识别方法、装置、电子设备以及存储介质 | |
CN111382212B (zh) | 关联地址获取方法、装置、电子设备及存储介质 | |
CN107679189A (zh) | 一种兴趣点更新方法、装置、服务器和介质 | |
CN111522838B (zh) | 地址相似度计算方法及装置 | |
CN110990520B (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN111931077B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN111324679A (zh) | 地址信息的处理方法、装置和系统 | |
JP2023530795A (ja) | 地理的位置区域の符号化方法、符号化モデルを確立する方法、及び装置 | |
CN111896016A (zh) | 位置信息的处理方法及装置、存储介质、终端 | |
CN114579882A (zh) | 地址查询方法、获取地理编码预测模型的方法及对应装置 | |
CN115017425A (zh) | 地点检索方法、装置、电子设备以及存储介质 | |
CN113642313A (zh) | 地址文本的处理方法、装置、设备、存储介质及程序产品 | |
Tao et al. | Urban mobility prediction based on LSTM and discrete position relationship model | |
Zhang et al. | Online vehicle trajectory compression algorithm based on motion pattern recognition | |
CN113468881B (zh) | 一种地址标准化方法及装置 | |
CN107657474B (zh) | 一种商圈边界的确定方法及服务端 | |
CN114896353A (zh) | 一种地理编码方法、存储介质及系统 | |
CN114925680A (zh) | 物流兴趣点信息生成方法、装置、设备和计算机可读介质 | |
CN113139032A (zh) | 地理位置的搜索方法、装置、电子设备及存储介质 | |
CN114443983A (zh) | 模型训练、应用方法及计算机存储介质 | |
CN113076752A (zh) | 识别地址的方法和装置 | |
CN113255352A (zh) | 一种街道信息确定方法、装置及计算机设备 | |
CN113360586A (zh) | 地址聚集度查询方法、装置、设备及计算机可读存储介质 | |
CN111797183A (zh) | 挖掘信息点的道路属性的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |