CN114579882A - 地址查询方法、获取地理编码预测模型的方法及对应装置 - Google Patents

地址查询方法、获取地理编码预测模型的方法及对应装置 Download PDF

Info

Publication number
CN114579882A
CN114579882A CN202210129553.1A CN202210129553A CN114579882A CN 114579882 A CN114579882 A CN 114579882A CN 202210129553 A CN202210129553 A CN 202210129553A CN 114579882 A CN114579882 A CN 114579882A
Authority
CN
China
Prior art keywords
geocoding
information
address
samples
geographic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210129553.1A
Other languages
English (en)
Inventor
丁瑞雪
刘楚
黄申
王潇斌
龙定坤
高琼
陈博理
谢朋峻
黄非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210129553.1A priority Critical patent/CN114579882A/zh
Publication of CN114579882A publication Critical patent/CN114579882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种地址查询方法、获取地理编码预测模型的方法及对应装置。具体技术方案包括:获取检索词,所述检索词包括地址描述文本;利用预先训练得到的地理编码预测模型,预测所述地址描述文本对应的地理编码信息;将预测得到的地理编码信息与地理位置数据库中各地理位置的地理编码信息进行匹配,得到第一地理位置信息;利用所述第一地理位置信息生成查询结果。本申请能够提高地址查询的容错能力。

Description

地址查询方法、获取地理编码预测模型的方法及对应装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种地址查询方法、获取地理编码预测模型的方法及对应装置。
背景技术
对于地图类应用而言,地址查询是用户使用最频繁的功能之一。用户通常可以通过文本或语音的形式输入检索词来查询地址,其中检索词通常为一个地址描述文本。现有地址查询方法大多采用检索词与地理位置的信息进行字面匹配方式进行检索,先识别检索词中的区划部分(例如省、市、区等),再在对应区划对应的地理位置数据中采用字面匹配的方式查询地址信息。这种方式对于存在区划错误的检索词会出现无法召回查询结果的情况。例如,当用户输入检索词“重庆鸟巢国家体育场”、“海淀区鸟巢国家体育场”时,是无法在重庆市的所有地理位置以及海淀区的所有地理位置中检索到“鸟巢国家体育场”的。
发明内容
有鉴于此,本申请提供了一种地址查询方法、获取地理编码预测模型的方法及对应装置,以便于提升地址查询的容错性。
本申请提供了如下方案:
根据第一方面,提供了一种地址查询方法,包括:
获取检索词,所述检索词包括地址描述文本;
利用预先训练得到的地理编码预测模型,预测所述地址描述文本对应的地理编码信息;
将预测得到的地理编码信息与地理位置数据库中各地理位置的地理编码信息进行匹配,得到第一地理位置信息;
利用所述第一地理位置信息生成查询结果。
根据本申请实施例一可实现的方式,该方法还包括:
预先对地理位置数据库中的各地理位置进行地理编码,并存储得到的各地理位置的地理编码信息。
根据本申请实施例一可实现的方式,所述地理编码包括Geohash编码。
根据本申请实施例一可实现的方式,该方法还包括采用如下方式预先训练得到地理编码预测模型:
获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本及其对应的地理编码样本;
利用所述训练数据训练分类模型,得到所述地理编码预测模型;其中,利用地址描述样本生成输入序列以作为所述分类模型的输入,将该地址描述样本对应的地理编码样本作为所述分类模型的目标输出。
根据本申请实施例一可实现的方式,所述获取包含多个训练样本的训练数据包括:
获取用户查询日志;
从所述用户查询日志选择包括地址描述文本的检索词作为地址描述样本,确定该检索词对应的被点击查询结果,利用被点击查询结果对应的地理编码信息得到该地理描述样本对应的地理编码样本。
根据本申请实施例一可实现的方式,所述分类模型包括转换Transformer编码器、池化层和分类层;
所述Transformer编码器用以对所述输入序列中的各字符Token进行编码,得到各Token对应的向量表示;
所述池化层用以对所述各Token对应的向量表示进行池化处理;
所述分类层用以将池化处理后得到的向量表示映射至地理编码空间,预测得到地理编码信息。
根据本申请实施例一可实现的方式,该方法还包括:识别所述地址描述文本中的区划部分;将所述地址描述文本中除所述区划部分以外的其他部分,在地理位置数据库中所述区划部分对应的地理位置数据中进行字面匹配,得到第二地理位置信息;
利用所述第一地理位置信息生成查询结果包括:利用所述第一地理位置信息和所述第二地理位置信息生成查询结果。
根据本申请实施例一可实现的方式,利用所述第一地理位置信息和所述第二地理位置信息生成查询结果包括:
对所述第一地理位置信息和所述第二地理位置信息进行去重处理;
对所述去重处理后得到的地理位置信息进行排序后,按照排序结果生成所述查询结果。
根据第二方面,提供了一种获取地理编码预测模型的方法,包括:
获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本及其对应的地理编码样本;
利用所述训练数据训练分类模型,得到所述地理编码预测模型;其中,利用地址描述样本生成输入序列以作为所述分类模型的输入,将该地址描述样本对应的地理编码样本作为所述分类模型的目标输出;
所述地理编码预测模型用以预测检索词所包括的地址描述文本对应的地理编码信息,以便于利用地理编码信息对所述检索词进行地址查询。
根据本申请实施例一可实现的方式,所述获取包含多个训练样本的训练数据包括:
获取用户查询日志;
从所述用户查询日志选择包括地址描述文本的检索词作为地址描述样本,确定该检索词对应的被点击查询结果,利用被点击查询结果对应的地理编码信息得到该地理描述样本对应的地理编码样本。
根据本申请实施例一可实现的方式,所述分类模型包括转换Transformer编码器、池化层和分类层;
所述Transformer编码器用以对所述输入序列中的各字符Token进行编码,得到各Token对应的向量表示;
所述池化层用以对所述各Token对应的向量表示进行池化处理;
所述分类层用以将池化处理后得到的向量表示映射至地理编码空间,预测得到地理编码信息。
根据第三方面,提供了一种地址查询装置,包括:
输入获取单元,被配置为获取检索词,所述检索词包括地址描述文本;
编码预测单元,被配置为利用预先训练得到的地理编码预测模型,预测所述地址描述文本对应的地理编码信息;
地址匹配单元,被配置为将所述编码预测单元预测得到的地理编码信息与地理位置数据库中各地理位置的地理编码信息进行匹配,得到第一地理位置信息;
结果生成单元,被配置为利用所述第一地理位置信息生成查询结果。
根据第四方面,提供了一种获取地理编码预测模型的装置,包括:
数据获取单元,被配置为获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本及其对应的地理编码样本;
模型训练单元,被配置为利用所述训练数据训练分类模型,得到所述地理编码预测模型;其中,利用地址描述样本生成输入序列以作为所述分类模型的输入,将该地址描述样本对应的地理编码样本作为所述分类模型的目标输出;
所述地理编码预测模型用以预测检索词所包括的地址描述文本对应的地理编码信息,以便于利用地理编码信息对所述检索词进行地址查询。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面和第二方面中任一项所述的方法的步骤。
根据第六方面,提供了一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面和第二方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请的技术方案可以具备以下优点:
1)本申请提出了一种新的地址查询机制,通过地理编码预测模型预测地理描述文本对应的地理编码信息,从而利用地理编码信息在地理位置数据库中匹配来得到查询结果,相比较字面匹配的方式提高了地址查询的容错能力。
2)地理编码预测模型基于大量的地址描述样本和地理编码样本学习两者之间的相关性,使得地理编码预测模型能够很好地理解用户输入的地址描述文本,确定其映射到的地理编码信息。
3)本申请实施例可以采用两路地址查询,一路采用字面匹配方式,另一路采用基于预测得到的地理编码进行匹配的方式。即便用户在检索词中出现了诸如区划错误等造成字面匹配无法召回地理位置信息,也可以通过预测得到的地理编码进行匹配得到相关地理位置信息,提高了容错率和召回率。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的示例性系统架构;
图2为本申请实施例提供的地址查询方法的主要流程图;
图3为本申请实施例提供的一种建立地理编码预测模型的方法流程图;
图4为本申请实施例提供的地理编码预测模型的结构示意图;
图5为本申请实施例提供的另一种地理查询方法的流程图;
图6示出根据一个实施例的地址查询装置的示意性框图;
图7示出根据一个实施例的获取地理编码预测模型的装置的示意性框图;
图8示例性的展示出了电子设备的架构。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1示出了可以应用本申请实施例的示例性系统架构。图1示出了可以应用本发明实施例的示例性系统架构。如图1所示,该系统架构可以包括终端设备101和102,网络103、服务器104和地理位置数据库105。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用,例如地图类应用、语音交互类应用、网页浏览器应用、通信类应用等。
终端设备101和102可以是各种用户设备,包括但不限于诸如:智能移动终端、智能家居设备、可穿戴式设备、PC(个人计算机)等。其中智能移动设备可以包括诸如手机、平板电脑、笔记本电脑、PDA(个人数字助理)、互联网汽车等。智能家居设备可以包括智能家电设备,诸如智能电视、智能冰箱等等。可穿戴式设备可以包括诸如智能手表、智能眼镜、智能手环、虚拟现实设备、增强现实设备、混合现实设备(即可以支持虚拟现实和增强现实的设备)等等。服务器104可以是单一服务器,也可以是多个服务器构成的服务器群组,还可以是服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器服务中存在的管理难度大,服务扩展性弱的缺陷。
本发明所提供的地址查询装置可以设置并运行于上述服务器104中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
例如,地址查询装置设置并运行于上述服务器104中,服务器104可以接收终端设备101或102的地址查询请求,该地址查询请求中包含检索词。地址查询装置使用本申请实施例提供的方式进行地址查询,并将查询结果返回终端设备101或102。在服务器104端维护有地理位置数据库105,该地理位置数据库105可以存储于服务器104本地,也可以存储于其他服务器中由服务器104进行调用。服务器104也能够获取并记录用户使用地图类应用的相关行为,从而形成诸如历史查询日志、历史浏览日志等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2为本申请实施例提供的地址查询方法的主要流程图,该方法由图1所示系统中的服务器端执行,如图2中所示,该方法可以包括以下步骤:
步骤201:获取检索词,检索词包括地址描述文本。
步骤202:利用预先训练得到的地理编码预测模型,预测地址描述文本对应的地理编码信息。
步骤203:将预测得到的地理编码信息与地理位置数据库中各地理位置的地理编码信息进行匹配,得到第一地理位置信息。
步骤204:利用第一地理位置信息生成查询结果。
可以看出,本申请提出了一种新的地址查询机制,通过地理编码预测模型预测地理描述文本对应的地理编码信息,从而利用地理编码信息在地理位置数据库中匹配来得到查询结果,相比较字面匹配的方式提高了地址查询的容错能力。
在此需要说明的是,本申请实施例中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分,例如“第一地理位置信息”和“第二地理位置信息”用以区分采用不同方式得到的地理位置信息。
下面对上述各步骤进行详细描述。
为了实现上述步骤203中关于地理编码信息的匹配,在本申请实施例中首先需要对地理位置数据库中的各地理位置进行地理编码,从而得到各地理位置的地理编码信息并进行存储。
在地理位置数据库中存储有各地理位置的相关属性信息。其中各地理位置可以是地图类应用中的地理位置点,该地理位置点可以供用户查询、浏览、向用户推荐等。其中地理位置点可以包括但不限于POI(PointOfInterest,兴趣点)、AOI(AreaofInterest,兴趣面)、ROI(ReginofInterest,兴趣区域)等。这些地理位置点具有经纬度、名称、地址、类型等基本属性。
例如,地理位置点“国家体育场”,其相关属性信息可以包括:
名称:国家体育场、鸟巢体育场、鸟巢国家体育场、……
经纬度:(39.991375,116.390590)
地址:北京市朝阳区国家体育场南路1号
类型:体育场馆
地理位置编码是使用一个代码对地理位置进行表示。在本申请实施例中对地理位置进行编码可以是对地理位置的至少一种属性信息进行编码。例如可以采用Geohash的方法对地理位置的经纬度进行编码,得到地理编码信息。再例如,可以采用编码模型对地理位置的名称、经纬度、地址、类型等属性信息构成的输入序列进行编码,得到地理编码信息。只要使得一个地理位置对应唯一的地理编码即可。
下面对Geohash编码方式进行简单介绍。
对于一个经纬度而言,主要执行三个步骤:第一步将经纬度转换成二进制,分别得到经度的二进制表示和纬度的二进制表示。第二步将经度的二进制表示和纬度的二进制表示进行合并,其中经度占偶数位、纬度占奇数位。第三步将合并后的二进制表示进行Base32编码,即将合并后的二进制表示先转换为十进制表示后,再对应生成Base32码,从而得到该经纬度的地理编码。
其中,上述第一步中将经纬度转换成二进制是依据经纬度相对于各位的二进制所表示的区间位置来转换的。以经纬度(39.991375,116.390590)为例,对于维度而言,维度范围(-90,90),其中间值为0。对于纬度39.991375,在区间(0,90)中,因此得到一个1;(0,90)区间的中间值为45度,纬度39.991375小于45,因此得到一个0;(0,45)区间的中间值为22.5,纬度39.991375大于22.5,因此得到一个1;依次计算下去,即可得到纬度的二进制表示为:101110……。其中,二进制的位数越多,对经纬度的表示越精确。
由于Geohash编码是目前已经较为成熟的算法,在此仅做上述简单介绍。
下面结合实施例对上述步骤201即“获取检索词”进行详细描述。
当用户进行地址查询时,往往会在地址检索界面输入检索词,输入方式可以是以文本的形式在检索初始界面输入,也可以是触发语音输入组件后以语音的形式输入,然后由服务器端的语音解析装置对该语音进行解析得到对应文本。
该检索词包括地址描述文本,即用户对其所要查询的地理位置信息进行的描述,该描述可能准确,也可能不准确,或者存在些许错误。例如用户想要查询国家体育场的地理位置信息,可能输入检索词“鸟巢”,也可能输入检索词“国家体育中心”,但也可能因为知识的局限性而输入检索词“海淀区鸟巢国家体育场”。
下面结合实施例对上述步骤202即“利用预先训练得到的地理编码预测模型,预测地址描述文本对应的地理编码信息”进行详细描述。
为了更加方便理解,首先对地理编码预测模型进行详细描述。在本申请实施例中预先构建了地理编码预测模型,该地理编码预测模型能够在输入地址描述文本的情况下,预测该地址描述文本对应的地理编码信息。图3为本申请实施例提供的一种建立地理编码预测模型的方法流程图,该方法可以由图1所示架构中的服务器端执行。如图3中所示,该方法可以包括以下步骤:
步骤301:获取包含多个训练样本的训练数据,训练样本包括地址描述样本及其对应的地理编码样本。
训练样本实际上是大量地址描述文本和地理编码信息构成的样本对,在此将训练样本中的地址描述文本称为地址描述样本,将训练样本中的地理编码信息称为地理编码样本。
作为其中一种可实现的方式,上述训练样本可以由人工进行构造。但鉴于模型训练对样本数据量的要求,在此提供一种优选的实施方式,即基于地图类应用的用户查询日志来自动获取训练样本。
具体地,可以首先获取用户查询日志,在用户查询日志中包含了大量用户的检索词、基于该检索词所返回的查询结果以及用户对查询结果的点击信息。然后从用户查询日志选择包括地址描述文本的检索词作为地址描述样本,利用被点击查询结果对应的地理编码信息得到该地理描述样本对应的地理编码样本。
举个例子,假设在用户查询日志中,用户A的检索词为“鸟巢国家体育场”,返回的查询结果包括“国家体育场”、“国家体育场(鸟巢)-西南入口”、“国家体育场东-公交车站”、“麦当劳(国家体育场南路店)、“鸟巢3D美术馆”、“北京会展中心”等地理位置。其中用户A点击了“国家体育场”,由于在地理位置数据库中已经预先针对各地理位置生成了对应的地理编码,假设表示为地理编码a,因此可以得到一个训练样本,由“鸟巢国家体育场”和地理编码a构成。
采用这种方式可以获取大量的训练样本,从而构成训练地理编码预测模型所使用的训练数据。
步骤302:利用训练数据训练分类模型,得到地理编码预测模型;其中,利用地址描述样本生成输入序列以作为分类模型的输入,将该地址描述样本对应的地理编码样本作为分类模型的目标输出。
本申请实施例中地理编码预测模型实质上是分类模型,其结构可以如图4中所示,包括Transformer编码器、池化(Pooling)层和分类层。
其中,Transformer编码器用以对输入序列中的各字符进行编码,得到各对应的向量表示。
在Transformer编码器中主要包括Embedding(嵌入)层和Transformer网络层(图中未示出该具体结构)。其中,Embedding层会先对输入序列中的各字符进行Embedding处理,该Embedding处理可以包括诸如词Embedding、位置Embedding等。其中,词Embedding是将各字符进行词向量编码,得到词向量表示。位置Embedding,即将各字符在输入序列中的位置进行编码,得到位置的表示。Transformer网络层将各字符的词向量表示和位置的表示经过注意力机制的处理后,得到各字符的向量表示。
其中Transformer编码器在初始时可以采用诸如BERT(Bidirectional EncoderRepresentations from Transformers,来自Transformer的双向编码器表示)、XLNet、ERNIE(Enhanced Representation through Knowledge Integration,通过知识继承的增强表示)等预训练语言模型。
池化层用以对各Token对应的向量表示进行池化处理,目的是为了通过降维来降低计算和空间复杂度。可以采用诸如最大池化、平均池化等方式。
分类层用以将池化处理后得到的向量表示映射至地理编码空间,预测得到地理编码信息。
该分类模型将所输入地址描述样本对应的地理编码样本作为目标输出,即训练目标为最小化分类模型预测得到的地理编码信息与地理编码样本之间的差异。可以依据上述训练目标构造损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
可以看出,地理编码预测模型基于大量的地址描述样本和地理编码样本学习两者之间的相关性,使得地理编码预测模型能够很好地理解用户输入的地址描述文本,确定其映射到的地理编码信息。
继续参见图2,下面结合实施例对上述步骤203即“将预测得到的地理编码信息与地理位置数据库中各地理位置的地理编码信息进行匹配,得到第一地理位置信息”进行详细描述。
在预测得到地理编码信息后,将预测得到的地理编码信息在地理位置数据库中进行匹配。由于预先已经针对地理位置数据库中各地理位置生成并存储了地理编码信息,因此,可以通过计算预测得到的地理编码信息与地理位置数据库中各地理位置的地理编码信息之间的相似度来实现匹配。例如,可以将相似度大于或等于预设相似度阈值的地理位置信息作为匹配得到的地理位置信息。
其中,地理编码信息之间的相似度可以采用但不限于Hamming(汉明)距离、Levenshtein(莱文斯坦)距离等方式来计算。
在本步骤中可以将所有匹配得到的地理位置信息作为第一地理位置信息,也可以将匹配得到的地理位置信息中地理编码信息与预测得到的地理编码信息之间的相似度排在前预设数量的地理位置信息作为第一地理位置信息。其中地理位置信息可以包括地理位置的名称、经纬度、地址、类别等相关属性中的一种或任意组合。
作为其中一种可实现的方式,可以在上述步骤204中直接将第一地理位置信息作为查询结果,用以返回给请求地址查询的用户。
但作为另一种可实现的方式,在执行上述步骤202~203的同时,还可以同时执行另一个分支,即按照字面匹配的方式来进行地址查询。如图5中所示,在执行202~203的同时,还执行以下步骤:
步骤501:识别地址描述文本中的区划部分。
本步骤中对地理描述文本中的区划部分进行识别时,可以基于预先设置的区恶化词典,将地址描述文本与区划词典进行匹配,得到其中的区划部分。其中,区划主要包括诸如省、市、区、镇、街道等的名称。
举个例子,假设用户输入“北京鸟巢国家体育场”,将该地址描述文本与区划词典进行匹配后,识别出其中的“北京”为区划部分。假设用户输入“西安市雁塔区大雁塔”,将该地理地址描述文本与区划词典进行匹配后,识别出其中的“西安市雁塔区”为区划部分。
步骤502:将地址描述文本中除区划部分以外的其他部分,在地理位置数据库中该区划部分对应的地理位置数据中进行字面匹配,得到第二地理位置信息。
通常为了提高地址匹配的效率,地理位置数据库中的地理位置会按照区划进行存储。识别出区划部分后,在地理位置数据库中该区划部分对应的地理位置数据中进行字面匹配。在进行字面匹配时,可以将除区划部分以外的其他部分与地理位置数据库中的各地理位置的名称、经纬度、地址、类别等相关属性进行字面匹配。
例如,用户输入“北京鸟巢国家体育场”时,将“鸟巢国家体育场”在北京对应的地理位置数据中进行字面匹配,可以得到匹配结果。但若用户输入“重庆鸟巢国家体育场”时,将“鸟巢国家体育场”在重庆对应的地理位置数据中进行匹配时,则无法得到匹配结果。
字面匹配也可以采用相似度计算的方式,即计算文本之间的相似度,选择相似度大于或等于预设文本相似度阈值的地理位置信息。可以将匹配得到的地理位置信息均作为第二地理位置信息,也可以将匹配得到的地理位置信息中与地址描述文本中除区划部分以外的其他部分之间的相似度排在前预设数量的地理位置信息作为第二地理位置信息。
在该实施例中,步骤204为:利用第一地理位置信息和第二地理位置信息生成查询结果。
也就是说在本实施例中是采用了两路地址查询,一路采用原有的字面匹配方式,另一路采用基于预测得到的地理编码进行匹配的方式。即便用户在检索词中出现了诸如区划错误等造成字面匹配无法召回地理位置信息,也可以通过预测得到的地理编码进行匹配得到相关地理位置信息,提高了容错率和召回率。
在本步骤中由于两路地址查询方式可能召回相同的地理位置信息,因此可以首先对第一地理位置信息和第二地理位置信息进行去重处理,然后对去重处理后的地理位置信息进行排序后,按照排序结果生成最终的查询结果用以返回给用户。
在进行排序时,可以依据检索词与查询结果中各地理位置信息之间的文本相关性、与用户画像之间的相关性、与用户历史偏好的相关性等等因素来进行排序,具体的排序策略本申请并不加以限制。
上述实施例中所提供的地址查询的方法可以应用于多种地址查询的应用场景,在此列举一种典型的应用场景:
在地图类应用或者嵌入地址查询功能的其他应用(例如打车类应用、外卖类应用)中,用户在检索框中输入包含地址描述文本的检索词后,终端设备将该检索词包含在地址查询请求中发送给服务器端。服务器端采用上述实施例中所提供的地址查询方法获取查询到的地理位置信息,在查询结果页面上向用户返回包含地理位置信息的查询结果。该查询结果可以在页面上以列表的形式展现各地理位置信息,也可以在地图背景上以特定标识的形式标记各地理位置信息,还可以采用其他形式展现。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种地址查询装置。图6示出根据一个实施例的地址查询装置的示意性框图,该装置可以为图1所示架构中服务器端的应用,或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,本发明实施例对此不进行特别限定。如图6所示,该装置600包括:输入获取单元601、编码预测单元602、地址匹配单元603和结果生成单元604,还可以进一步包括地理编码单元605和字面匹配单元606。其中各组成单元的主要功能如下:
输入获取单元601,被配置为获取检索词,检索词包括地址描述文本。
编码预测单元602,被配置为利用预先训练得到的地理编码预测模型,预测地址描述文本对应的地理编码信息。
地址匹配单元603,被配置为将编码预测单元602预测得到的地理编码信息与地理位置数据库中各地理位置的地理编码信息进行匹配,得到第一地理位置信息。
结果生成单元604,被配置为利用第一地理位置信息生成查询结果。
地理编码单元605,被配置为预先对地理位置数据库中的各地理位置进行地理编码,并存储得到的各地理位置的地理编码信息。
作为一种可实现的方式,上述地理编码可以采用Geohash编码。
字面匹配单元606,被配置为识别地址描述文本中的区划部分;将地址描述文本中除区划部分以外的其他部分,在地理位置数据库中区划部分对应的地理位置数据中进行字面匹配,得到第二地理位置信息。
这种情况下,上述结果生成单元604可以利用第一地理位置信息和第二地理位置信息生成查询结果。
作为一种可实现的实现方式,结果生成单元604可以对第一地理位置信息和第二地理位置信息进行去重处理;对去重处理后得到的地理位置信息进行排序后,按照排序结果生成查询结果。
图7示出根据一个实施例的获取地理编码预测模型的装置的示意性框图,该装置可以为图1所示架构中服务器端的应用,或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,本发明实施例对此不进行特别限定。如图7所示,该装置700包括:数据获取单元701和模型训练单元702。其中各组成单元的主要功能如下:
数据获取单元701,被配置为获取包含多个训练样本的训练数据,训练样本包括地址描述样本及其对应的地理编码样本。
模型训练单元702,被配置为利用训练数据训练分类模型,得到地理编码预测模型;其中,利用地址描述样本生成输入序列以作为分类模型的输入,将该地址描述样本对应的地理编码样本作为分类模型的目标输出。上述的地理编码预测模型用以预测检索词所包括的地址描述文本对应的地理编码信息,以便于利用地理编码信息对检索词进行地址查询。
作为一种可实现的方式,上述数据获取单元701可以具体被配置为:获取用户查询日志;从用户查询日志选择包括地址描述文本的检索词作为地址描述样本,确定该检索词对应的被点击查询结果,利用被点击查询结果对应的地理编码信息得到该地理描述样本对应的地理编码样本。
其中,上述分类模型的结构可以如图4中所示,包括转换Transformer编码器、池化层和分类层。
Transformer编码器用以对输入序列中的各Token进行编码,得到各Token对应的向量表示;
池化层用以对各Token对应的向量表示进行池化处理;
分类层用以将池化处理后得到的向量表示映射至地理编码空间,预测得到地理编码信息。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
其中,图8示例性的展示出了电子设备的架构,具体可以包括处理器810,视频显示适配器811,磁盘驱动器812,输入/输出接口813,网络接口814,以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820之间可以通过通信总线830进行通信连接。
其中,处理器810可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器820可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821,用于控制电子设备800的低级别操作的基本输入输出系统(BIOS)822。另外,还可以存储网页浏览器823,数据存储管理系统824,以及地址查询装置/建立地理编码预测模型的装置825等等。上述地址查询装置/建立地理编码预测模型的装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器820中,并由处理器810来调用执行。
输入/输出接口813用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口814用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线830包括一通路,在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,存储器820,总线830等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.地址查询方法,包括:
获取检索词,所述检索词包括地址描述文本;
利用预先训练得到的地理编码预测模型,预测所述地址描述文本对应的地理编码信息;
将预测得到的地理编码信息与地理位置数据库中各地理位置的地理编码信息进行匹配,得到第一地理位置信息;
利用所述第一地理位置信息生成查询结果。
2.根据权利要求1所述的方法,该方法还包括:
预先对地理位置数据库中的各地理位置进行地理编码,并存储得到的各地理位置的地理编码信息。
3.根据权利要求1或2所述的方法,其中,所述地理编码包括Geohash编码。
4.根据权利要求1所述的方法,该方法还包括采用如下方式预先训练得到地理编码预测模型:
获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本及其对应的地理编码样本;
利用所述训练数据训练分类模型,得到所述地理编码预测模型;其中,利用地址描述样本生成输入序列以作为所述分类模型的输入,将该地址描述样本对应的地理编码样本作为所述分类模型的目标输出。
5.根据权利要求4所述的方法,其中,所述获取包含多个训练样本的训练数据包括:
获取用户查询日志;
从所述用户查询日志选择检索词作为地址描述样本,确定该检索词对应的被点击查询结果,利用被点击查询结果对应的地理编码信息得到该地理描述样本对应的地理编码样本。
6.根据权利要求4所述的方法,其中,所述分类模型包括转换Transformer编码器、池化层和分类层;
所述Transformer编码器用以对所述输入序列中的各字符Token进行编码,得到各Token对应的向量表示;
所述池化层用以对所述各Token对应的向量表示进行池化处理;
所述分类层用以将池化处理后得到的向量表示映射至地理编码空间,预测得到地理编码信息。
7.根据权利要求1所述的方法,该方法还包括:识别所述地址描述文本中的区划部分;将所述地址描述文本中除所述区划部分以外的其他部分,在地理位置数据库中所述区划部分对应的地理位置数据中进行字面匹配,得到第二地理位置信息;
利用所述第一地理位置信息生成查询结果包括:利用所述第一地理位置信息和所述第二地理位置信息生成查询结果。
8.根据权利要求7所述的方法,其中,利用所述第一地理位置信息和所述第二地理位置信息生成查询结果包括:
对所述第一地理位置信息和所述第二地理位置信息进行去重处理;
对所述去重处理后得到的地理位置信息进行排序后,按照排序结果生成所述查询结果。
9.获取地理编码预测模型的方法,包括:
获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本及其对应的地理编码样本;
利用所述训练数据训练分类模型,得到所述地理编码预测模型;其中,利用地址描述样本生成输入序列以作为所述分类模型的输入,将该地址描述样本对应的地理编码样本作为所述分类模型的目标输出;
所述地理编码预测模型用以预测检索词所包括的地址描述文本对应的地理编码信息,以便于利用地理编码信息对所述检索词进行地址查询。
10.根据权利要求9所述的方法,其中,所述获取包含多个训练样本的训练数据包括:
获取用户查询日志;
从所述用户查询日志选择包括地址描述文本的检索词作为地址描述样本,确定该检索词对应的被点击查询结果,利用被点击查询结果对应的地理编码信息得到该地理描述样本对应的地理编码样本。
11.根据权利要求9所述的方法,其中,所述分类模型包括转换Transformer编码器、池化层和分类层;
所述Transformer编码器用以对所述输入序列中的各字符Token进行编码,得到各Token对应的向量表示;
所述池化层用以对所述各Token对应的向量表示进行池化处理;
所述分类层用以将池化处理后得到的向量表示映射至地理编码空间,预测得到地理编码信息。
12.地址查询装置,包括:
输入获取单元,被配置为获取检索词,所述检索词包括地址描述文本;
编码预测单元,被配置为利用预先训练得到的地理编码预测模型,预测所述地址描述文本对应的地理编码信息;
地址匹配单元,被配置为将所述编码预测单元预测得到的地理编码信息与地理位置数据库中各地理位置的地理编码信息进行匹配,得到第一地理位置信息;
结果生成单元,被配置为利用所述第一地理位置信息生成查询结果。
13.获取地理编码预测模型的装置,包括:
数据获取单元,被配置为获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本及其对应的地理编码样本;
模型训练单元,被配置为利用所述训练数据训练分类模型,得到所述地理编码预测模型;其中,利用地址描述样本生成输入序列以作为所述分类模型的输入,将该地址描述样本对应的地理编码样本作为所述分类模型的目标输出;
所述地理编码预测模型用以预测检索词所包括的地址描述文本对应的地理编码信息,以便于利用地理编码信息对所述检索词进行地址查询。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至11中任一项所述的方法的步骤。
CN202210129553.1A 2022-02-11 2022-02-11 地址查询方法、获取地理编码预测模型的方法及对应装置 Pending CN114579882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210129553.1A CN114579882A (zh) 2022-02-11 2022-02-11 地址查询方法、获取地理编码预测模型的方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210129553.1A CN114579882A (zh) 2022-02-11 2022-02-11 地址查询方法、获取地理编码预测模型的方法及对应装置

Publications (1)

Publication Number Publication Date
CN114579882A true CN114579882A (zh) 2022-06-03

Family

ID=81773549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210129553.1A Pending CN114579882A (zh) 2022-02-11 2022-02-11 地址查询方法、获取地理编码预测模型的方法及对应装置

Country Status (1)

Country Link
CN (1) CN114579882A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541421A (zh) * 2023-07-07 2023-08-04 中关村科学城城市大脑股份有限公司 地址查询信息生成方法、装置、电子设备与计算机介质
CN116612421A (zh) * 2023-07-20 2023-08-18 山东高速股份有限公司 一种融合多源空间数据的建成环境识别方法及设备
CN117786032A (zh) * 2023-12-29 2024-03-29 北京市测绘设计研究院 一种地址查询方法、系统、电子设备及存储介质
CN118013464A (zh) * 2024-04-07 2024-05-10 浙江口碑网络技术有限公司 一种地理交通数据处理方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810194A (zh) * 2012-11-11 2014-05-21 刘龙 一种地理编码方法、位置查询系统及方法
CN112528020A (zh) * 2020-12-02 2021-03-19 中国电子进出口有限公司 一种文本分类方法及装置
CN113536070A (zh) * 2021-08-11 2021-10-22 汉唐信通(北京)咨询股份有限公司 一种地址解析方法、系统、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810194A (zh) * 2012-11-11 2014-05-21 刘龙 一种地理编码方法、位置查询系统及方法
CN112528020A (zh) * 2020-12-02 2021-03-19 中国电子进出口有限公司 一种文本分类方法及装置
CN113536070A (zh) * 2021-08-11 2021-10-22 汉唐信通(北京)咨询股份有限公司 一种地址解析方法、系统、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田沁: ""基于深度学习和空间关系的中文地理编码方法改进及质量评价研究"", 《万方数据》, 30 June 2021 (2021-06-30), pages 2 - 3 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541421A (zh) * 2023-07-07 2023-08-04 中关村科学城城市大脑股份有限公司 地址查询信息生成方法、装置、电子设备与计算机介质
CN116541421B (zh) * 2023-07-07 2023-09-12 中关村科学城城市大脑股份有限公司 地址查询信息生成方法、装置、电子设备与计算机介质
CN116612421A (zh) * 2023-07-20 2023-08-18 山东高速股份有限公司 一种融合多源空间数据的建成环境识别方法及设备
CN116612421B (zh) * 2023-07-20 2023-09-29 山东高速股份有限公司 一种融合多源空间数据的建成环境识别方法及设备
CN117786032A (zh) * 2023-12-29 2024-03-29 北京市测绘设计研究院 一种地址查询方法、系统、电子设备及存储介质
CN118013464A (zh) * 2024-04-07 2024-05-10 浙江口碑网络技术有限公司 一种地理交通数据处理方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN114579882A (zh) 地址查询方法、获取地理编码预测模型的方法及对应装置
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN109564571A (zh) 利用搜索上下文的查询推荐方法及系统
CN113947147B (zh) 目标地图模型的训练方法、定位方法及相关装置
US11829447B2 (en) Resident area prediction method, apparatus, device, and storage medium
CN112650858B (zh) 应急协助信息的获取方法、装置、计算机设备及介质
CN114036322A (zh) 用于搜索系统的训练方法、电子设备和存储介质
CN115455161A (zh) 对话处理方法、装置、电子设备及存储介质
CN113407851A (zh) 基于双塔模型的确定推荐信息的方法、装置、设备和介质
CN111950280A (zh) 地址匹配方法及装置
CN113642313A (zh) 地址文本的处理方法、装置、设备、存储介质及程序产品
CN112699656A (zh) 一种广告标题重写方法、装置、设备及储存介质
CN113515687B (zh) 物流信息的获取方法和装置
CN111125550A (zh) 兴趣点分类方法、装置、设备及存储介质
CN114579883A (zh) 地址查询方法、获取地址向量表示模型的方法及对应装置
CN114625971B (zh) 一种基于用户签到的兴趣点推荐方法及设备
CN112861023B (zh) 地图信息处理方法、装置、设备、存储介质及程序产品
CN110489563A (zh) 图结构的表示方法、装置、设备及计算机可读存储介质
CN116186220A (zh) 信息检索方法、问答处理方法、信息检索装置及系统
CN114925680A (zh) 物流兴趣点信息生成方法、装置、设备和计算机可读介质
CN114297235A (zh) 风险地址识别方法、系统及电子设备
CN114329236A (zh) 一种数据处理方法及装置
CN114036414A (zh) 兴趣点的处理方法、装置、电子设备、介质及程序产品
CN113468869A (zh) 一种语义分析模型生成方法、语义分析方法、装置及设备
CN112148847A (zh) 一种语音信息的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination