CN114579883A - 地址查询方法、获取地址向量表示模型的方法及对应装置 - Google Patents

地址查询方法、获取地址向量表示模型的方法及对应装置 Download PDF

Info

Publication number
CN114579883A
CN114579883A CN202210130362.7A CN202210130362A CN114579883A CN 114579883 A CN114579883 A CN 114579883A CN 202210130362 A CN202210130362 A CN 202210130362A CN 114579883 A CN114579883 A CN 114579883A
Authority
CN
China
Prior art keywords
address
sample
vector representation
similarity
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210130362.7A
Other languages
English (en)
Inventor
丁瑞雪
黄申
刘楚
王潇斌
龙定坤
高琼
陈博理
谢朋峻
黄非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210130362.7A priority Critical patent/CN114579883A/zh
Publication of CN114579883A publication Critical patent/CN114579883A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种地址查询方法、获取地址向量表示模型的方法及对应装置。具体技术方案包括:获取检索词,所述检索词包括地址描述文本;利用预先训练得到的地址向量表示模型,获取所述地址描述文本对应的向量表示;将所述地址描述文本对应的向量表示与地理位置数据库中各地理位置信息的向量表示进行相似度计算,从所述地理位置数据库中获取所述相似度满足预设相似度条件的地理位置信息以得到第一地理位置信息;利用所述第一地理位置信息生成查询结果。本申请能够提升地址查询的召回率。

Description

地址查询方法、获取地址向量表示模型的方法及对应装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种地址查询方法、获取地址向量表示模型的方法及对应装置。
背景技术
对于地图类应用而言,地址查询是用户使用最频繁的功能之一。用户通常可以通过文本或语音的形式输入检索词来查询地址,其中检索词通常为一个地址描述文本。现有地址查询方法大多采用检索词与地理位置的信息进行字面匹配方式进行检索,但这种方式极大地受限于地址描述文本的表述方式,若输入的地址描述文本与地理位置数据库中地理位置信息的表述不一致时,经常会出现无法查询到地理位置的情况。例如,用户输入“浙一医院”,但由于该地址描述文本与“浙江大学医学院附属第一医院”的字面表述差异较大,因此会导致无法召回正确的地理位置即“浙江大学医学院附属第一医院”的信息。
发明内容
有鉴于此,本申请提供了一种地址查询方法、获取地址向量表示模型的方法及对应装置,以便于提升地址查询的召回率。
本申请提供了如下方案:
根据第一方面,提供了一种地址查询方法,包括:
获取检索词,所述检索词包括地址描述文本;
利用预先训练得到的地址向量表示模型,获取所述地址描述文本对应的向量表示;
将所述地址描述文本对应的向量表示与地理位置数据库中各地理位置信息的向量表示进行相似度计算,从所述地理位置数据库中获取所述相似度满足预设相似度条件的地理位置信息以得到第一地理位置信息;
利用所述第一地理位置信息生成查询结果。
根据本申请实施例中一可实现的方式,该方法还包括:
预先利用所述地址向量表示模型,获取所述地理位置数据库中各地理位置信息的向量表示并进行存储。
根据本申请实施例中一可实现的方式,该方法还包括采用如下方式预先训练得到地址向量表示模型:
获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本对应的相似地址样本和不相似地址样本;
利用所述训练数据训练得到所述地址向量表示模型,其中,将地址描述样本、相似地址样本和不相似地址样本分别作为输入序列输入所述地址向量表示模型,得到各输入序列的向量表示,训练目标包括:最大化第一相似度与第二相似度之间的差距,所述第一相似度为地址描述样本与相似地址样本之间的相似度,所述第二相似度为该地址描述样本与不相似地址样本之间的相似度。
根据本申请实施例中一可实现的方式,所述获取包含多个训练样本的训练数据包括:
获取用户查询日志;
从所述用户查询日志选择检索词作为地址描述样本,选择该检索词对应的被点击查询结果作为该地址描述样本的相似地址样本,选择该检索词对应的未被点击查询结果作为该地址描述样本的不相似地址样本;和/或,
从所述用户查询日志选择检索词作为地址描述样本,选择该检索词在同一会话中的上下文检索词作为该地址描述样本的相似地址样本,将与该检索词不在同一会话中的检索词作为该地址描述样本的不相似地址样本。
根据本申请实施例中一可实现的方式,所述地址向量表示模型包括转换Transformer编码器、池化层和映射层;
所述Transformer编码器用以对所述输入序列中的各字符Token进行编码,得到各Token对应的向量表示;
所述池化层用以对所述各Token对应的向量表示进行池化处理;
所述映射层用以将池化处理后得到的向量表示映射到地址向量空间,得到所述输入序列的向量表示。
根据本申请实施例中一可实现的方式,该方法还包括:将所述地址描述文本在地理位置数据库中进行字面匹配,得到第二地理位置信息;
利用所述第一地理位置信息生成查询结果包括:利用所述第一地理位置信息和所述第二地理位置信息生成查询结果。
根据本申请实施例中一可实现的方式,利用所述第一地理位置信息和所述第二地理位置信息生成查询结果包括:
对所述第一地理位置信息和所述第二地理位置信息进行去重处理;
对所述去重处理后得到的地理位置信息进行排序后,按照排序结果生成所述查询结果。
根据第二方面,提供了一种获取地址向量表示模型的方法,包括:
获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本对应的相似地址样本和不相似地址样本;
利用所述训练数据训练地址向量表示模型,其中,将地址描述样本、相似地址样本和不相似地址样本分别作为输入序列输入所述地址向量表示模型,得到各输入序列的向量表示,训练目标包括最大化第一相似度与第二相似度之间的差距,所述第一相似度为地址描述样本与相似地址样本之间的相似度,所述第二相似度为该地址描述样本与不相似地址样本之间的相似度;
所述地址向量表示模型用以获取检索词所包括的地址描述文本对应的向量表示,以便于利用该向量表示对所述检索词进行地址查询。
根据本申请实施例中一可实现的方式,所述获取包含多个训练样本的训练数据包括:
获取用户查询日志;
从所述用户查询日志选择检索词作为地址描述样本,选择该检索词对应的被点击查询结果作为所述地址描述样本的相似地址样本,选择该检索词对应的未被点击查询结果作为所述地址描述样本的不相似地址样本。
根据本申请实施例中一可实现的方式,所述地址向量表示模型包括转换Transformer编码器、池化层和映射层;
所述Transformer编码器用以对所述输入序列中的各字符Token进行编码,得到各Token对应的向量表示;
所述池化层用以对所述各Token对应的向量表示进行池化处理;
所述映射层用以将池化处理后得到的向量表示映射到地址向量空间,得到所述输入序列的向量表示。
根据第三方面,提供了一种地址查询装置,包括:
输入获取单元,被配置为获取检索词,所述检索词包括地址描述文本;
向量获取单元,被配置为利用预先训练得到的地址向量表示模型,获取所述地址描述文本对应的向量表示;
向量匹配单元,被配置为将所述地址描述文本对应的向量表示与地理位置数据库中各地理位置信息的向量表示进行相似度计算,从所述地理位置数据库中获取所述相似度满足预设相似度条件的地理位置信息以得到第一地理位置信息;
结果生成单元,被配置为利用所述第一地理位置信息生成查询结果。
根据第四方面,提供了一种获取地址向量表示模型的装置,包括:
数据获取单元,被配置为获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本对应的相似地址样本和不相似地址样本;
模型训练单元,被配置为利用所述训练数据训练地址向量表示模型,其中,将地址描述样本、相似地址样本和不相似地址样本分别作为输入序列输入所述地址向量表示模型,得到各输入序列的向量表示,训练目标包括最大化第一相似度与第二相似度之间的差距,所述第一相似度为地址描述样本与相似地址样本之间的相似度,所述第二相似度为该地址描述样本与不相似地址样本之间的相似度;
所述地址向量表示模型用以获取检索词所包括的地址描述文本对应的向量表示,以便于利用该向量表示对所述检索词进行地址查询。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
根据第六方面,提供了一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请的技术方案可以具备以下优点:
1)本申请提出了一种新的地址查询机制,通过将地址描述文本进行向量化后,将地址描述文本的向量表示与地理位置数据库中各地理位置信息的向量表示进行相似度匹配来获得查询结果,相比较字面匹配的方式提高了地址查询的召回率。
2)可以看出,地址向量表示模型基于用户查询日志学习相似地理文本之间的语义相关性,使其在地址向量空间的表示更接近,而不必拘泥于字面表达。
3)本申请实施例可以采用两路地址查询,一路采用字面匹配方式,另一路采用基于地址描述文本的向量表示进行匹配的方式。即便用户在检索词中出现了与地理位置信息表述不一致而造成字面匹配无法召回地理位置信息的情况,也可以通过检索词中地址描述文本的向量表示进行匹配得到相关地理位置信息,提高了召回率。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的示例性系统架构;
图2为本申请实施例提供的地址查询方法的主要流程图;
图3为本申请实施例提供的一种建立地址向量表示模型的方法流程图;
图4为本申请实施例提供的地址向量表示模型的结构示意图;
图5为本申请实施例提供的地址向量表示模型的训练框架示意图;
图6本申请实施例提供的另一种地理查询方法的流程图;
图7示出根据一个实施例的地址查询装置的示意性框图;
图8示出根据一个实施例的获取地址向量表示模型的装置的示意性框图;
图9示例性的展示出了电子设备的架构。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1示出了可以应用本申请实施例的示例性系统架构。图1示出了可以应用本发明实施例的示例性系统架构。如图1所示,该系统架构可以包括终端设备101和102,网络103、服务器104和地理位置数据库105。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用,例如地图类应用、语音交互类应用、网页浏览器应用、通信类应用等。
终端设备101和102可以是各种用户设备,包括但不限于诸如:智能移动终端、智能家居设备、可穿戴式设备、PC(个人计算机)等。其中智能移动设备可以包括诸如手机、平板电脑、笔记本电脑、PDA(个人数字助理)、互联网汽车等。智能家居设备可以包括智能家电设备,诸如智能电视、智能冰箱等等。可穿戴式设备可以包括诸如智能手表、智能眼镜、智能手环、虚拟现实设备、增强现实设备、混合现实设备(即可以支持虚拟现实和增强现实的设备)等等。服务器104可以是单一服务器,也可以是多个服务器构成的服务器群组,还可以是服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器服务中存在的管理难度大,服务扩展性弱的缺陷。
本发明所提供的地址查询装置可以设置并运行于上述服务器104中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
例如,地址查询装置设置并运行于上述服务器104中,服务器104可以接收终端设备101或102的地址查询请求,该地址查询请求中包含检索词。地址查询装置使用本申请实施例提供的方式进行地址查询,并将查询结果返回终端设备101或102。在服务器104端维护有地理位置数据库105,该地理位置数据库105可以存储于服务器104本地,也可以存储于其他服务器中由服务器104进行调用。服务器104也能够获取并记录用户使用地图类应用的相关行为,从而形成诸如历史查询日志、历史浏览日志等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2为本申请实施例提供的地址查询方法的主要流程图,该方法由图1所示系统中的服务器端执行,如图2中所示,该方法可以包括以下步骤:
步骤201:获取检索词,检索词包括地址描述文本。
步骤202:利用预先训练得到的地址向量表示模型,获取地址描述文本对应的向量表示。
步骤203:将地址描述文本对应的向量表示与地理位置数据库中各地理位置信息的向量表示进行相似度计算,从地理位置数据库中获取相似度满足预设相似度条件的地理位置信息以得到第一地理位置信息。
步骤204:利用第一地理位置信息生成查询结果。
可以看出,本申请提出了一种新的地址查询机制,通过将地址描述文本进行向量化后,将地址描述文本的向量表示与地理位置数据库中各地理位置信息的向量表示进行相似度匹配来获得查询结果,相比较字面匹配的方式提高了地址查询的召回率。
在此需要说明的是,本申请实施例中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分,例如“第一地理位置信息”和“第二地理位置信息”用以区分采用不同方式得到的地理位置信息。
下面对上述各步骤进行详细描述。首先结合实施例对上述步骤201即“获取检索词”进行详细描述。
当用户进行地址查询时,往往会在地址检索界面输入检索词,输入方式可以是以文本的形式在检索初始界面输入,也可以是触发语音输入组件后以语音的形式输入,然后由服务器端的语音解析装置对该语音进行解析得到对应文本。
该检索词包括地址描述文本,即用户对其所要查询的地理位置信息进行的描述,该描述可能准确,也可能不准确,或者是与通常地理位置所采用的表述不同的别称、简称、个性化称呼等等。例如用户想要查询浙江大学医学院附属第一医院的地理位置信息,可能输入检索词“浙大附属第一医院”,也可能输入检索词“浙一医院”。
下面结合实施例对上述步骤202即“利用预先训练得到的地址向量表示模型,获取地址描述文本对应的向量表示”进行详细描述。
为了更加方便理解,首先对地址向量表示模型进行详细描述。在本申请实施例中预先构建了地址向量表示模型,该地址向量表示模型能够在输入地址描述文本的情况下,将其映射至地址向量空间,得到地址描述文本的向量表示。图3为本申请实施例提供的一种建立地址向量表示模型的方法流程图,该方法可以由图1所示架构中的服务器端执行。如图3中所示,该方法可以包括以下步骤:
步骤301:获取包含多个训练样本的训练数据,训练样本包括地址描述样本对应的相似地址样本和不相似地址样本。
本实施例中的训练样本实际上是大量地址类文本构成的正、负样本对。其中,两个在语义上相似的样本构成一对正样本对,两个在语义上不相似的样本构成一对负样本对。在构建训练样本时,地址描述文本t1及其相似地址样本t2构成正样本对(t1,t2),地址描述文本t1及其不相似地址样本t3构成负样本对(t1,t3)。
作为其中一种可实现的方式,上述训练样本可以由人工进行构造。但鉴于模型训练对样本数据量的要求,在此提供一种优选的实施方式,即用户查询日志来自动获取训练样本。
作为一种可实现的方式,可以首先获取地图类应用的用户查询日志,在用户查询日志中包含了大量用户的检索词、基于该检索词所返回的查询结果以及用户对查询结果的点击信息。可以从用户查询日志选择检索词作为地址描述样本,由于地图类应用中针对用户包含地理描述样本的检索词执行的通常是结构化搜索,即返回的搜索结果为地理位置信息。因此,可以选择该检索词对应的被点击查询结果作为该地址描述样本的相似地址样本,选择该检索词对应的未被点击查询结果作为地址描述样本的不相似地址样本。
可以理解,用户在输入了检索词后,若在查询结果中选择了某查询结果,则在很大程度上说明该查询结果是用户所需求的,即用户输入检索词在语义上是指向该查询结果的,检索词与该查询结果在语义上存在高度相似。
上述在选取相似地址样本和不相似地址样本时,可以选择被点击查询结果或未被点击查询结果的名称、地址等地址文本。
举个例子,假设在用户查询日志中,用户A的检索词为“浙大附属第一医院”,在返回的查询结果中,用户点击了“浙江大学医学院附属第一医院(总部)”,则可以将“浙大附属第一医院”作为地址描述样本,“浙江大学医学院附属第一医院(总部)”作为该地址描述样本的相似地址样本,将查询结果中用户未点击的“浙江大学医学院”、“浙江省第一医院”等分别作为该地址描述样本的不相似地址样本。
作为另一种可实现的方式,可以首先获取地图类应用的用户查询日志,在用户同一个会话中可能输入了多个检索词,往往该多个检索词是具有同一检索需求的,可能是一个检索词所返回的查询结果未能满足用户的查询需求所以又换了一种表述来继续查询。因此,可以将检索词作为地址描述样本,将该检索词在该会话中的上下文检索词作为该地址描述文本的相似地址样本,不相似地址样本可以随机选择其他会话中的检索词。
举个例子,假设用户查询日志中,用户A在同一个会话中先后输入了三个检索词“浙一医院”、“浙大附属第一医院”和“浙江大学医学院附属第一医院”,那么可以将“浙一医院”作为地址描述样本,“浙大附属第一医院”和“浙江大学医学院附属第一医院”均可以作为该地址描述样本的相似地址样本。用户A在其他会话中输入了检索词“杭州口腔医院”,则可以将其作为“浙一医院”的不相似地址样本。
作为再一种可实现的方式,在普通大搜索中,即非结构化搜索中,也可以利用大搜索的用户查询日志。例如,用户在搜索框中输入“浙一医院”,在返回的查询结果中包含的是大量网页,若用户点击的网页标题中包含地理位置信息,则可以将“浙一医院”作为地址描述样本,将该用户点击的网页标题中包含的地理位置信息作为该地址描述样本的相似地址样本,将该用户未点击的网页标题中包含的地理位置信息作为该地址描述样本的不相似地址样本。
采用上述方式可以获取大量的训练样本,从而构成训练地址向量表示模型所使用的训练数据。
步骤302:利用训练数据训练得到地址向量表示模型,其中,将地址描述样本、相似地址样本和不相似地址样本分别作为输入序列输入地址向量表示模型,得到各输入序列的向量表示,训练目标包括:最大化第一相似度与第二相似度之间的差距,第一相似度为地址描述样本与相似地址样本之间的相似度,第二相似度为该地址描述样本与不相似地址样本之间的相似度。
本实施例提供的地址向量表示模型的结构可以如图4中所示,包括Transformer编码器、池化(Pooling)层和映射层。
其中,Transformer编码器用以对输入序列中的各字符进行编码,得到各对应的向量表示。
在Transformer编码器中主要包括Embedding(嵌入)层和Transformer网络层(图中未示出该具体结构)。其中,Embedding层会先对输入序列中的各字符进行Embedding处理,该Embedding处理可以包括诸如词Embedding、位置Embedding等。其中,词Embedding是将各字符进行词向量编码,得到词向量表示。位置Embedding,即将各字符在输入序列中的位置进行编码,得到位置的表示。Transformer网络层将各字符的词向量表示和位置的表示经过注意力机制的处理后,得到各字符的向量表示。
其中Transformer编码器在初始时可以采用诸如BERT(Bidirectional EncoderRepresentations from Transformers,来自Transformer的双向编码器表示)、XLNet、ERNIE(Enhanced Representation through Knowledge Integration,通过知识继承的增强表示)等预训练语言模型。
池化层用以对各Token对应的向量表示进行池化处理,目的是为了通过降维来降低计算和空间复杂度。可以采用诸如最大池化、平均池化等方式。
映射层用以将池化处理后得到的向量表示映射到地址向量空间,得到输入序列的向量表示。映射层可以采用全连接网络来实现。
本申请实施例中,训练地址向量表示模型时可以采用双塔架构。训练架构示意图可以如图5中所示,将地址描述样本t1、相似地址样本t2和不相似地址样t3分别作为输入序列输入地址向量表示模型,得到的分别是地址描述样本的向量表示u、相似地址样本的向量表示v和不相似地址样本的向量表示v’。
计算地址描述样本的向量表示和相似地址样本的向量表示之间的相似度即sim(u,v),以及计算地址描述样本的向量表示和不相似地址样本的向量表示之间的相似度即sim(u,v’)。训练目标为最大化sim(u,v)和sim(u,v’)之间的差距,即使得sim(u,v)尽可能大,sim(u,v’)尽可能小,可以表示为:sim(u,v)>>sim(u,v’)。
其中,向量表示之间的相似度可以采用诸如余弦相似度、欧氏距离、曼哈顿距离等。
可以依据上述训练目标构造损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
例如,构造的损失函数loss可以采用如下公式:
Figure BDA0003502356680000091
其中,S-为u的不相似地址样本构成的集合。
上述公式(1)仅仅为所列举的其中一种损失函数,还可以采用其他形式的损失函数,在此不做一一列举。
可以看出,地址向量表示模型基于用户查询日志学习相似地理文本之间的语义相关性,使其在地址向量空间的表示更接近,而不必拘泥于字面表达。
继续参见图2,下面结合实施例对上述步骤203即“将地址描述文本对应的向量表示与地理位置数据库中各地理位置信息的向量表示进行相似度计算,从地理位置数据库中获取相似度满足预设相似度条件的地理位置信息以得到第一地理位置信息”。
在地址向量空间的向量表示越相似,说明对应的文本在语义上越相似,因此通过向量表示之间相似度计算的方式,能够找到与地址描述文本在语义上相关度高的地理位置信息。由于预先已经针对地理位置数据库中的各地理位置信息生成了对应的向量表示,因此本步骤仅需要将地址描述文本分别与地理位置数据库中各地理位置信息的向量表示进行相似度计算即可。
上述相似度条件可以是相似度大于或等于预设的相似度阈值,也可以是相似度排在前N个,其中N为预设的正整数。
其中地理位置信息可以包括地理位置的名称、经纬度、地址、类别等相关属性中的一种或任意组合。
但作为另一种可实现的方式,在执行上述步骤202~203的同时,还可以同时执行另一个分支,即按照字面匹配的方式来进行地址查询。如图6中所示,在执行202~203的同时,还执行以下步骤:
步骤601:将地址描述文本进行分词处理。
步骤602:将分词处理后得到的词语基于倒排索引在地理位置数据库中进行检索,得到第二地理位置信息。
上述步骤601和步骤602是其中一种字面匹配的方式,分词处理后得到的词语在地理位置数据库中进行检索时,可以检索同时包含分词处理后得到的词语的地理位置信息。其中对于分词处理后得到的词语可以基于词性、语法等进行过滤,过滤掉其中的停用词。鉴于字面匹配方式为目前成熟的技术,在此不做详述。
举个例子,用户输入检索词“浙一医院”,首先对其进行分词,得到“浙一”和“医院”,然后利用“浙一”和“医院”在地理位置数据库中进行匹配,查找同时包含“浙一”和“医院”这两个词语的地理位置信息。很可能是匹配不到任何地理位置信息的。但由于本申请还提供另一分支,还会使用步骤202和203将“浙一医院”通过地址向量表示模型映射至地址向量空间,得到“浙一医院”的向量表示后在地理位置数据库中进行匹配,从而基于潜在的语义相关性找到对应的地理位置信息。
在本实施例中,步骤204为:利用第一地理位置信息和第二地理位置信息生成查询结果。
也就是说在本实施例中是采用了两路地址查询,一路采用原有的字面匹配方式,另一路采用基于地址描述文本的向量表示进行匹配的方式。即便用户在检索词中出现了与地理位置信息表述不一致而造成字面匹配无法召回地理位置信息的情况,也可以通过检索词中地址描述文本的向量表示进行匹配得到相关地理位置信息,提高了召回率。
在本步骤中由于两路地址查询方式可能召回相同的地理位置信息,因此可以首先对第一地理位置信息和第二地理位置信息进行去重处理,然后对去重处理后的地理位置信息进行排序后,按照排序结果生成最终的查询结果用以返回给用户。
在进行排序时,可以依据检索词与查询结果中各地理位置信息之间的文本相关性、与用户画像之间的相关性、与用户历史偏好的相关性等等因素来进行排序,具体的排序策略本申请并不加以限制。
上述实施例中所提供的地址查询的方法可以应用于多种地址查询的应用场景,在此列举一种典型的应用场景:
在地图类应用或者嵌入地址查询功能的其他应用(例如打车类应用、外卖类应用)中,用户在检索框中输入包含地址描述文本的检索词后,终端设备将该检索词包含在地址查询请求中发送给服务器端。服务器端采用上述实施例中所提供的地址查询方法获取查询到的地理位置信息,在查询结果页面上向用户返回包含地理位置信息的查询结果。该查询结果可以在页面上以列表的形式展现各地理位置信息,也可以在地图背景上以特定标识的形式标记各地理位置信息,还可以采用其他形式展现。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种地址查询装置。图7示出根据一个实施例的地址查询装置的示意性框图,该装置可以为图1所示架构中服务器端的应用,或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,本发明实施例对此不进行特别限定。如图7所示,该装置700包括:输入获取单元701、向量获取单元702、向量匹配单元703和结果生成单元704,还可以进一步包括字面匹配单元705。其中各组成单元的主要功能如下:
输入获取单元701,被配置为获取检索词,检索词包括地址描述文本;
向量获取单元702,被配置为利用预先训练得到的地址向量表示模型,获取地址描述文本对应的向量表示;
向量匹配单元703,被配置为将地址描述文本对应的向量表示与地理位置数据库中各地理位置信息的向量表示进行相似度计算,从地理位置数据库中获取相似度满足预设相似度条件的地理位置信息以得到第一地理位置信息;
结果生成单元704,被配置为利用第一地理位置信息生成查询结果。
上述的向量获取单元702还可以预先利用地址向量表示模型,获取地理位置数据库中各地理位置信息的向量表示并进行存储。
字面匹配单元705,被配置为将地址描述文本在地理位置数据库中进行字面匹配,得到第二地理位置信息。
这种情况下,上述结果生成单元704可以利用第一地理位置信息和第二地理位置信息生成查询结果。
作为一种可实现的实现方式,结果生成单元704可以对第一地理位置信息和第二地理位置信息进行去重处理;对去重处理后得到的地理位置信息进行排序后,按照排序结果生成查询结果。
图8示出根据一个实施例的获取地址向量表示模型的装置的示意性框图,该装置可以为图1所示架构中服务器端的应用,或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,本发明实施例对此不进行特别限定。如图8所示,该装置800包括:数据获取单元801和模型训练单元802。其中各组成单元的主要功能如下:
数据获取单元801,被配置为获取包含多个训练样本的训练数据,训练样本包括地址描述样本对应的相似地址样本和不相似地址样本;
模型训练单元802,被配置为利用训练数据训练地址向量表示模型,其中,将地址描述样本、相似地址样本和不相似地址样本分别作为输入序列输入地址向量表示模型,得到各输入序列的向量表示,训练目标包括最大化第一相似度与第二相似度之间的差距,第一相似度为地址描述样本与相似地址样本之间的相似度,第二相似度为该地址描述样本与不相似地址样本之间的相似度;
地址向量表示模型用以获取检索词所包括的地址描述文本对应的向量表示,以便于利用该向量表示对检索词进行地址查询。
作为一种可实现的方式,数据获取单元801可以具体被配置为:获取用户查询日志;从用户查询日志选择检索词作为地址描述样本,选择该检索词对应的被点击查询结果作为该地址描述样本的相似地址样本,选择该检索词对应的未被点击查询结果作为该地址描述样本的不相似地址样本;和/或,从用户查询日志选择检索词作为地址描述样本,选择该检索词在同一会话中的上下文检索词作为该地址描述样本的相似地址样本,将与该检索词不在同一会话中的检索词作为该地址描述样本的不相似地址样本。
其中,上述地址向量表示模型可以如图4中所示,包括转换Transformer编码器、池化层和映射层。
Transformer编码器用以对输入序列中的各字符Token进行编码,得到各Token对应的向量表示;
池化层用以对各Token对应的向量表示进行池化处理;
映射层用以将池化处理后得到的向量表示映射到地址向量空间,得到输入序列的向量表示。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
其中,图9示例性的展示出了电子设备的架构,具体可以包括处理器910,视频显示适配器911,磁盘驱动器912,输入/输出接口913,网络接口914,以及存储器920。上述处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914,与存储器920之间可以通过通信总线930进行通信连接。
其中,处理器910可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器920可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器920可以存储用于控制电子设备900运行的操作系统921,用于控制电子设备900的低级别操作的基本输入输出系统(BIOS)922。另外,还可以存储网页浏览器923,数据存储管理系统924,以及地址查询装置/建立地理编码预测模型的装置925等等。上述地址查询装置/建立地理编码预测模型的装置925就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器920中,并由处理器910来调用执行。
输入/输出接口913用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口914用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线930包括一通路,在设备的各个组件(例如处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914,与存储器920)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914,存储器920,总线930等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的方法、装置和设备等进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.地址查询方法,包括:
获取检索词,所述检索词包括地址描述文本;
利用预先训练得到的地址向量表示模型,获取所述地址描述文本对应的向量表示;
将所述地址描述文本对应的向量表示与地理位置数据库中各地理位置信息的向量表示进行相似度计算,从所述地理位置数据库中获取所述相似度满足预设相似度条件的地理位置信息以得到第一地理位置信息;
利用所述第一地理位置信息生成查询结果。
2.根据权利要求1所述的方法,该方法还包括:
预先利用所述地址向量表示模型,获取所述地理位置数据库中各地理位置信息的向量表示并进行存储。
3.根据权利要求1所述的方法,该方法还包括采用如下方式预先训练得到地址向量表示模型:
获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本对应的相似地址样本和不相似地址样本;
利用所述训练数据训练得到所述地址向量表示模型,其中,将地址描述样本、相似地址样本和不相似地址样本分别作为输入序列输入所述地址向量表示模型,得到各输入序列的向量表示,训练目标包括:最大化第一相似度与第二相似度之间的差距,所述第一相似度为地址描述样本与相似地址样本之间的相似度,所述第二相似度为该地址描述样本与不相似地址样本之间的相似度。
4.根据权利要求3所述的方法,其中,所述获取包含多个训练样本的训练数据包括:
获取用户查询日志;
从所述用户查询日志选择检索词作为地址描述样本,选择该检索词对应的被点击查询结果作为该地址描述样本的相似地址样本,选择该检索词对应的未被点击查询结果作为该地址描述样本的不相似地址样本;和/或,
从所述用户查询日志选择检索词作为地址描述样本,选择该检索词在同一会话中的上下文检索词作为该地址描述样本的相似地址样本,将与该检索词不在同一会话中的检索词作为该地址描述样本的不相似地址样本。
5.根据权利要求3所述的方法,其中,所述地址向量表示模型包括转换Transformer编码器、池化层和映射层;
所述Transformer编码器用以对所述输入序列中的各字符Token进行编码,得到各Token对应的向量表示;
所述池化层用以对所述各Token对应的向量表示进行池化处理;
所述映射层用以将池化处理后得到的向量表示映射到地址向量空间,得到所述输入序列的向量表示。
6.根据权利要求1所述的方法,该方法还包括:将所述地址描述文本在地理位置数据库中进行字面匹配,得到第二地理位置信息;
利用所述第一地理位置信息生成查询结果包括:利用所述第一地理位置信息和所述第二地理位置信息生成查询结果。
7.根据权利要求6所述的方法,其中,利用所述第一地理位置信息和所述第二地理位置信息生成查询结果包括:
对所述第一地理位置信息和所述第二地理位置信息进行去重处理;
对所述去重处理后得到的地理位置信息进行排序后,按照排序结果生成所述查询结果。
8.获取地址向量表示模型的方法,包括:
获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本对应的相似地址样本和不相似地址样本;
利用所述训练数据训练地址向量表示模型,其中,将地址描述样本、相似地址样本和不相似地址样本分别作为输入序列输入所述地址向量表示模型,得到各输入序列的向量表示,训练目标包括最大化第一相似度与第二相似度之间的差距,所述第一相似度为地址描述样本与相似地址样本之间的相似度,所述第二相似度为该地址描述样本与不相似地址样本之间的相似度;
所述地址向量表示模型用以获取检索词所包括的地址描述文本对应的向量表示,以便于利用该向量表示对所述检索词进行地址查询。
9.根据权利要求8所述的方法,其中,所述获取包含多个训练样本的训练数据包括:
获取用户查询日志;
从所述用户查询日志选择检索词作为地址描述样本,选择该检索词对应的被点击查询结果作为所述地址描述样本的相似地址样本,选择该检索词对应的未被点击查询结果作为所述地址描述样本的不相似地址样本。
10.根据权利要求8所述的方法,其中,所述地址向量表示模型包括转换Transformer编码器、池化层和映射层;
所述Transformer编码器用以对所述输入序列中的各字符Token进行编码,得到各Token对应的向量表示;
所述池化层用以对所述各Token对应的向量表示进行池化处理;
所述映射层用以将池化处理后得到的向量表示映射到地址向量空间,得到所述输入序列的向量表示。
11.地址查询装置,包括:
输入获取单元,被配置为获取检索词,所述检索词包括地址描述文本;
向量获取单元,被配置为利用预先训练得到的地址向量表示模型,获取所述地址描述文本对应的向量表示;
向量匹配单元,被配置为将所述地址描述文本对应的向量表示与地理位置数据库中各地理位置信息的向量表示进行相似度计算,从所述地理位置数据库中获取所述相似度满足预设相似度条件的地理位置信息以得到第一地理位置信息;
结果生成单元,被配置为利用所述第一地理位置信息生成查询结果。
12.获取地址向量表示模型的装置,包括:
数据获取单元,被配置为获取包含多个训练样本的训练数据,所述训练样本包括地址描述样本对应的相似地址样本和不相似地址样本;
模型训练单元,被配置为利用所述训练数据训练地址向量表示模型,其中,将地址描述样本、相似地址样本和不相似地址样本分别作为输入序列输入所述地址向量表示模型,得到各输入序列的向量表示,训练目标包括最大化第一相似度与第二相似度之间的差距,所述第一相似度为地址描述样本与相似地址样本之间的相似度,所述第二相似度为该地址描述样本与不相似地址样本之间的相似度;
所述地址向量表示模型用以获取检索词所包括的地址描述文本对应的向量表示,以便于利用该向量表示对所述检索词进行地址查询。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10中任一项所述的方法的步骤。
CN202210130362.7A 2022-02-11 2022-02-11 地址查询方法、获取地址向量表示模型的方法及对应装置 Pending CN114579883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210130362.7A CN114579883A (zh) 2022-02-11 2022-02-11 地址查询方法、获取地址向量表示模型的方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210130362.7A CN114579883A (zh) 2022-02-11 2022-02-11 地址查询方法、获取地址向量表示模型的方法及对应装置

Publications (1)

Publication Number Publication Date
CN114579883A true CN114579883A (zh) 2022-06-03

Family

ID=81774925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210130362.7A Pending CN114579883A (zh) 2022-02-11 2022-02-11 地址查询方法、获取地址向量表示模型的方法及对应装置

Country Status (1)

Country Link
CN (1) CN114579883A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541421A (zh) * 2023-07-07 2023-08-04 中关村科学城城市大脑股份有限公司 地址查询信息生成方法、装置、电子设备与计算机介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541421A (zh) * 2023-07-07 2023-08-04 中关村科学城城市大脑股份有限公司 地址查询信息生成方法、装置、电子设备与计算机介质
CN116541421B (zh) * 2023-07-07 2023-09-12 中关村科学城城市大脑股份有限公司 地址查询信息生成方法、装置、电子设备与计算机介质

Similar Documents

Publication Publication Date Title
WO2021017721A1 (zh) 智能问答方法、装置、介质及电子设备
US10733507B2 (en) Semantic clustering based retrieval for candidate set expansion
US11144830B2 (en) Entity linking via disambiguation using machine learning techniques
US20050283369A1 (en) Method for speech-based data retrieval on portable devices
US20060184517A1 (en) Answers analytics: computing answers across discrete data
CN107209757B (zh) 自然语言理解缓存器
KR20150031309A (ko) 동적 언어 모델
EP2896039A2 (en) Improving phonetic pronunciation
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN114579882A (zh) 地址查询方法、获取地理编码预测模型的方法及对应装置
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
CN110727769B (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN115455161A (zh) 对话处理方法、装置、电子设备及存储介质
CN114036322A (zh) 用于搜索系统的训练方法、电子设备和存储介质
CN113947147A (zh) 目标地图模型的训练方法、定位方法及相关装置
US11170765B2 (en) Contextual multi-channel speech to text
CN116235246A (zh) 基于个性化词汇和用户简档的语音响应系统-个性化语言学ai引擎
CN117390192A (zh) 文本分类方法、装置、设备和计算机可读存储介质
CN114579883A (zh) 地址查询方法、获取地址向量表示模型的方法及对应装置
CN111555960A (zh) 信息生成的方法
EP4075424B1 (en) Speech recognition method and apparatus
CN113515687B (zh) 物流信息的获取方法和装置
CN112148751B (zh) 用于查询数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination