CN117725324A - 地图搜索方法及装置、电子设备、存储介质、程序产品 - Google Patents
地图搜索方法及装置、电子设备、存储介质、程序产品 Download PDFInfo
- Publication number
- CN117725324A CN117725324A CN202410176284.3A CN202410176284A CN117725324A CN 117725324 A CN117725324 A CN 117725324A CN 202410176284 A CN202410176284 A CN 202410176284A CN 117725324 A CN117725324 A CN 117725324A
- Authority
- CN
- China
- Prior art keywords
- search
- vector
- information
- spatial
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 105
- 239000013598 vector Substances 0.000 claims abstract description 243
- 238000012549 training Methods 0.000 claims abstract description 85
- 238000000605 extraction Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 20
- 239000012634 fragment Substances 0.000 claims description 19
- 238000013139 quantization Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 31
- 238000005516 engineering process Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 18
- 238000013473 artificial intelligence Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 17
- 238000011156 evaluation Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 9
- 238000005457 optimization Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 4
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的实施例可应用于地图领域,本申请的实施例揭示了地图搜索方法及装置、电子设备、存储介质、程序产品。该方法包括:通过空间语义模型获取搜索语句对应的空间语义向量;其中,所述空间语义模型通过历史地图搜索数据训练得到,所述历史地图搜索数据包含文本信息以及空间信息;通过空间语义索引库获取所述空间语义向量对应的召回向量;其中,所述空间语义索引库用于从位置兴趣点向量库中召回与输入向量相匹配的位置兴趣点向量,所述位置兴趣点向量库中的位置兴趣点向量也是通过所述空间语义模型获取得到的;根据所述空间语义向量对应的召回向量,确定所述搜索语句对应的搜索结果。本申请能够实现更加精确的地图搜索。
Description
技术领域
本申请涉及地图技术领域,具体涉及一种地图搜索方法及装置、电子设备、计算机可读存储介质、计算机程序产品。
背景技术
随着计算机技术和通信技术的快速发展,电子地图已经广泛地应用于人们的日常出行中,人们可以通过电子地图进行位置兴趣点(PointofInterest,POI)的搜索及定位。可以理解,POI是指有某种特定功能的区域,例如住宅、公司等。
在地图搜索引擎中,召回是搜索中的重要环节,用于实现根据用户输入的搜索语句从海量POI中召回与搜索语句相关的POI。由此,如何提升POI搜索的精确性是本领域技术人员需要不断研究的问题。
发明内容
为解决上述技术问题,本申请的实施例提供了地图搜索方法及装置、电子设备、计算机可读存储介质以及计算机程序产品。
本申请实施例的一个方面提供了一种地图搜索方法,该方法包括:通过空间语义模型获取搜索语句对应的空间语义向量;其中,所述空间语义模型通过历史地图搜索数据训练得到,所述历史地图搜索数据包含文本信息以及空间信息;通过空间语义索引库获取所述空间语义向量对应的召回向量;其中,所述空间语义索引库用于从位置兴趣点向量库中召回与输入向量相匹配的位置兴趣点向量,所述位置兴趣点向量库中的位置兴趣点向量也是通过所述空间语义模型获取得到的;根据所述空间语义向量对应的召回向量,确定所述搜索语句对应的搜索结果。
本申请实施例的另一方面提供了一种地图搜索装置,该装置包括:向量获取模块,配置为通过空间语义模型获取搜索语句对应的空间语义向量;其中,所述空间语义模型通过历史地图搜索数据训练得到,所述历史地图搜索数据包含文本信息以及空间信息;向量召回模块,配置为通过空间语义索引库获取所述空间语义向量对应的召回向量;其中,所述空间语义索引库用于从位置兴趣点向量库中召回与输入向量相匹配的位置兴趣点向量,所述位置兴趣点向量库中的位置兴趣点向量也是通过所述空间语义模型获取得到的;结果获取模块,配置为根据所述空间语义向量对应的召回向量,确定所述搜索语句对应的搜索结果。
本申请实施例的另一方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如上所述的地图搜索方法。
本申请实施例的另一方面提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的地图搜索方法。
本申请实施例的另一方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的地图搜索方法。
在本申请的实施例提供的技术方案中,一方面,通过空间语义模型获取搜索语句对应的空间语义向量,由于空间语义模型是通过包含文本信息和空间信息的历史地图搜索数据训练得到的,所得到的搜索语句对应的空间语义向量具有更好的空间刻画能力,后续基于搜索语句对应的空间语义向量来获取搜索结果能够有助于提升搜索准确性;另一方面,通过空间语义搜索库来获取搜索语句对应的空间语义向量的召回向量,由于向量搜索方式不需要像文本倒排索引方式一样需要完全匹配,只需要在向量空间有相似性,因此更加适应于复杂的地图搜索,并且位置兴趣点向量库中的位置兴趣点向量也是通过空间语义模型获取得到的,使得本申请实施例所得到的召回向量具有更高的准确性,从而进一步作用于提升搜索准确性。
应理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1是本申请的一示例性的实施环境的示意图。
图2是本申请的一示例性实施例提出的地图搜索方法的流程图。
图3是本申请的另一示例性实施例提出的地图搜索方法的流程图。
图4是一示例性的获取搜索语句对应的搜索结果的流程示意图。
图5是本申请的又一示例性实施例提出的地图搜索方法的流程图。
图6是一示例性的空间语义模型的训练架构示意图。
图7是本申请的又一示例性实施例提出的地图搜索方法的流程图。
图8是一示例性的限定搜索距离的空间语义索引库的架构图。
图9示意出了一种示例性的地图搜索整体流程的示意图。
图10是一示例性的离线测评的效果示意图。
图11是一示例性的在线评测的效果示意图。
图12是本申请的一示例性实施例示出的地图搜索装置的框图。
图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
首先需要说明的是,本申请的实施例涉及人工智能技术领域。可以理解的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。
人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请的实施例主要应用了自然语言处理技术、机器学习等技术方向。可以理解,自然语言处理(Nature Language processing,NLP)研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,自然语言处理涉及自然语言,与语言学研究密切,同时涉及计算机科学和数学、人工智能领域模型训练等重要技术。机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,用于研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,当然还包括本申请实施例涉及的地图搜索领域,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
请参阅图1,图1是本申请的一示例性的实施环境的示意图。该实施环境为一地图搜索系统,包括终端110和服务器120,终端110和服务器120之间预先建立有线或者无线的通信连接。
其中,终端110可以是智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等设备,本实施例不进行限制。终端110用于运行地图应用,可以理解的,地图应用显示有用户界面(User Interface,UI),使得用户可以在用户界面中输入搜索语句,并且通过用户界面获得搜索结果。例如在图1示例的终端110所显示的用户界面101中,当用户在搜索框中输入搜索语句“某公园的美食”并点击“搜索”按钮之后,跳转显示用户界面102,用户界面102中显示了在A市某公园附近的多个餐厅的地图数据。并且,作为示例性的实施方式,用户界面101中也可以提供语音输入的入口,使得用户在触发该入口后,可以语音输入搜索语句,也即地图应用支持根据用户语音进行地图搜索的功能,本实施例不对用户如何输入搜索语句的具体方式进行限制。
服务器120用于为终端110中运行的地图应用提供数据服务。服务器120具体可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器,本实施例并不对服务器120的具体产品形态进行限制。
示例性的,服务器120中运行有搜索引擎,在获取到终端110上传的搜索语句之后,搜索引擎首先通过空间语义模型获取搜索语句对应的空间语义向量,然后通过空间语义索引库获取搜索语句对应的空间语义向量的召回向量,最后根据得到的召回向量来确定搜索语句对应的搜索结果。搜索结果通常包括对多条搜索位置信息的排序信息,例如将多条搜索位置信息按照与搜索语句的匹配程度进行由大至小地排序后,从所得到的排序序列中选取的排名topK的若干条搜索位置信息作为搜索结果。服务器120将搜索结果发送给终端110,使得终端110对搜索结果进行显示,由此使得用户获知到搜索语句对应的搜索结果。需要说明的是,搜索引擎如何获得搜索语句对应的搜索结果的详细过程可以参见后续实施例中的记载,本实施例在此不作赘述。
在地图POI搜索场景中,需要根据用户输入的搜索语句从海量POI中召回与搜索语句相关的POI。图1示例的实施环境也可以实现为地图POI搜索场景,具体来说,服务器120根据搜索语句相应获得的搜索结果中,每一条搜索位置信息则对应一POI。
为了提升地图POI搜索的精确性,考虑到在地图搜索场景下除了语句文本对空间信息同样也很敏感;用户也可能会有口语化搜索的需求,使得搜索需求更加复杂;以及,向量搜索方式不需要像文本倒排索引一样需要完全匹配,只需要在向量空间有相似性,所以在处理复杂口语化请求或者错输请求时有着天然的优势等等。由此,本申请的实施例提出一种地图搜索方法,旨在通过该地图搜索方法获取更加精确的搜索结果。
请参阅图2,图2是本申请的一示例性实施例提出的地图搜索方法的流程图。该地图搜索方法可以适用于图1所示的实施环境,例如可以由图1所示实施环境中的终端110或服务器120具体执行。当然,该地图搜索方法可以由其它具有地图搜索应用需求的终端或者服务器具体执行,本实施例不对此进行限制。
如图2所示,在一示例性的实施例中,地图搜索方法包括S210-S230,详细介绍如下:
S210,通过空间语义模型获取搜索语句对应的空间语义向量。
首先需要说明的是,目前主流的语义向量通常是基于大量的文本语料进行训练,能够较好的刻画文本和文本之间的语义相似度。但是在地图搜索场景下,由于对空间信息同样也很敏感,因此需要构建同时具备文本信息和空间信息的刻画能力的语义模型。
本实施例由此提供了空间语义模型,由于空间语义模型是通过历史地图搜索数据训练得到,历史地图搜索数据包含文本信息以及空间信息,使得空间语义模型同时具备文本语义刻画能力和空间语义刻画能力。空间信息例如可以是城市、经纬度信息、地标位置等能够描述空间相关信息的内容,本处不作限制。因此,本实施例通过空间语义模型获取的搜索语句对应的空间语义向量不仅含有文本语义信息,还含有空间语义信息,使得在后续对该空间语义向量的召回过程中,能够基于文本语义信息和空间语义信息获得更加精确的召回结果,进而能够作用于提升搜索结果的精确性。
还需要说明的是,本实施例提及的搜索语句可以是用户直接输入的文本,例如是用户在用户界面包含的搜索框中输入的文本,也可以是对用户输入的语音进行识别所得到的文本,还可以是通过其它方式输入的文本,例如接收另一终端传输的搜索语句,本实施例不对此进行限制。
在另一示例性的实施例中,为了进一步提升空间语义模型对搜索语句的空间刻画精确程度,还可以对搜索语句进行解析,以得到搜索内容和目标搜索位置,然后将搜索内容和目标搜索位置输入至空间语义模型中,以获得空间语义模型输出的搜索语句对应的空间语义向量。也即理解为,在目标搜索位置对应的空间位置进行搜索内容的语义搜索。举例来说,若搜索语句为“B地的美食”,且用户当前所处位置为A地,通过对该搜索语句进行解析,可以得到搜索内容为“美食”,目标搜索位置为“B地”,这样能够避免空间语义模型在提取该搜索语句的空间语句向量时,错误地将用户当前所处位置刻画为目标搜索位置,由此通过先验的方式来提升语义的空间搜索精度,从而获得更加精确的空间语义向量。
另外作为示例性的实施方式,也可以将目标搜索位置、以及搜索内容与目标搜索位置的拼接字符串输入到空间语义模型中,使得后续基于得到的空间语义向量执行向量召回阶段可以避免单一请求引起的欠召回的情况,由此进一步提升召回精确性。
S220,通过空间语义索引库获取该空间语义向量对应的召回向量。
本步骤涉及流程作用于召回阶段,具体采用的是以向量搜索方式来对S210获得的搜索语句的空间语义向量进行向量召回,能够适应复杂口语化搜索请求或者错输搜索请求等情况,因此能够提升召回准确性,进而提升搜索结果的精确性。
本实施例提及的空间语义索引库具体用于从POI向量库中召回与输入向量相匹配的POI向量。需要说明的是,POI向量库中的POI向量也是通过空间语义模型获得的,这使得召回得到的向量也是同时含有文本语义信息以及空间语义信息的向量内容。
S230,根据空间语义向量对应的召回向量,确定搜索语句对应的搜索结果。
本实施例通过前述步骤可使得所获得的搜索语句对应的召回向量的准确度较高,因此根据搜索语句对应的召回向量来确定出搜索语句对应的搜索结果的精确度也相应较高。可以理解的,作为一种示例性的实施方式,可以计算出搜索语句对应的空间语义向量分别与每个召回向量之间的相关性,然后根据相关性由大至小的顺序对多个召回向量进行排序,选取排名topK的召回向量作为目标向量,将目标向量各自对应的POI信息作为最终的搜索结果。其中,排名topK理解为是相关性最高的K个召回向量,在此不对K的具体数值进行限制,可以根据实际的应用需求进行设置。
由此,在本实施例提供的技术方案中,一方面,通过空间语义模型获取搜索语句对应的空间语义向量,由于空间语义模型是通过包含文本信息和空间信息的历史地图搜索数据训练得到的,所得到的搜索语句对应的空间语义向量具有更好的空间刻画能力,后续基于搜索语句对应的空间语义向量来获取搜索结果能够有助于提升搜索准确性;另一方面,通过空间语义搜索库来获取搜索语句对应的空间语义向量的召回向量,由于向量搜索方式不需要像文本倒排索引方式一样需要完全匹配,只需要在向量空间有相似性,因此更加适应于复杂的地图搜索,并且POI向量库中的POI向量也是通过空间语义模型获取得到的,使得本申请实施例所得到的召回向量具有更高的准确性,从而进一步作用于提升搜索准确性,由此得到精确性较高的搜索结果,由此使得用户能够通过地图应用获得更好的搜索体验。
在另一示例性的实施例中,考虑到还可以通过同时搭建文本倒排索引和向量索引的方式来提升整体的搜索效果,因此还提供了如图3所示的另一地图搜索方法。
如图3所示,该示例性的地图搜索方法在图2所示实施例的基础上还包括S310-S330,详细介绍如下:
S310,通过文本倒排索引库获取搜索语句对应的召回分片数据。
在本实施例中,文本倒排索引库是用于将POI库中的POI转换为分片数据,并基于转换后的分配数据来召回与输入文本相匹配的分配数据。可以理解的是,本实施例涉及的输入文本也即是搜索语句,在文本倒排索引库中,通过将POI库中的POI按照预设分片方式将对应的经纬度信息转换为分片数据,并将分片最为关键字(Key),分片上的所有POI数据作为值(Value)构建倒排链,通过与搜索语句对应的文本倒排链进行求交,以得到召回结果,即召回分片数据。
需要理解的是,预设分片方式例如是GeoHash(一种将经纬度编码的算法)分片、转墨卡托坐标(一种地图投影坐标系)分片等方式。搜索语句对应的文本倒排链可以是根据搜索语句对应的文本语义向量构建得到的倒排链,搜索语句对应的文本语义向量例如可以通过BERT(Bidirectional Encoder Representations from Transformers)模型或者其它类似具有Transformer(编码器-解码器结构,是一种基于自注意力机制的神经网络模型,旨在捕捉输入序列中的全局依赖关系)架构或LSTM(Long Short-Term Memory,长短期记忆网络,是一种时间递归神经网络)架构的模型,本实施例不对此进行限制。
S320,通过空间语义模型获取召回分片数据对应的位置兴趣点的空间语义向量。
上述获得的召回分片也即是通过文本倒排索引方式获得的与搜索语句相关的召回结果,因此可以基于召回分片数据相应获得POI,此POI也即理解为是通过文本倒排索引方式获得的POI,通过空间语义模型则可相应获得此POI的空间语义向量。
S330,计算搜索语句对应的空间语义向量与召回向量的相似度,以及计算搜索语句对应的空间语义向量与召回分片数据对应的空间语义向量的相似度,以根据计算得到的相似度确定出搜索语句对应的搜索结果。
本实施例不仅计算搜索语句对应的空间语义向量与通过空间语义索引库获取的召回向量之间的相似度,还计算搜索语句对应的空间语义向量与召回分片数据对应的空间语义向量之间的相似度,然后汇总所有的相似度并进行相似度由大到小的排序,最后选取排名topK的相似度对应的空间语句向量所关联的POI作为搜索语句对应的搜索结果。
本实施例提供的技术方案也可以表示为如图4所示的处理流程,可以看出,针对搜索语句,不仅通过空间语义模型和空间语义索引库来获得召回向量,还获取文本倒排序召回结果,相关性计算也即是指将通过空间语义模型获得的搜索语句对应的空间语义向量分别与召回向量以及文本倒排序召回结果中包含的各向量计算相似度,最后根据相似度排序输出搜索语句对应的搜索结果。
由此,本实施例最终输出的搜索结果,是通过同时搭建文本倒排索引和空间语义向量索引的方式所共同确定出的与搜索语句相关性很高的POI信息,可以理解为,通过文本倒排索引方式得到的召回向量与搜索语句的相关性可能会比通过空间语义向量索引得到的召回向量与搜索语句的相关性更好,使得最终输出的搜索结果中包含的是综合二者索引方式所得到的与搜索语句的相关性最高的K条POI,因此能够在整体上提升POI搜索的精确度。
在另一示例性的实施例中,空间语义模型包括文本特征提取网络、空间特征提取网络和特征融合网络,并且将文本特征提取网络和空间特征提取网络的输出信号均作为特征融合网络的输入信号。文本特征提取网络用于提取输入信号的文本特征信息,空间特征提取网络用于提取输入信号的空间特征信息,特征融合网络用于对输入其中的文本特征信息和空间特征信息进行特征融合处理,相应输出融合后的特征向量。
如图5所示,在一示例性的实施例中,地图搜索方法还包括对空间语义模型进行训练的过程,具体包括S510-S530,详细介绍如下:
S510,获取当前批次的训练样本集。
首先介绍机器学习模型的训练过程所涉及的重要参数:批次(batch)和批尺寸(batch_size),1个批次表征1次迭代,每次迭代都更新1次模型网络结构的参数,批尺寸表示1次迭代所使用的训练样本量。由此,在每一次进行模型网络结构进行参数调节时,需要获取当前批次的训练样本集来对空间语义模型进行训练处理。
本实施例中用于训练空间语义模型的训练样本为历史地图搜索数据,每条历史地图搜索数据包括历史搜索请求以及相应的POI点击信息,也即,训练样本来自于地图应用中的真实的历史搜索点击数据。举例来说,一条历史地图搜索数据主要包括历史搜索请求(如搜索语句、目标搜索位置城市、目标搜索位置的经纬度信息等)和POI点击信息(如POI名称、POI地址、POI经纬度、POI标签等)。
S520,针对每一训练样本,从历史搜索请求中提取出文本信息和空间信息,将提取出的文本信息输入文本特征提取网络,以及将提取出的空间信息输入空间特征提取网络,并获取特征融合网络输出的语句特征向量,以及,从位置兴趣点点击信息中提取出文本信息和空间信息,将提取出的文本信息输入文本特征提取网络,以及将提取出的空间信息输入空间特征提取网络,并获取特征融合网络输出的位置兴趣点特征向量。
基于空间语义模型的网络结构,本实施例需要针对每一训练样本,分别从其包含的历史搜索请求中提取出文本信息和空间信息,然后将提取出的文本信息输入至文本特征提取网络,使得文本特征提取网络相应输出文本特征信息,以及将提取出的空间信息输入空间特征提取网络,使得空间特征提取网络相应输出空间特征信息,由特征融合网络对输入其中的文本特征信息以及空间特征信息进行特征融合处理后,相应输出语句特征向量;以及,从其包含的POI点击信息中提取出文本信息和空间信息,然后将提取出的文本信息输入至文本特征提取网络,使得文本特征提取网络相应输出文本特征信息,以及将提取出的空间信息输入空间特征提取网络,使得空间特征提取网络相应输出空间特征信息,由特征融合网络对输入其中的文本特征信息以及空间特征信息进行特征融合处理后,相应输出POI特征向量。
作为一种示例性的实施方式,从历史地图搜索数据包含的历史搜索请求中提取出文本信息的过程可以包括:从历史搜索请求中提取出历史搜索语句,将历史搜索语句作为文本信息。从历史地图搜索数据包含的历史搜索请求中提取出空间信息的过程可以包括:从历史搜索请求中提取出目标搜索位置所在城市、目标搜索位置的经纬度信息、目标搜索位置相关的地标中的至少一种空间信息。从历史地图搜索数据包含的POI点击信息中提取出文本信息的过程可以包括:从POI点击信息中提取出POI的描述文本、结构信息中的至少一种文本信息。从历史地图搜索数据包含的POI点击信息中提取出空间信息的过程可以包括:从POI点击信息中提取出POI所在城市、POI的经纬度信息、POI相关的地标中的至少一种空间信息。
需要说明的是,文本特征提取网络可以包括依次连接的特征提取网络层和池化层,特征提取网络层可以采用BERT模型或者其它类似具有Transformer架构或LSTM架构的模型,在此不进行限制。在特征提取网络层采用BERT模型的情况下,可以取最后一层的平均输出信号作为文本信息的文本语义特征表示,以获得包含更加丰富的信息内容的文本语义特征。
从历史搜索请求中提取出目标搜索位置相关的地标或者从POI点击信息中提取出POI相关的地标的过程可以包括:根据目标搜索位置或者POI的经纬度信息,获取位于该目标搜索位置或者该POI所在的地图范围内的地标集合,然后按照点击热度由大至小的顺序对地标集合中的地标进行排序,并选取指定排名的一个或多个地标作为该目标搜索位置或者该POI相关的地标。可以理解,地标来源可以是地图数据中人工识别的地标,例如商圈、办公楼宇、小区等。地标数据也对应有经纬度信息,因此可以通过经纬度信息以及用户点击数据来获取到当前位置(例如目标搜索位置或者POI位置)最热门的topN地标,并将获取到的地标信息向量化作为一路输入特征,由此基于城市、经纬度、地标三个维护建立起从粗到细的空间描述方式。
在另一些示例性的实施例中,目标搜索位置相关的地标或者POI相关的地标也可以通过与预训练模型来预测,本实施例并不对此进行限制。
另外由于经纬度信息是连续变量,本实施例针对经纬度信息的向量化也有特殊设计。示例性的,空间特征提取网络需要对输入的经纬度信息进行不同尺度的离散化处理后,再对所得到的离散化信息进行空间信息特征提取。多尺度的离散化处理可以通俗理解为将经纬度信息按照不同的区域划分尺度来对经纬度信息进行离散化编码,由此,同一经纬度信息可以得到多尺度的离散化信息,基于多尺度的离散化信息提取经纬度信息对应的空间特征,可以避免的单一尺度造成的边界有效覆盖问题和精度不够问题。其中,可以采用GeoHash等方式来实现经纬度信息的离散化处理。
POI的描述文本例如包括POI的名称、别名、地址等,历史搜索请求的搜索语句通常包含请求名称或者地址,因此在空间语义模型中将此类文本信息单独构建一路特征表示。同时,POI的结构信息例如标签、类型、品牌等决策性信息,将这些信息也构建一路特征表示,也可以有效地刻画相关性。
特征融合网络中含有自注意力(Attention)网络层,通过使用自注意力网络层将输入的多路特征向量表示(包括文本向量表示以及空间向量表示)进行融合,在训练过程中空间语义模型可以通过POI点击数据分布有效地学习到各路特征向量表示在最终模型的权重信息,由此实现更好的特征融合效果。
S530,根据各训练样本对应的语句特征向量和位置兴趣点特征向量计算相应的训练损失值,并基于训练损失值对空间语义模型进行参数调节。
经过特征融合网络按照权重对各路特征表示进行特征融合处理之后,可以得到历史搜索请求对应的语句特征向量,以及历史搜索请求相应的POI点击信息对应的POI特征向量,通过引入对比损失函数,根据各训练样本对应的语句特征向量和位置兴趣点特征向量计算相应的训练损失值,并基于训练损失值对空间语义模型进行参数调节,最终实现空间语义模型的迭代调优。
作为一种示例性的实施方式,根据各训练样本对应的语句特征向量和位置兴趣点特征向量计算相应的训练损失值,并基于训练损失值对空间语义模型进行参数调节的过程可以包括如下S531-S532:
S531,将包含POI点击信息的训练样本作为正样本,以及从当前批次的训练样本集抽取出正样本对应的多个随机负样本和多个难负样本;
S532,分别计算正样本、各个随机负样本和各个难负样本各自对应的语句特征向量与POI特征向量之间的相似度,并基于计算得到的相似度确定相应的训练损失值。
在如上过程中,取正样本为包含POI点击信息的训练样本,也即真实产生了POI点击行为的训练样本。从当前批次的训练样本集抽取出正样本对应的多个随机负样本是指,从当前批次的训练样本集中除正样本之外的其他训练样本中随机选取的多个训练样本。从当前批次的训练样本集抽取出正样本对应的多个难负样本是指,计算当前批次的训练样本集中除正样本之外的其他各个训练样本分别与正样本之间的相似度,选取出相似度最高的多个训练样本。
通过计算正样本、各个随机负样本和各个难负样本各自对应的语句特征向量与POI特征向量之间的相似度,并基于计算得到的相似度确定相应的训练损失值,由此即可基于确定出的训练损失值对空间语义模型进行整体性调节。
一示例性的对比损失函数可以表示如下:
其中,表示历史搜索请求对应的语句特征向量,/>表示历史搜索请求对应的POI点击信息所对应的POI特征向量,/>表示语句特征向量与POI特征向量之间的余弦相似度,/>表示随机负样本的数量,/>表示难负样本的数量,/>表示可调节参数,/>表示训练损失值。
另外还需要说明的是,本实施例也可以采用其他的对比损失函数来计算出训练损失值,例如Margin Rank Loss函数等,在此不对损失函数的具体形式进行限制。
图6是一示例性的空间语义模型的训练架构示意图,由图6可以看出,本实施例是进一步提出了空间语义融合建模的方式,通过在空间语义模型的训练过程中引入用户请求的城市、经纬度信息、经纬度附近的高优地标,以及用户点击的POI的城市、POI的经纬度、POI附近的高优地标等空间信息,将这些信息与请求的文本和POI的结构化西悉尼进行融合建模,实现了从模型层面提升空间刻画能力,得到适用于地图搜索场景的空间语义模型。
在另一示例性的实施例中,考虑到在地图搜索场景下,用户对近距离的需求较强,尤其是在泛意图的请求下,例如美食、酒店等,如果有较远的结果会给用户带来不好的体验。并且在地图搜索场景下,由于POI数据量巨大,通常接近亿级,单纯的相似度匹配计算并不满足应用需求。为解决这些问题,本申请的实施例将空间语义索引库具体构建为限定搜索距离的空间语义索引库。具体来说,基于预设的搜索距离限定条件,构建限定搜索距离的空间语义索引库,以通过构建得到的限定搜索距离的空间语义索引库获取空间语义向量对应的召回向量。
如图7所示,在一示例性的实施例中,基于预设的搜索距离限定条件,构建限定搜索距离的空间语义索引库的过程包括S710-S730,详细介绍如下:
S710,针对位置兴趣点向量库中的位置兴趣点向量按照聚类方式构建倒排索引。
本实施例考虑到搜索请求时的性能精度,以及索引文件的大小,采取了IVFPQ的参数模式来构建限定搜索距离的空间语义索引库。可以理解,IVFPQ是一种用于数据检索的索引方法,结合了倒排索引(Inverted File,IVF)和乘积量化(Product Quantization,PQ)的技术。倒排索引是一种数据结构,用于加速搜索,对于每个特征向量,倒排索引存储了包含该特征向量的数据的列表,这使得在查询时可以快速定位包含相似特征的数据。乘积量化是一种降维和量化的技术,在数据检索中,通常使用很高维度的特征向量来描述数据,乘积量化通过将这些高维向量分解成较小的子向量,并对每个子向量进行独立的量化,从而减少了存储和计算的复杂性,这有助于加快检索速度。
在倒排索引阶段,会针对POI向量库中的POI向量按照聚类的方式构建倒排索引,在执行向量搜索时,会从POI向量库中搜索出目标数量个与输入向量最相似的POI向量。
S720,基于搜索距离限定条件执行倒排索引后的乘积量化索引。
乘积量化处理是用于在通过倒排索引得到倒排的目标数量个POI向量之后,通过比特量化的方式加速计算。
常规的乘积量化处理无法引入距离度量,若要实现对于搜索距离的限定,需要在倒排召回N条结果后,遍历计算所有结果的距离,然后保留限定距离的结果,但这种方式有一些缺点,比如召回的N条结果集合虽然较大,但是不能保证近距离结果都在集合中,并且召回的N条结果集合越大,相对耗时也越高,后验计算距离也需要较高的耗时。为解决此问题,本实施例在乘积量化处理阶段引入距离度量,以更优更快的方式近似优化了距离限定问题。
并且在一些示例性的实施例中,搜索距离限定条件通常是预先设置的,但也可以进行自定义设置。例如,当获取到指示更新搜索距离限定条件的指令,则响应于该指令,执行对搜索距离限定条件的更新处理,并基于更新后的搜索距离限定条件对限定搜索距离的空间语义索引库进行更新处理,更新后的空间语义索引库则相应更新后在向量搜索过程中的近距离条件。
S730,由倒排索引和乘积量化索引构成限定搜索距离的空间语义索引库。
在本实施例中,限定搜索距离的空间语义索引库理解为,在乘积量化阶段引入预计算空间信息。相较于未在乘积量化阶段引入预计算空间信息的方式,本实施例可以在更大数据量级上进行距离计算。
请参见图8,图8是一示例性的限定搜索距离的空间语义索引库的架构图,可以看出,在空间语义索引库提供向量索引搜索的过程中,通过在乘积量化索引阶段引入距离度量,即搜索距离限定条件,在向量近似搜索的过程中可以实现精准限定结果距离,相较全部召回结果后进行距离过滤的现有方式,能够提升近距离召回的准确性。
为了便于整体性理解本申请提供的技术方案,图9示意出了一种示例性的地图搜索整体流程的示意图。具体来说,将地图搜索整体流程划分为在线部分和离线部分,在线部分主要实现从获取搜索语句到相应输出排序结果的过程,离线部分主要实现空间语义模型的构建以及空间语义索引库的构建。
参见图9所示,在线部分主要提出了一种语句解析+语义搜索的技术手段,通过对用户请求的搜索语句进行“wherewhat”解析,以得到搜索内容(what部分)和目标搜索位置(where部分),通过在where部分对应的空间位置进行what部分的语义搜索,通过先验的方式来提升语义的空间搜索精确度,能够有效地获取到用户想要搜索的目标位置。
在离线部分,提出一种空间语义融合建模的技术手段,通过在空间语义模型训练的过程中引入城市、用户请求经纬度、请求位置附近的高优地标等空间信息与文本、poi结构化信息等融合建模,在模型层面学习到请求与结果之间的空间关系,使得从模型层面提升了空间刻画的能力。由此,在线部分通过空间语义模型能够获取到刻画有更加丰富的空间信息的空间语义向量,确保了后续的空间搜索精确度,从而有利于有效地获取到用户想要搜索的目标位置。
离线部分还提出一种指定搜索范围的语义搜索的技术手段,通过在向量索引搜索的过程中引入距离度量,在向量近似搜索的过程中精准限定结果距离,可以精准的召回限定距离内的语义结果。
还需要理解的是,图9中示意的空间语义模型分别与空间语义向量和POI向量库连接,是用于表示空间语义向量是通过空间语义模型获得的,POI向量库中的POI向量也是通过空间语义模型获得的。全量POI数据与空间语义索引库连接,是用于表示空间语义索引库在针对空间语义向量执行召回搜索时,需要使用到全量POI数据中的POI数据。同理,POI向量库与相关性计算模块连接是表示在进行相关性计算时需要使用到POI向量库中的POI向量。空间语义向量与相关性计算模块连接是表示,相关性计算是针对该空间语义模型与召回向量以及文本倒排序召回结果中的向量分别执行的相关性计算。详细的处理过程均已在前述各个实施例中进行了详细记载,本处不再进行赘述。
由于如上提出的每一种技术手段都能够作用于提升地图搜索的精确程度,使得在地图搜索整体流程上,通过以上三种技术手段的融合,能够在很大程度上实现空间语义的有效建模以及近距离语义结果的召回,能够满足地图搜索场景对空间信息的需求。
以下还提供了针对图9所示的地图搜索整体流程进行效果评测的结果内容。效果评测主要包括离线方面和在线方面。
离线效果评测主要目的是在上线前对优化效果进行一个评估,一方面是判断是否达到预期效果,满足上线需求,一方面也为了发现现有优化方案的不足来进行迭代优化。需要说明的是,优化后的方案是指图9所示的地图搜索整体流程,优化前的方案是指并未使用本申请提出的如上三个方面的技术手段的地图搜索方案。
在离线评测中主要采用了胜出率评测的方式每次评测的时候会从线上随机抽取5000条随机搜索语句分别对优化前后版本进行结果对比,评估前后top10结果的胜出落败情况,胜出率的计算公式如下:
通过进行如上离线测评,所得到的离线测评效果如图10所示。由图10所示内容可以看出,在使用了优化后的方案之后,在召回和排序相关性方面均有了较好的提升。
在线效果评测方面,考虑到转化率是地图搜索线上最重要的一个客观指标,能够直观的反映各种搜索相关的优化效果,因此在地图suggestion侧进行了转化率AB效果评测,转化率的计算公式如下所示:
需要理解的是,在地图领域suggestion可理解为是一种特定接口,用于实现搜索建议,能够在用户界面中以下拉列表的方式将建议的搜索条目展示出来。举例来说,当输入“美食”,用户界面的下拉列表中就会显示搜索出的一些餐厅信息。AB测试可理解为是一种在产品、市场营销或者网站设计等方面的测试方法,也称为对照测试,该测试方法通过比较两个或更多版本的产品,从而确定哪个版本更好或更有效。
优化效果在上线时会选取一个实验分桶进行新版效果实验,选取一个对照分桶进行旧版效果评估,两者之差作为最终的AB转化率效果。两种优化方案在AB转化率上的效果如图11所示。由图11可以看出,在采用了优化后的方案后,在召回和排序相关性方面的化率均有提升,全链路优化整体带来了转化率0.55%的升高。
由上可以证明,本申请通过建模可以有效的融合空间与语义的关系,并能够实现指定空间近距离语义结果的搜索。在地图搜索场景的召回阶段,针对用户发起的复杂请求,错输请求或者口语化表述请求,可以有效的进行语义识别,并能够返回用户指定空间的近距离结果。在搜索场景的排序阶段,通过计算搜索语句语义与POI语义的相关性,可以显著提升排序模型的效果。
图12是本申请的一示例性实施例示出的地图搜索装置的框图,该地图搜索装置可以配置在图1所示实施环境中的终端110或者服务器120上,也可以配置在其它终端或者服务器上,本实施例不对此进行限制。
如图12所示,该示例性的地图搜索装置包括:
向量获取模块1010,配置为通过空间语义模型获取搜索语句对应的空间语义向量;其中,空间语义模型通过历史地图搜索数据训练得到,历史地图搜索数据包含文本信息以及空间信息;
向量召回模块1020,配置为通过空间语义索引库获取空间语义向量对应的召回向量;其中,空间语义索引库用于从位置兴趣点向量库中召回与输入向量相匹配的位置兴趣点向量,位置兴趣点向量库中的位置兴趣点向量也是通过空间语义模型获取得到的;
结果获取模块1030,配置为根据空间语义向量对应的召回向量,确定搜索语句对应的搜索结果。
在另一示例性的实施例中,向量获取模块1010还配置为:
对搜索语句进行解析,得到搜索内容和目标搜索位置;
将搜索语句和目标搜索位置输入至空间语义模型中,以获得空间语义模型输出的搜索语句对应的空间语义向量。
在另一示例性的实施例中,该示例性的地图搜索装置还包括:
倒排索引模块,配置为通过文本倒排索引库获取搜索语句对应的召回分片数据,并通过空间语义模型获取召回分片数据对应的位置兴趣点的空间语义向量;其中,文本倒排索引库用于将位置兴趣点库中的位置兴趣点转换为分片数据,并基于分片数据召回与输入文本相匹配的分片数据;
相关性计算模块,配置为计算空间语义向量与召回向量的相似度,以及计算空间语义向量与目标分片数据对应的空间语义向量的相似度,以根据计算得到的相似度确定出搜索语句对应的搜索结果。
在另一示例性的实施例中,空间语义模型包括文本特征提取网络、空间特征提取网络和特征融合网络,文本特征提取网络以及空间特征提取网络的输出信号均作为特征融合网络的输入信号;该示例性的地图搜索装置还包括:
训练样本获取模块,配置为获取当前批次的训练样本集;其中,将每一历史地图搜索数据作为一训练样本,历史地图搜索数据包括历史搜索请求以及相应的位置兴趣点点击信息;
训练样本处理模块,配置为针对每一训练样本,从历史搜索请求中提取出文本信息和空间信息,将提取出的文本信息输入文本特征提取网络,以及将提取出的空间信息输入空间特征提取网络,并获取特征融合网络输出的语句特征向量,以及,从位置兴趣点点击信息中提取出文本信息和空间信息,将提取出的文本信息输入文本特征提取网络,以及将提取出的空间信息输入空间特征提取网络,并获取特征融合网络输出的位置兴趣点特征向量;
损失调节模块,配置为根据各训练样本对应的语句特征向量和位置兴趣点特征向量计算相应的训练损失值,并基于训练损失值对空间语义模型进行参数调节。
在另一示例性的实施例中,损失调节模块还配置为:
将包含位置兴趣点点击信息的训练样本作为正样本,以及从当前批次的训练样本集抽取出正样本对应的多个随机负样本和多个难负样本;
分别计算正样本、各个随机负样本和各个难负样本各自对应的语句特征向量与位置兴趣点特征向量之间的相似度,并基于计算得到的相似度确定相应的训练损失值。
在另一示例性的实施例中,每一训练样本包含的历史搜索请求中含有历史请求的搜索位置、以及含有历史请求的搜索位置相关的地标;训练样本处理模块还配置为:
从历史搜索请求中提取历史搜索语句,将历史搜索语句作为文本信息,以及提取出目标搜索位置所在城市、目标搜索位置的经纬度信息、目标搜索位置相关的地标中的至少一种空间信息。
在另一示例性的实施例中,每一训练样本包含的位置兴趣点点击信息中含有历史点击的位置兴趣点、以及含有历史点击的位置兴趣点相关的地标;训练样本处理模块还配置为:
从位置兴趣点点击信息中提取出位置兴趣点的描述文本、结构信息中的至少一种文本信息,以及提取出位置兴趣点所在城市、位置兴趣点的经纬度信息、位置兴趣点相关的地标中的至少一种空间信息。
在另一示例性的实施例中,训练样本处理模块还配置为:在空间特征提取网络中对输入的经纬度信息进行不同尺度的离散化处理后,对所得到的离散化信息进行空间信息特征提取。
在另一示例性的实施例中,训练样本处理模块还配置为:
根据目标搜索位置或者位置兴趣点的经纬度信息,获取位于目标搜索位置或者位置兴趣点所在的地图范围内的地标集合;
按照点击热度由大至小的顺序对地标集合中的地标进行排序,并选取指定排名的地标作为目标搜索位置或者位置兴趣点相关的地标。
在另一示例性的实施例中,空间语义索引库为限定搜索距离的空间语义索引库;该示例性的地图搜索装置还包括:
索引库构建模块,配置为基于预设的搜索距离限定条件,构建限定搜索距离的空间语义索引库,以通过构建得到的限定搜索距离的空间语义索引库获取空间语义向量对应的召回向量。
在另一示例性的实施例中,索引库构建模块还配置为:
针对位置兴趣点向量库中的位置兴趣点向量按照聚类方式构建倒排索引;
基于搜索距离限定条件构建倒排索引后的乘积量化索引;
由倒排索引和乘积量化索引构成限定搜索距离的空间语义索引库。
在另一示例性的实施例中,索引库构建模块还配置为:
当获取到指示更新搜索距离限定条件的指令,则响应于指令,执行对搜索距离限定条件的更新处理;
基于更新后的搜索距离限定条件对限定搜索距离的空间语义索引库进行更新处理。
需要说明的是,上述实施例所提供的地图搜索装置与上述实施例所提供的地图搜索方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的地图搜索装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
本申请的实施例还提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述各个实施例中提供的地图搜索方法。
图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是,图13示出的电子设备的计算机系统1100仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图13所示,计算机系统1100包括中央处理单元(Central Processing Unit,CPU)1101,其可以根据存储在只读存储器(Read-Only Memory,ROM)1102中的程序或者从储存部分1108加载到随机访问存储器(Random Access Memory,RAM)1103中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM1103中,还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input /Output,I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1107;包括硬盘等的储存部分1108;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入储存部分1108。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-OnlyMemory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的地图搜索方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的地图搜索方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
可以理解的是,在本申请的具体实施方式中,涉及到搜索语句、POI等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
Claims (16)
1.一种地图搜索方法,其特征在于,所述方法包括:
通过空间语义模型获取搜索语句对应的空间语义向量;其中,所述空间语义模型通过历史地图搜索数据训练得到,所述历史地图搜索数据包含文本信息以及空间信息;
通过空间语义索引库获取所述空间语义向量对应的召回向量;其中,所述空间语义索引库用于从位置兴趣点向量库中召回与输入向量相匹配的位置兴趣点向量,所述位置兴趣点向量库中的位置兴趣点向量也是通过所述空间语义模型获取得到的;
根据所述空间语义向量对应的召回向量,确定所述搜索语句对应的搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述通过空间语义模型获取搜索语句对应的空间语义向量,包括:
对所述搜索语句进行解析,得到搜索内容和目标搜索位置;
将所述搜索语句和所述目标搜索位置输入至所述空间语义模型中,以获得所述空间语义模型输出的所述搜索语句对应的空间语义向量。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过文本倒排索引库获取所述搜索语句对应的召回分片数据;其中,所述文本倒排索引库用于将位置兴趣点库中的位置兴趣点转换为分片数据,并基于所述分片数据召回与输入文本相匹配的分片数据;
通过所述空间语义模型获取所述召回分片数据对应的位置兴趣点的空间语义向量;
计算所述空间语义向量与所述召回向量的相似度,以及计算所述空间语义向量与所述召回分片数据对应的空间语义向量的相似度,以根据计算得到的相似度确定出所述搜索语句对应的搜索结果。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述空间语义模型包括文本特征提取网络、空间特征提取网络和特征融合网络,所述文本特征提取网络以及所述空间特征提取网络的输出信号均作为所述特征融合网络的输入信号;所述方法还包括如下对于所述空间语义模型进行训练的步骤:
获取当前批次的训练样本集;其中,将每一历史地图搜索数据作为一训练样本,所述历史地图搜索数据包括历史搜索请求以及相应的位置兴趣点点击信息;
针对每一训练样本,从历史搜索请求中提取出文本信息和空间信息,将提取出的文本信息输入所述文本特征提取网络,以及将提取出的空间信息输入所述空间特征提取网络,并获取所述特征融合网络输出的语句特征向量,以及,从位置兴趣点点击信息中提取出文本信息和空间信息,将提取出的文本信息输入所述文本特征提取网络,以及将提取出的空间信息输入所述空间特征提取网络,并获取所述特征融合网络输出的位置兴趣点特征向量;
根据各训练样本对应的语句特征向量和位置兴趣点特征向量计算相应的训练损失值,并基于所述训练损失值对所述空间语义模型进行参数调节。
5.根据权利要求4所述的方法,其特征在于,所述根据各训练样本对应的语句特征向量和位置兴趣点特征向量计算相应的训练损失值,并基于所述训练损失值对所述空间语义模型进行参数调节,包括:
将包含位置兴趣点点击信息的训练样本作为正样本,以及从所述当前批次的训练样本集抽取出所述正样本对应的多个随机负样本和多个难负样本;
分别计算所述正样本、各个随机负样本和各个难负样本各自对应的语句特征向量与位置兴趣点特征向量之间的相似度,并基于计算得到的相似度确定相应的训练损失值。
6.根据权利要求4所述的方法,其特征在于,每一训练样本包含的历史搜索请求中含有历史请求的搜索位置、以及含有所述历史请求的搜索位置相关的地标;所述从历史搜索请求中提取出文本信息和空间信息,包括:
从历史搜索请求中提取历史搜索语句,将所述历史搜索语句作为文本信息,以及提取出目标搜索位置所在城市、目标搜索位置的经纬度信息、目标搜索位置相关的地标中的至少一种空间信息。
7.根据权利要求4所述的方法,其特征在于,每一训练样本包含的位置兴趣点点击信息中含有历史点击的位置兴趣点、以及含有所述历史点击的位置兴趣点相关的地标;所述从位置兴趣点点击信息中提取出文本信息和空间信息,包括:
从位置兴趣点点击信息中提取出位置兴趣点的描述文本、结构信息中的至少一种文本信息,以及提取出位置兴趣点所在城市、位置兴趣点的经纬度信息、位置兴趣点相关的地标中的至少一种空间信息。
8.根据权利要求6或7所述的方法,其特征在于,所述空间特征提取网络用于对输入的经纬度信息进行不同尺度的离散化处理后,对所得到的离散化信息进行空间信息特征提取。
9.根据权利要求6或7所述的方法,其特征在于,提取出目标搜索位置或者位置兴趣点相关的地标的过程包括:
根据目标搜索位置或者位置兴趣点的经纬度信息,获取位于所述目标搜索位置或者所述位置兴趣点所在的地图范围内的地标集合;
按照点击热度由大至小的顺序对所述地标集合中的地标进行排序,并选取指定排名的地标作为所述目标搜索位置或者所述位置兴趣点相关的地标。
10.根据权利要求1-3任一项所述的方法,其特征在于,所述空间语义索引库为限定搜索距离的空间语义索引库;所述方法还包括:
基于预设的搜索距离限定条件,构建限定搜索距离的空间语义索引库,以通过构建得到的限定搜索距离的空间语义索引库获取所述空间语义向量对应的召回向量。
11.根据权利要求10所述的方法,其特征在于,所述基于预设的搜索距离限定条件,构建限定搜索距离的空间语义索引库,包括:
针对所述位置兴趣点向量库中的位置兴趣点向量按照聚类方式构建倒排索引;
基于所述搜索距离限定条件构建所述倒排索引后的乘积量化索引;
由所述倒排索引和所述乘积量化索引构成所述限定搜索距离的空间语义索引库。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
当获取到指示更新搜索距离限定条件的指令,则响应于所述指令,执行对搜索距离限定条件的更新处理;
基于更新后的搜索距离限定条件对所述限定搜索距离的空间语义索引库进行更新处理。
13.一种地图搜索装置,其特征在于,所述装置包括:
向量获取模块,配置为通过空间语义模型获取搜索语句对应的空间语义向量;其中,所述空间语义模型通过历史地图搜索数据训练得到,所述历史地图搜索数据包含文本信息以及空间信息;
向量召回模块,配置为通过空间语义索引库获取所述空间语义向量对应的召回向量;其中,所述空间语义索引库用于从位置兴趣点向量库中召回与输入向量相匹配的位置兴趣点向量,所述位置兴趣点向量库中的位置兴趣点向量也是通过所述空间语义模型获取得到的;
结果获取模块,配置为根据所述空间语义向量对应的召回向量,确定所述搜索语句对应的搜索结果。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现权利要求1-12中任一项所述的地图搜索方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-12中任一项所述的地图搜索方法。
16.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-12中任一项所述的地图搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410176284.3A CN117725324B (zh) | 2024-02-08 | 2024-02-08 | 地图搜索方法及装置、电子设备、存储介质、程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410176284.3A CN117725324B (zh) | 2024-02-08 | 2024-02-08 | 地图搜索方法及装置、电子设备、存储介质、程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117725324A true CN117725324A (zh) | 2024-03-19 |
CN117725324B CN117725324B (zh) | 2024-05-24 |
Family
ID=90211054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410176284.3A Active CN117725324B (zh) | 2024-02-08 | 2024-02-08 | 地图搜索方法及装置、电子设备、存储介质、程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117725324B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491518A (zh) * | 2017-08-15 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种搜索召回方法和装置、服务器、存储介质 |
CN110390054A (zh) * | 2019-07-25 | 2019-10-29 | 北京百度网讯科技有限公司 | 兴趣点召回方法、装置、服务器和存储介质 |
US20200081908A1 (en) * | 2018-09-10 | 2020-03-12 | Baidu Online Network Technology (Beijing) Co., Ltd. | Internet text mining-based method and apparatus for judging validity of point of interest |
CN111538908A (zh) * | 2020-06-22 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN111582967A (zh) * | 2019-11-29 | 2020-08-25 | 北京三快在线科技有限公司 | 内容搜索方法、装置、设备及存储介质 |
CN111767477A (zh) * | 2020-06-19 | 2020-10-13 | 北京百度网讯科技有限公司 | 一种检索方法、装置、电子设备和存储介质 |
CN112328890A (zh) * | 2020-11-23 | 2021-02-05 | 北京百度网讯科技有限公司 | 搜索地理位置点的方法、装置、设备及存储介质 |
CN113505204A (zh) * | 2021-09-09 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 召回模型训练方法、搜索召回方法、装置和计算机设备 |
CN114168838A (zh) * | 2020-08-20 | 2022-03-11 | 北京四维图新科技股份有限公司 | 兴趣点在线搜索排序方法与系统、以及云端搜索服务平台 |
CN115017425A (zh) * | 2022-07-19 | 2022-09-06 | 深圳依时货拉拉科技有限公司 | 地点检索方法、装置、电子设备以及存储介质 |
CN117112930A (zh) * | 2023-09-06 | 2023-11-24 | 深圳依时货拉拉科技有限公司 | 兴趣点召回方法、装置、计算机设备和存储介质 |
-
2024
- 2024-02-08 CN CN202410176284.3A patent/CN117725324B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491518A (zh) * | 2017-08-15 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种搜索召回方法和装置、服务器、存储介质 |
US20200081908A1 (en) * | 2018-09-10 | 2020-03-12 | Baidu Online Network Technology (Beijing) Co., Ltd. | Internet text mining-based method and apparatus for judging validity of point of interest |
CN110390054A (zh) * | 2019-07-25 | 2019-10-29 | 北京百度网讯科技有限公司 | 兴趣点召回方法、装置、服务器和存储介质 |
CN111582967A (zh) * | 2019-11-29 | 2020-08-25 | 北京三快在线科技有限公司 | 内容搜索方法、装置、设备及存储介质 |
CN111767477A (zh) * | 2020-06-19 | 2020-10-13 | 北京百度网讯科技有限公司 | 一种检索方法、装置、电子设备和存储介质 |
CN111538908A (zh) * | 2020-06-22 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN114168838A (zh) * | 2020-08-20 | 2022-03-11 | 北京四维图新科技股份有限公司 | 兴趣点在线搜索排序方法与系统、以及云端搜索服务平台 |
CN112328890A (zh) * | 2020-11-23 | 2021-02-05 | 北京百度网讯科技有限公司 | 搜索地理位置点的方法、装置、设备及存储介质 |
CN113505204A (zh) * | 2021-09-09 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 召回模型训练方法、搜索召回方法、装置和计算机设备 |
CN115017425A (zh) * | 2022-07-19 | 2022-09-06 | 深圳依时货拉拉科技有限公司 | 地点检索方法、装置、电子设备以及存储介质 |
CN117112930A (zh) * | 2023-09-06 | 2023-11-24 | 深圳依时货拉拉科技有限公司 | 兴趣点召回方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117725324B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160471B (zh) | 一种兴趣点数据处理方法、装置、电子设备和存储介质 | |
KR20200029342A (ko) | 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치 | |
CN112100529B (zh) | 搜索内容排序方法、装置、存储介质和电子设备 | |
JP7182585B2 (ja) | プログラム | |
CN116795973B (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN113505204B (zh) | 召回模型训练方法、搜索召回方法、装置和计算机设备 | |
CN110866093A (zh) | 机器问答方法及装置 | |
CN110781413B (zh) | 兴趣点确定方法及装置、存储介质、电子设备 | |
CN114840671A (zh) | 对话生成方法、模型的训练方法、装置、设备及介质 | |
CN115516447A (zh) | 热点新闻意图识别方法、装置、设备及可读存储介质 | |
CN114579882A (zh) | 地址查询方法、获取地理编码预测模型的方法及对应装置 | |
CN115129883A (zh) | 实体链接方法和装置、存储介质及电子设备 | |
CN114490926A (zh) | 一种相似问题的确定方法、装置、存储介质及终端 | |
CN112102116B (zh) | 基于旅游会话的输入预测方法、系统、设备及存储介质 | |
CN116680481B (zh) | 搜索排序方法、装置、设备、存储介质及计算机程序产品 | |
CN116662583B (zh) | 一种文本生成方法、地点检索方法及相关装置 | |
CN117725324B (zh) | 地图搜索方法及装置、电子设备、存储介质、程序产品 | |
CN113807102B (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
CN115858780A (zh) | 一种文本聚类方法、装置、设备及介质 | |
CN114925681A (zh) | 知识图谱问答问句实体链接方法、装置、设备及介质 | |
CN110781283B (zh) | 连锁品牌词库生成方法、装置以及电子设备 | |
CN114297235A (zh) | 风险地址识别方法、系统及电子设备 | |
CN111797183A (zh) | 挖掘信息点的道路属性的方法、装置及电子设备 | |
CN112100523B (zh) | 基于环境信息的兴趣点排序方法及装置、电子设备和介质 | |
CN116612421B (zh) | 一种融合多源空间数据的建成环境识别方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |