CN112328890A - 搜索地理位置点的方法、装置、设备及存储介质 - Google Patents

搜索地理位置点的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112328890A
CN112328890A CN202011325558.9A CN202011325558A CN112328890A CN 112328890 A CN112328890 A CN 112328890A CN 202011325558 A CN202011325558 A CN 202011325558A CN 112328890 A CN112328890 A CN 112328890A
Authority
CN
China
Prior art keywords
search
semantic
geographic position
information
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011325558.9A
Other languages
English (en)
Other versions
CN112328890B (zh
Inventor
臧文华
范淼
卓安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011325558.9A priority Critical patent/CN112328890B/zh
Publication of CN112328890A publication Critical patent/CN112328890A/zh
Application granted granted Critical
Publication of CN112328890B publication Critical patent/CN112328890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请公开了一种搜索地理位置点的方法、装置、设备及存储介质,涉及计算机技术中的智能搜索、自然语言处理、深度学习等领域。具体实现方案为:提取输入的搜索信息的多个不同分词粒度的语义特征,并融合生成搜索信息的语义向量,使得搜索信息的语义向量中包含丰富的语义特征,表达更加准确;进一步地,语义向量索引库中各个地理位置点的语义向量融合了地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称等多维度信息的语义信息,并覆盖多种语言,这样将搜索信息的语义向量和地理位置点的语义向量进行语义匹配搜索,能够提高地理位置点搜索的召回率和精准度,同时实现跨语言搜索。

Description

搜索地理位置点的方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术中的智能搜索、自然语言处理(Natural LanguageProcessing,缩写NLP)、深度学习等,尤其涉及一种搜索地理位置点的方法、装置、设备及存储介质。
背景技术
对于地图类应用而言,地理位置点搜索是非常重要的业务。例如,兴趣点(Pointof Information,缩写POI)的搜索等。
目前,搜索地理位置点的方法大多数通过将输入的搜索信息与地理位置点的名称进行字面匹配的方式来进行搜索。对于多语言的搜索信息,省略、错误输入等复杂搜索信息,地理位置点搜索的召回率低。
发明内容
本申请提供了一种搜索地理位置点的方法、装置、设备及存储介质。
根据本申请的一方面,提供了一种搜索地理位置点的方法,包括:
响应于地理位置点搜索指令,获取输入的搜索信息;
根据多个不同的分词粒度,提取所述搜索信息对应于每个所述分词粒度的语义特征;
将所述搜索信息对应于每个所述分词粒度的语义特征融合,生成所述搜索信息的语义向量;
将所述搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与所述搜索信息匹配的地理位置点;
其中,所述语义向量索引库中每个地理位置点的语义向量融合了该地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称的语义特征。
根据本申请的另一方面,提供了一种搜索地理位置点的装置,包括:
信息获取模块,用于响应于地理位置点搜索指令,获取输入的搜索信息;
语义特征提取模块,用于根据多个不同的分词粒度,提取所述搜索信息对应于每个所述分词粒度的语义特征;
语义向量生成模块,用于将所述搜索信息对应于每个所述分词粒度的语义特征融合,生成所述搜索信息的语义向量;
搜索模块,用于将所述搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与所述搜索信息匹配的地理位置点;
其中,所述语义向量索引库中每个地理位置点的语义向量融合了该地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称的语义特征。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述搜索地理位置点的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述所述搜索地理位置点的方法。
根据本申请的技术提高了地理位置点搜索的召回率低。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的地理位置点搜索系统的框架图;
图2是本申请第一实施例提供的搜索地理位置点的方法流程图;
图3是本申请第二实施例提供的搜索地理位置点的方法流程图;
图4是本申请第二实施例提供的多粒度特征提取过程的示意图;
图5是本申请第三实施例提供的搜索地理位置点的流程框架图;
图6为本申请实施例提供的搜索地理位置点的模型整体结构示意图;
图7是本申请实施例提供的建立语义向量索引库的流程图;
图8为本申请实施例提供的关联信息图的示意图;
图9是本申请第四实施例提供的搜索地理位置点的装置示意图;
图10是本申请第六实施例提供的搜索地理位置点的装置示意图;
图11是用来实现本申请实施例的搜索地理位置点的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请提供一种搜索地理位置点的方法、装置、设备及存储介质,应用于计算机技术中的智能搜索、NLP、深度学习等,以达到提高地理位置点搜索的召回率和精准度的技术效果。
本申请提供的搜索地理位置点的方法具体可以应用于如图1所示的地理位置点搜索系统,如图1所示,该地理位置点的搜索系统包括:提供用户交互界面的客户端,以及用于执行搜索地理位置点的方法的服务端。其中,向用户提供交互界面的客户端可以是智能手机、平板电脑、台式电脑或者其他的用户终端。用户可以通过用户终端上安装的浏览器、应用程序(Application,缩写APP)等提供的界面输入搜索信息,并向服务端提交地理位置点搜索指令。用于执行搜索地理位置点的方法的服务端可以是提供地理位置点搜索功能的电子设备,例如,电子地图的服务器或者服务器集群,等等。服务端响应于用户提交的地理位置点搜索指令,获取用户输入的搜索信息;通过提取搜索信息的多粒度的语义特征,将多粒度的语义特征融合生成搜索信息的语义向量,该语义向量包含了搜索信息的丰富的语义信息,通过搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与搜索信息匹配的地理位置点,这样,能够召回与搜索信息语义相关的地理位置点,能够大大提高地理位置点搜索的召回率和精准度。
本申请提供的搜索地理位置点的方法的具体应用于电子地图类应用。本申请中的地理位置点包括地图数据库中的地理位置点,可以是电子地图类应用中的地理位置点,该地理位置点可以供用户搜索、浏览、向用户推荐等。这些地理位置点具有经纬度、名称、地址、类型等属性信息。地理位置点包括但不限于POI(Point of Information,兴趣点)、AOI(Area of Interest,兴趣面)、ROI(Regin of Interest,兴趣区域)等。
例如,以POI搜索为例,用户通过客户端打开电子地图,在搜索界面上提供的POI搜索信息输入框,输入搜索信息,并通过点击界面上的“搜索按钮”向服务端提交包含输入的搜索信息的地理位置点搜索指令。服务端能够接收到地理位置点搜索指令并获取到用户输入的搜索信息(query),并提取搜索信息的语义向量,通过将搜索信息的语义向量与语义向量索引库中各POI的语义向量进行匹配,确定与搜索信息匹配的POI。然后,服务器可以将与搜索信息匹配的POI的信息通过客户端进行显示,向用户展示搜索结果。
图2是本申请第一实施例提供的搜索地理位置点的方法流程图。如图2所示,该方法具体步骤如下:
步骤S101、响应于地理位置点搜索指令,获取输入的搜索信息。
在需要搜索POI等地理位置点时,用户以通过用户终端上显示的搜索界面输入搜索信息,并向服务端提交地理位置点搜索指令。
服务端在接收到地理位置点搜索指令时,获取到用户输入的搜索信息。
例如,以POI搜索为例,用户通过客户端打开电子地图,在搜索界面上提供的POI搜索信息输入框,输入搜索信息,并通过点击界面上的“搜索按钮”向服务端提交包含输入的搜索信息的地理位置点搜索指令。服务端能够接收到地理位置点搜索指令并获取到用户输入的搜索信息
步骤S102、根据多个不同的分词粒度,提取搜索信息对应于每个分词粒度的语义特征。
服务端获取到用户输入的搜索信息之后,提取搜索信息多粒度的语义特征。
示例性地,可以利用n-grams卷积神经网络,基于多个不同的分词粒度n,分别提取搜索信息对应每个分词粒度的语义特征,实现搜索信息多粒度的语义特征的提取。其中,分词粒度n是指n-grams卷积神经网络中滑动窗口的大小。n取正整数。
另外,该步骤还可以利用基于不同分词粒度的不同类型的语义特征提取算法分别提取搜索信息对应各种分词粒度的语义特征,来实现搜索信息多粒度的语义特征的提取,本实施例此处不做具体限定。
步骤S103、将搜索信息对应于每个分词粒度的语义特征融合,生成搜索信息的语义向量。
在提取到搜索信息对应各个分词粒度的语义特征之后,将搜索信息对应于每个分词粒度的语义特征融合,从而生成搜索信息的语义向量。这样,搜索信息的语义向量中融合了搜索信息多个粒度的语义特征,包含丰富的语义信息。
示例性地,将搜索信息对应于每个分词粒度的语义特征融合,具体可以是将多个粒度的语义特征进行拼接,得到搜索信息的语义向量。
另外,将搜索信息对应于每个分词粒度的语义特征融合,还可以采用深度学习领域中任意一种将多个特征融合为一个特征的方法或模型实现,本实施例此处不再赘述。
步骤S104、将搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与搜索信息匹配的地理位置点;其中,语义向量索引库中每个地理位置点的语义向量融合了该地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称的语义特征。
在得到搜索信息的包含丰富语义信息的语义向量之后,将搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,来确定与搜索信息匹配的地理位置点。
示例性地,将搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,具体可以通过计算各地理位置点的语义向量与搜索信息的语义向量的相似度,并搜索到与搜索信息的语义向量相似度最高的若干个地理位置点,作为与搜索信息匹配的地理位置点。
例如,该步骤可以采用k近邻查询(k-nearest neighbor query)实现;或者还可以采用其他类似的方法实现,本实施例此处不再赘述。
本实施例中,用于进行地理位置点搜索的语义向量索引库中包括各个地理位置点的语义向量。其中每个地理位置点的语义向量都融合了该地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称的语义特征,也就是融合了地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称等多维度信息的语义信息,并且覆盖了多种语言。基于该语义向量索引库进行地理位置点的搜索,能够召回与搜索信息语义相关的地理位置点,实现地理位置点的跨语言搜索,并且大大提高地理位置点搜索的召回率和精准度。
其中,地理位置点的属性信息可以包括但不限于地址、所在城市等。
本申请实施例通过对用户输入的搜索信息提取多个不同分词粒度的语义特征,将搜索信息对应多个不同分词粒度的语义特征融合得到搜索信息的语义向量,使得搜索信息的语义向量中包含搜索信息的丰富的语义特征,表达更加准确,能够提高地理位置点搜索的召回率和精准度;进一步地,用于搜索的语义向量索引库中各个地理位置点的语义向量融合了地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称等多维度信息的语义信息,并且覆盖了多种语言,这样,基于搜索信息的语义向量和该语义向量索引库进行地理位置点的搜索,能够召回与搜索信息语义相关的地理位置点,实现地理位置点的跨语言搜索,并且大大提高地理位置点搜索的召回率和精准度。
图3是本申请第二实施例提供的搜索地理位置点的方法流程图。在上述第一实施例的基础上,本实施例中,还可以在搜索信息的语义向量中融合用户当前所在城市的语义信息,可以进一步提高地理位置点搜索的召回率和精准度。如图3所示,该方法具体步骤如下:
步骤S201、响应于地理位置点搜索指令,获取输入的搜索信息。
该步骤与上述步骤S101的实现方式一致,具体参见上述步骤S101的说明,此处不再赘述。
步骤S202、根据多个不同的分词粒度,提取搜索信息对应于每个分词粒度的语义特征。
本实施例中,可以利用n-grams卷积神经网络(Convolutional Neural Networks,缩写CNN)来实现搜索信息的多粒度的语义特征的提取,同时由于n-grams卷积神经网络时延较低,可以有效降低地理位置点搜索的时延,提高搜索效率,缩短响应时间。
具体地,该步骤可以采用如下方式实现:
将搜索信息进行分词处理,生成搜索信息对应的词向量序列;基于多个不同的分词粒度,对搜索信息的词向量序列进行每个分词粒度的n-grams处理,生成搜索信息对应于每个分词粒度的语义特征。这样,能够实现搜索信息的多粒度的语义特征的提取。
其中,将搜索信息进行分词处理,生成搜索信息对应的词向量序列,可以采用如下方式实现:
对搜索信息进行分词处理,确定搜索信息的词序列;将词序列中的每个词分别映射成对应的词向量,得到搜索信息的词向量序列。
可选地,对搜索信息进行分词处理,可以根据搜索信息中的空格和标点符号等进行分词,或者还可以采用任意一种根据搜索信息的语义进行分词的方法实现,本实施例此处不做具体限定。
示例性地,对应英文的搜索信息,其中每个单词中间通过空格间隔,可以根据空格和标点符号将搜索信息分成多个单词构成的词序列。
例如,当用户输入的一个搜索信息(query)为“Holiday Inn Exp KHOVRINO”时,可以根据空格将搜索信息分成以下四个词:“Holiday”,“Inn”,“Exp”和“KHOVRINO”,这四个词按照在搜索信息中出现的先后顺序排列构成搜索信息对应的词序列。
示例性地,对于中文的搜索信息,可以根据现有的任意一种分词方法,将搜索信息分词多个词,多个词按照在搜索信息中出现的顺序排列构成搜索信息的词序列。例如,分词结果中的每个词可以包括一个字、或者多个字构成的词。比如,可以将搜索信息拆分成一个一个的字,所有的字按照在搜索信息中出现的先后顺序排列构成搜索信息的词序列。
可选地,在得到搜索信息的词序列之后,可以将每个词经过映射矩阵映射成一个指定维度的词向量(word embedding),得到搜索信息的词向量序列。
其中,指定维度可以根据实际应用场景进行设置和调整,本实施例此处不做具体限定。例如,词向量可以统一设置成64维。
示例性地,对于搜索信息对应于每个分词粒度的语义特征的生成,可以基于两个不同的分词粒度:1和2,分别对搜索信息的词向量序列进行对应分词粒度的1-grams处理和1-grams处理,生成对应于分词粒度1的第一语义特征以及对应于分词粒度1的第二语义特征。
具体地,当分词粒度为1时,则将搜索信息的词向量序列输入1-grams卷积层,生成搜索信息的单字粒度的特征表示(unigram embedding),作为搜索信息的第一语义特征。当分词粒度为2时,则将搜索信息的词向量序列输入2-grams卷积层,生成搜索信息的双字粒度的特征表示(bigram embedding),作为搜索信息的第二语义特征。
步骤S203、将搜索信息对应于每个分词粒度的语义特征融合,生成搜索信息的语义向量。
在得到搜索信息对应于每个分词粒度的语义特征之后,将搜索信息对应于每个分词粒度的语义特征融合,得到搜索信息的语义向量。这样,搜索信息的语义向量中融合了搜索信息多个粒度的语义特征,包含丰富的语义信息。
示例性地,将搜索信息对应于每个分词粒度的语义特征融合,具体可以是将多个粒度的语义特征进行拼接,得到搜索信息的语义向量。
另外,将搜索信息对应于每个分词粒度的语义特征融合,还可以采用深度学习领域中任意一种将多个特征融合为一个特征的方法或模型实现,本实施例此处不再赘述。
例如,当用户输入的一个搜索信息(query)为“Holiday Inn Exp KHOVRINO”时,可以根据空格将搜索信息分成以下四个词:“Holiday”,“Inn”,“Exp”和“KHOVRINO”,这四个词按照在搜索信息中出现的先后顺序排列构成搜索信息对应的词序列,词序列中每个词对应的词向量及其构成的词向量序列如图4中所示。当分词粒度为1时,1-grams中的滑动窗口大小为1,随着滑动窗口的移动,滑动窗口分别停留在四个词的词向量时,生成词向量对应的特征,得到如图4中所示的u1,u2,u3和u4。u1,u2,u3和u4拼接构成搜索信息的单字粒度的特征表示(也称为unigram embedding,如图4中所示的Uq),作为搜索信息的第一语义特征。当分词粒度为2时,2-grams中的滑动窗口大小为2,随着滑动窗口的移动,滑动窗口每次截取2个词的向量,分别停留在3个位置,生成如图4中所示的3个特征:b1,b2和b3。b1,b2和b3拼接构成搜索信息的双字粒度的特征表示(也称为bigram embedding,如图4中所示的Bq),作为搜索信息的第二语义特征。然后将第一语义特征Uq和Bq拼接起来,得到搜索信息的语义向量。搜索信息的语义向量融合了搜索信息的unigram embedding和bigram embedding,包含丰富的语义特征,表达更丰富,能够提高召回率。
本实施例中,还可以将用户当前所在城市的特征向量融合到搜索信息的语义向量中,具体可以通过如下步骤S204-S205实现,以增加搜索信息的语义向量包含的语义信息的维度,可以进一步提高召回率。
步骤S204、获取用户当前所在城市对应的特征向量。
本实施例中,用户当前所在城市的信息可以通过用户终端的定位信息得到,或者还可以通过其他方式获取用户终端当前所在的位置,并进一步确定用户终端当前所在的城市。
在获取到用户当前所在城市之后,可以将用户当前所在城市映射成对应的特征向量,具体可以采用现有技术中任意一种生成文本信息对应的特征向量的方法实现,本实施例此处不再赘述。
步骤S205、将用户当前所在城市对应的特征向量与搜索信息的语义向量融合,得到搜索信息的新的语义向量。
在生成用户当前所在城市对应的特征向量之后,将用户当前所在城市对应的特征向量与步骤S203中生成的搜索信息的语义向量融合,生成新的语义向量,该新的语义向量包含更多维度的语义信息。
该步骤中,可以将用户当前所在城市对应的特征向量与搜索信息的语义向量按照固定顺序拼接;或者还可以采用深度学习领域中任意一种将多个特征融合为一个特征的方法或模型实现,本实施例此处不再赘述。
步骤S206、将新的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与搜索信息匹配的地理位置点。
将融合了用户当前所在城市对应的特征向量的新的语义向量包含更多维度的语义信息,将其作为搜索信息最终的语义向量,与语义向量索引库中各地理位置点的语义向量进行匹配,来确定与搜索信息匹配的地理位置点,可以进一步提高召回率。
本申请实施例进行地理位置点的在线搜索时,利用n-grams卷积神经网络来实现搜索信息的多粒度的语义特征的提取,同时由于n-grams卷积神经网络时延较低,可以有效降低地理位置点搜索的时延,提高搜索效率,缩短响应时间;通过将用户当前所在城市对应的特征向量与搜索信息的语义向量融合,得到的新的语义向量包含更多维度的语义信息,将新的语义向量作为搜索信息最终的语义向量,与语义向量索引库中各地理位置点的语义向量进行匹配,来确定与搜索信息匹配的地理位置点,可以进一步提高召回率。
对于地图类应用而言,国际化的地理位置点搜索是未来极具战略性价值的业务,在地图的地理位置点搜索领域非常重要。例如,国际化的POI搜索等。国际化的地理位置点搜索不同于国内搜索,在国际化的地理位置点搜索中,期望实现对地理位置点的跨语言的搜索。例如,输入中文搜索词搜索英文的地理位置点,或者对于输入英文搜索词搜索到中文地理位置点等。
为了实现跨语言的地理位置点的搜索,在上述第一实施例或者第二实施例的基础上,本申请另一实施例中,预先建立语义向量索引库。语义向量索引库中每个地理位置点的语义向量融合了该地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称的语义特征。另外,预先建立语义向量索引库可以离线完成,以避免影响在线搜索地理位置点的效率。
图5是本申请第三实施例提供的搜索地理位置点的流程框架图。如图5所示,搜索地理位置点的方法流程包括在线地搜索地理位置点,以及离线地建立语义向量索引库这两个部分。如图5所示,对于全量的地理位置点,都通过地理位置点语义模型,离线地生成各个地理位置点的语义向量,并建立语义向量索引库。在线进行地理位置点搜索时,利用搜索信息语义模型在线生成搜索信息的语义向量,然后通过K近邻查找方法将搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,召回与搜索信息的语义向量相似度最高的N个(top N)的地理位置点,N为整数。
其中,地理位置点语义模型用于实现根据地理位置点的相关信息,生成地理位置点的语义向量。搜索信息语义模型用于实现根据输入的搜索信息及相关信息(如用户当前所在城市),生成搜索信息的语义向量。地理位置点语义模型和搜索信息语义模型都是基于深度学习的深度语义模型,可以通过对两个模型的联合训练得到。
图6为本申请实施例提供的搜索地理位置点的模型整体结构示意图。在一种可选的实施方式中,搜索地理位置点的方法具体可以采用如图6所示的模型结构实现。
如图6右侧离线部分所示,在离线建立语义向量索引库时,可以应用图语义embedding信息,根据历史搜索信息以及地理位置点非搜索通用语言的名称构造地理位置点的关联信息图,然后利用图卷积网络(Graph Convolutional Network,缩写GCN)聚合邻居特征,利用图卷积网络的传播特性,获得地理位置点的图语义特征。还可以引入丰富的地理位置点的基本属性信息(例如搜索通用语言的名称,地址和所在城市等)的基础语义特征,实现地理位置点的多个域的语义特征的融合,使得最终表示地理位置点的语义向量包含更加多源更加丰富的语义信息,表达更加精准。具体地,可以将地理位置点的地址和所在城市分别映射称为对应的特征向量,得到对应的基础语义特征;可以利用小型化的知识增强语义表示模型(ERNIE-TINY)提取地理位置点的搜索通用语言的名称的基础语义特征;然后将地理位置点的搜索通用语言的名称的基础语义特征,地址和所在城市的基础语义特征,以及图语义特征拼接起来,构成地理位置点的语义向量。基于各地理位置点的语义向量可以建立语义向量索引库,能够构建更加准确高效的语义索引。
如图6左侧在线部分所示,在线搜索地理位置点时,对于用户输入的搜索信息,可以利用CNN来获取搜索信息的包含多粒度的语义特征的语义向量,并将该语义向量与用户所在城市对应的特征向量拼接,得到最终的搜索信息的语义向量。在进行地理位置点的搜索时,可以通过计算最终的搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量的语义匹配度,来确定与搜索信息匹配的地理位置点,能够有效的提升国际化检索召回率,缩短用户输入步长,提升用户搜索效率和满意度。
在线搜索地理位置点的过程在上述第一实施例和第二实施例中进行了详细地说明,本实施例此处不再赘述。
图7是本申请实施例提供的建立语义向量索引库的流程图。下面结合图7对离线地建立语义向量索引库的过程进行详细的说明。如图7所示,该建立语义向量索引库的具体步骤如下:
步骤S301、获取地理位置点的历史搜索数据。
本实施例中,为了获取各个地理位置点的历史搜索词,首先获取各个地理位置点的历史搜索数据。历史搜索数据可以是用户的搜索日志等用于记录地理位置点搜索相关信息的数据。
另外,在获取历史搜索数据时,可以获取指定的一个时间段内的历史搜索数据,以提高数据的可用性和数据处理的效率。
步骤S302、从地理位置点的历史搜索数据中,提取出地理位置点的历史搜索词,其中地理位置点的历史搜索词包括多种不同语言的搜索词。
其中,历史搜索词是指用户在过去某个时间搜索到地理位置点时使用的搜索信息,可以包括一个或者多个词,还可以包括多个词构成的句子。
根据历史搜索数据,可以统计出用户在某段时间内点击某个地理位置点所输入的搜索词。
步骤S303、根据地理位置点的非搜索通用语言的名称和历史搜索词,生成地理位置点的关联信息图。
为了实现国际化的地理位置点的搜索,可以将地理位置点的非搜索通用语言的名称的语义信息引入地理位置点的语义向量中。该非搜索通用语言可以是搜索通用语言之外的任意一种语言,可以是指定的需要实现跨语言搜索的语言类型,也可以是地理位置点所在地使用的第一语言。
其中,搜索通用语言是指搜索地理位置点的方法具体应用时的通用语言。例如,应用于某一国家时,搜索通用语言通常是该国家使用的第一语言,而其他国家的地理位置点所在地的第一语言可能与搜索通用语言不同。
例如,应用于以汉语为第一语言的国家时,地理位置点的搜索通用语言的名称为“芭提雅酒店”,为了实现跨汉语和英语两种语言的搜索,该地理位置点的非搜索通用语言的名称可以是“Hotel Pattaya”。这样,用户输入“芭提雅酒店”或者“Hotel Pattaya”都可以搜索到该地理位置点。
该步骤中,根据地理位置点的非搜索通用语言的名称和历史搜索词,生成地理位置点的关联信息图。
如图8所示,关联信息图包含地理位置点关联的多个(图中以m个为例,m为正整数)历史检索词和非搜索通用语言的名称。将地理位置点的关联的历史检索词和非搜索通用语言的名称作为节点,分别建立与地理位置点对应节点之间的关联边。这种构图方式,能够聚合点击地理位置点的历史搜索词的语义信息以及地理位置点非搜索通用语言的名称,为最后的地理位置点和搜索信息关联提供交叉特征,同时具备跨语言召回能力。
步骤S304、将关联信息图输入图卷积网络,生成地理位置点的图语义特征。
在生成地理位置点的关联信息图之后,将关联信息图输入图卷积网络,利用图卷积网络聚合地理位置点邻居节点特征,生成地理位置点的图语义特征,能够聚合点击地理位置点的历史搜索词的语义信息以及地理位置点非搜索通用语言的名称,为最后的地理位置点和搜索信息关联提供交叉特征,同时具备跨语言召回能力。
步骤S305、获取地理位置点的属性信息。
地理位置点除了名称之外,还有很多其他的属性信息。例如,地址、地理位置点、所在城市等等。这些信息对于地理位置点的表示也起到了重要的作用。比如当用户输入的搜索信息为“xx路xx号xx小区”的时候,命中了地理位置点的地址信息“xx路xx号”,这个地址信息对地理位置点的表达至关重要。同时地图搜索时空位置信息特别重要,在不同的城市输入同一个搜索信息,但是用户主需求大不同,比如:在北京和武汉搜索“中国地质大学”,用户的主需求分别是“中国地质大学(北京)”和“中国地质大学(武汉)”。本实施例中把地理位置点所在城市的语义特征也引入地理位置点的语义向量,进行多源融合。
本实施例中,还可以引入地理位置点的属性信息的基础语义特征,实现地理位置点的多个域的语义特征的融合,使得最终表示地理位置点的语义向量包含更加多源更加丰富的语义信息,表达更加精准。
该步骤中,获取的地理位置点的属性信息至少包括:地址和所在城市。
示例性地,可以利用离线收集各地图类应用的地理位置点的搜索或点击日志(例如session点击日志等),从搜索日志中提取出地理位置点的地址和所在城市等属性信息。
步骤S306、将每项属性信息分别映射成对应的特征向量,得到每项属性信息的基础语义特征。
在获取到地理位置点的属性信息之后,将每项属性信息分别映射成对应的特征向量,作为每项属性信息的基础语义特征。
步骤S307、利用知识增强语义表示模型,提取地理位置点的搜索通用语言的名称的基础语义特征。
本实施例中,可以利用表达能力更强的知识增强语义表示模型,提取地理位置点的搜索通用语言的名称的基础语义特征,可以提高语义特征的精准度。
可选地,知识增强语义表示模型还可以采用小型化的知识增强语义表示模型(ERNIE-TINY)或者其他变形的模型实现,此处不做具体限定。
步骤S308、将地理位置点的图语义特征,地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,得到地理位置点的语义向量。
本实施例中,将地理位置点的图语义特征,地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,生成地理位置点的语义向量,这样通过多源融合,使得地理位置点的语义向量包含了地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称等多个维度的语义信息,并且覆盖了多种语言。
该步骤中,可以将地理位置点的图语义特征,地理位置点的搜索通用语言的名称和属性信息的基础语义特征按照固定顺序进行拼接来进行融合;或者还可以采用深度学习领域中任意一种将多个特征融合为一个特征的方法或模型实现,本实施例此处不再赘述。
步骤S309、根据每个地理位置点的语义向量,构建语义向量索引库。
在得到各个地理位置点的语义向量之后,根据每个地理位置点的语义向量,构建语义向量索引库。
示例性地,在构建语义向量索引库时,可以采用NSW(Navigable Small WorldGraph)或者HNSW(Hierarchical NSW)等方法创建语义向量索引库,本实施例此处不再赘述。
本实施例中,在建立语义向量索引库时,将每个地理位置点的历史搜索词、属性信息、搜索通用语言的名称和非搜索通用语言的名称的语义特征融合,生成每个地理位置点的语义向量;根据每个地理位置点的语义向量,构建更加准确和高效的语义向量索引库。这样,语义向量索引库中每个地理位置点的语义向量融合了该地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称的语义特征,也就是地理位置点的语义向量包含了地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称等多个维度的语义信息,并且覆盖了多种语言,通过将搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,能够召回与搜索信息语义相关的地理位置点,实现地理位置点的跨语言搜索,并且大大提高地理位置点搜索的召回率和精准度。
图9是本申请第四实施例提供的搜索地理位置点的装置示意图。本申请实施例提供的搜索地理位置点的装置可以执行搜索地理位置点的方法实施例提供的处理流程。如图9所示,该搜索地理位置点的装置40包括:信息获取模块401,语义特征提取模块402,语义向量生成模块403和搜索模块404。
具体地,信息获取模块401用于响应于地理位置点搜索指令,获取输入的搜索信息。
语义特征提取模块402用于根据多个不同的分词粒度,提取搜索信息对应于每个分词粒度的语义特征。
语义向量生成模块403用于将搜索信息对应于每个分词粒度的语义特征融合,生成搜索信息的语义向量。
搜索模块404用于将搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与搜索信息匹配的地理位置点。
其中,语义向量索引库中每个地理位置点的语义向量融合了该地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称的语义特征。
本申请实施例提供的装置可以具体用于执行上述第一实施例提供的方法实施例,具体功能此处不再赘述。
本申请实施例通过对用户输入的搜索信息提取多个不同分词粒度的语义特征,将搜索信息对应多个不同分词粒度的语义特征融合得到搜索信息的语义向量,使得搜索信息的语义向量中包含搜索信息的丰富的语义特征,表达更加准确,能够提高地理位置点搜索的召回率和精准度;进一步地,用于搜索的语义向量索引库中各个地理位置点的语义向量融合了地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称等多维度信息的语义信息,并且覆盖了多种语言,这样,基于搜索信息的语义向量和该语义向量索引库进行地理位置点的搜索,能够召回与搜索信息语义相关的地理位置点,实现地理位置点的跨语言搜索,并且大大提高地理位置点搜索的召回率和精准度。
在上述第四实施例的基础上,本申请实施例中,语义特征提取模块还用于:将搜索信息进行分词处理,生成搜索信息对应的词向量序列;基于多个不同的分词粒度,对搜索信息的词向量序列进行每个分词粒度的n-grams处理,生成搜索信息对应于每个分词粒度的语义特征。
一种可选的实施方式中,语义特征提取模块还用于:
对搜索信息进行分词处理,确定搜索信息的词序列;将词序列中的每个词分别映射成对应的词向量,得到搜索信息的词向量序列。
一种可选的实施方式中,语义向量生成模块还用于:
获取用户当前所在城市对应的特征向量;将用户当前所在城市对应的特征向量与搜索信息的语义向量融合,得到搜索信息的新的语义向量;搜索模块还用于:将新的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与搜索信息匹配的地理位置点。
本申请实施例提供的装置可以具体用于执行上述第二实施例提供的方法实施例,具体功能此处不再赘述。
本申请实施例进行地理位置点的在线搜索时,利用n-grams卷积神经网络来实现搜索信息的多粒度的语义特征的提取,同时由于n-grams卷积神经网络时延较低,可以有效降低地理位置点搜索的时延,提高搜索效率,缩短响应时间;通过将用户当前所在城市对应的特征向量与搜索信息的语义向量融合,得到的新的语义向量包含更多维度的语义信息,将新的语义向量作为搜索信息最终的语义向量,与语义向量索引库中各地理位置点的语义向量进行匹配,来确定与搜索信息匹配的地理位置点,可以进一步提高召回率。
图10是本申请第六实施例提供的搜索地理位置点的装置示意图。在上述任一装置实施例的基础上,本实施例中,如图10所示,该搜索地理位置点的装置40还包括:语义向量索引库构建模块405。
语义向量索引库构建模块405用于:
将搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与搜索信息匹配的地理位置点之前,将每个地理位置点的历史搜索词、属性信息、搜索通用语言的名称和非搜索通用语言的名称的特征信息融合,生成每个地理位置点的语义向量;根据每个地理位置点的语义向量,构建语义向量索引库。
一种可选的实施方式中,语义向量索引库构建模块405还用于:
根据地理位置点的非搜索通用语言的名称和历史搜索词,生成地理位置点的关联信息图;将关联信息图输入图卷积网络,生成地理位置点的图语义特征;将地理位置点的图语义特征,地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,得到地理位置点的语义向量。
一种可选的实施方式中,语义向量索引库构建模块405还用于:
根据地理位置点的非搜索通用语言的名称和历史搜索词,生成地理位置点的关联信息图之前,获取地理位置点的历史搜索数据;从地理位置点的历史搜索数据中,提取出地理位置点的历史搜索词,其中地理位置点的历史搜索词包括多种不同语言的搜索词。
一种可选的实施方式中,语义向量索引库构建模块405还用于:
将地理位置点的图语义特征,地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,得到地理位置点的语义向量之前,获取地理位置点的属性信息;将每项属性信息分别映射成对应的特征向量,得到每项属性信息的基础语义特征。
一种可选的实施方式中,地理位置点的属性信息至少包括:地址和所在城市。
一种可选的实施方式中,语义向量索引库构建模块还用于:
将地理位置点的图语义特征,地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,得到地理位置点的语义向量之前,利用知识增强语义表示模型,提取地理位置点的搜索通用语言的名称的基础语义特征。
本申请实施例提供的装置可以具体用于执行上述第三实施例提供的方法实施例,具体功能此处不再赘述。
本实施例中,在建立语义向量索引库时,将每个地理位置点的历史搜索词、属性信息、搜索通用语言的名称和非搜索通用语言的名称的语义特征融合,生成每个地理位置点的语义向量;根据每个地理位置点的语义向量,构建更加准确和高效的语义向量索引库。这样,语义向量索引库中每个地理位置点的语义向量融合了该地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称的语义特征,也就是地理位置点的语义向量包含了地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称等多个维度的语义信息,并且覆盖了多种语言,通过将搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,能够召回与搜索信息语义相关的地理位置点,实现地理位置点的跨语言搜索,并且大大提高地理位置点搜索的召回率和精准度。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图11所示,是根据本申请实施例的搜索地理位置点的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图11所示,该电子设备包括:一个或多个处理器Y01、存储器Y02,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器Y01为例。
存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的搜索地理位置点的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的搜索地理位置点的方法。
存储器Y02作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的搜索地理位置点的方法对应的程序指令/模块(例如,附图9所示的信息获取模块401,语义特征提取模块402,语义向量生成模块403和搜索模块404)。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的搜索地理位置点的方法。
存储器Y02可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据搜索地理位置点的电子设备的使用所创建的数据等。此外,存储器Y02可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器Y02可选包括相对于处理器Y01远程设置的存储器,这些远程存储器可以通过网络连接至搜索地理位置点的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
搜索地理位置点的方法的电子设备还可以包括:输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接,图11中以通过总线连接为例。
输入装置Y03可接收输入的数字或字符信息,以及产生与搜索地理位置点的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,本实施例中,用户输入搜索信息(query)进行搜索时,可直接获取离线预测召回的相关地理位置点及其置信度,解决搜索因为用户输入简写、输入错误等query无法召回地理位置点的问题以及跨语言搜索等难题,由于地理位置点的语义向量融合了地理位置点的多源语义特征(embedding)信息,使地理位置点表达更加准确;同时query使用多粒度提取特征,query表达也更加准确丰富,所以能够精准的召回主需求的地理位置点,从离线实验效果来看,搜索时匹配top90的召回率绝对提升1.1%,召回率明显提升。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (22)

1.一种搜索地理位置点的方法,包括:
响应于地理位置点搜索指令,获取输入的搜索信息;
根据多个不同的分词粒度,提取所述搜索信息对应于每个所述分词粒度的语义特征;
将所述搜索信息对应于每个所述分词粒度的语义特征融合,生成所述搜索信息的语义向量;
将所述搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与所述搜索信息匹配的地理位置点;
其中,所述语义向量索引库中每个地理位置点的语义向量融合了该地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称的语义特征。
2.根据权利要求1所述的方法,其中,根据多个不同的分词粒度,提取所述搜索信息对应于每个所述分词粒度的语义特征,包括:
将所述搜索信息进行分词处理,生成所述搜索信息对应的词向量序列;
基于多个不同的分词粒度,对所述搜索信息的词向量序列进行每个所述分词粒度的n-grams处理,生成所述搜索信息对应于每个所述分词粒度的语义特征。
3.根据权利要求2所述的方法,其中,将所述搜索信息进行分词处理,生成所述搜索信息对应的词向量序列,包括:
对所述搜索信息进行分词处理,确定所述搜索信息的词序列;
将所述词序列中的每个词分别映射成对应的词向量,得到所述搜索信息的词向量序列。
4.根据权利要求1-3中任一项所述的方法,其中,将所述搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与所述搜索信息匹配的地理位置点,包括:
获取用户当前所在城市对应的特征向量;
将所述用户当前所在城市对应的特征向量与所述搜索信息的语义向量融合,得到所述搜索信息的新的语义向量;
将所述新的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与所述搜索信息匹配的地理位置点。
5.根据权利要求1-3中任一项所述的方法,其中,将所述搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与所述搜索信息匹配的地理位置点之前,还包括:
将每个地理位置点的历史搜索词、属性信息、搜索通用语言的名称和非搜索通用语言的名称的特征信息融合,生成每个所述地理位置点的语义向量;
根据每个所述地理位置点的语义向量,构建所述语义向量索引库。
6.根据权利要求5所述的方法,其中,将每个地理位置点的历史搜索词、属性信息、搜索通用语言的名称和非搜索通用语言的名称的特征信息融合,生成每个所述地理位置点的语义向量,包括:
根据所述地理位置点的非搜索通用语言的名称和历史搜索词,生成所述地理位置点的关联信息图;
将所述关联信息图输入图卷积网络,生成所述地理位置点的图语义特征;
将所述地理位置点的图语义特征,所述地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,得到所述地理位置点的语义向量。
7.根据权利要求6所述的方法,其中,根据所述地理位置点的非搜索通用语言的名称和历史搜索词,生成所述地理位置点的关联信息图之前,还包括:
获取所述地理位置点的历史搜索数据;
从所述地理位置点的历史搜索数据中,提取出所述地理位置点的历史搜索词,其中所述地理位置点的历史搜索词包括多种不同语言的搜索词。
8.根据权利要求6所述的方法,其中,将所述地理位置点的图语义特征,所述地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,得到所述地理位置点的语义向量之前,还包括:
获取所述地理位置点的属性信息;
将每项所述属性信息分别映射成对应的特征向量,得到每项所述属性信息的基础语义特征。
9.根据权利要求8所述的方法,其中,所述地理位置点的属性信息至少包括:地址和所在城市。
10.根据权利要求6所述的方法,其中,将所述地理位置点的图语义特征,所述地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,得到所述地理位置点的语义向量之前,还包括:
利用知识增强语义表示模型,提取所述地理位置点的搜索通用语言的名称的基础语义特征。
11.一种搜索地理位置点的装置,包括:
信息获取模块,用于响应于地理位置点搜索指令,获取输入的搜索信息;
语义特征提取模块,用于根据多个不同的分词粒度,提取所述搜索信息对应于每个所述分词粒度的语义特征;
语义向量生成模块,用于将所述搜索信息对应于每个所述分词粒度的语义特征融合,生成所述搜索信息的语义向量;
搜索模块,用于将所述搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与所述搜索信息匹配的地理位置点;
其中,所述语义向量索引库中每个地理位置点的语义向量融合了该地理位置点的多种语言的历史搜索词、属性信息和非搜索通用语言的名称的语义特征。
12.根据权利要求11所述的装置,其中,所述语义特征提取模块还用于:
将所述搜索信息进行分词处理,生成所述搜索信息对应的词向量序列;
基于多个不同的分词粒度,对所述搜索信息的词向量序列进行每个所述分词粒度的n-grams处理,生成所述搜索信息对应于每个所述分词粒度的语义特征。
13.根据权利要求12所述的装置,其中,所述语义特征提取模块还用于:
对所述搜索信息进行分词处理,确定所述搜索信息的词序列;
将所述词序列中的每个词分别映射成对应的词向量,得到所述搜索信息的词向量序列。
14.根据权利要求11-13中任一项所述的装置,其中,所述语义向量生成模块还用于:
获取用户当前所在城市对应的特征向量;将所述用户当前所在城市对应的特征向量与所述搜索信息的语义向量融合,得到所述搜索信息的新的语义向量;
所述搜索模块还用于:将所述新的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与所述搜索信息匹配的地理位置点。
15.根据权利要求11-13中任一项所述的装置,还包括:
语义向量索引库构建模块,用于:
将所述搜索信息的语义向量与语义向量索引库中各地理位置点的语义向量进行匹配,确定与所述搜索信息匹配的地理位置点之前,将每个地理位置点的历史搜索词、属性信息、搜索通用语言的名称和非搜索通用语言的名称的特征信息融合,生成每个所述地理位置点的语义向量;根据每个所述地理位置点的语义向量,构建所述语义向量索引库。
16.根据权利要求15所述的装置,其中,所述语义向量索引库构建模块还用于:
根据所述地理位置点的非搜索通用语言的名称和历史搜索词,生成所述地理位置点的关联信息图;
将所述关联信息图输入图卷积网络,生成所述地理位置点的图语义特征;
将所述地理位置点的图语义特征,所述地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,得到所述地理位置点的语义向量。
17.根据权利要求16所述的装置,其中,所述语义向量索引库构建模块还用于:
根据所述地理位置点的非搜索通用语言的名称和历史搜索词,生成所述地理位置点的关联信息图之前,获取所述地理位置点的历史搜索数据;
从所述地理位置点的历史搜索数据中,提取出所述地理位置点的历史搜索词,其中所述地理位置点的历史搜索词包括多种不同语言的搜索词。
18.根据权利要求16所述的装置,其中,所述语义向量索引库构建模块还用于:
将所述地理位置点的图语义特征,所述地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,得到所述地理位置点的语义向量之前,获取所述地理位置点的属性信息;
将每项所述属性信息分别映射成对应的特征向量,得到每项所述属性信息的基础语义特征。
19.根据权利要求18所述的装置,其中,所述地理位置点的属性信息至少包括:地址和所在城市。
20.根据权利要求16所述的装置,其中,所述语义向量索引库构建模块还用于:
将所述地理位置点的图语义特征,所述地理位置点的搜索通用语言的名称和属性信息的基础语义特征进行融合,得到所述地理位置点的语义向量之前,利用知识增强语义表示模型,提取所述地理位置点的搜索通用语言的名称的基础语义特征。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。
CN202011325558.9A 2020-11-23 2020-11-23 搜索地理位置点的方法、装置、设备及存储介质 Active CN112328890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011325558.9A CN112328890B (zh) 2020-11-23 2020-11-23 搜索地理位置点的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011325558.9A CN112328890B (zh) 2020-11-23 2020-11-23 搜索地理位置点的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112328890A true CN112328890A (zh) 2021-02-05
CN112328890B CN112328890B (zh) 2024-04-12

Family

ID=74322175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011325558.9A Active CN112328890B (zh) 2020-11-23 2020-11-23 搜索地理位置点的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112328890B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204697A (zh) * 2021-04-29 2021-08-03 五八有限公司 一种搜索方法、装置、电子设备及存储介质
CN113641696A (zh) * 2021-08-12 2021-11-12 北京百度网讯科技有限公司 一种虚假流量检测方法、装置、电子设备及存储介质
CN116756438A (zh) * 2023-07-20 2023-09-15 兰州交通大学 一种基于向量空间模型检索微地图的改进方法
CN117725324A (zh) * 2024-02-08 2024-03-19 腾讯科技(深圳)有限公司 地图搜索方法及装置、电子设备、存储介质、程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140114649A1 (en) * 2006-10-10 2014-04-24 Abbyy Infopoisk Llc Method and system for semantic searching
CN106547871A (zh) * 2016-10-31 2017-03-29 北京百度网讯科技有限公司 基于神经网络的搜索结果的召回方法和装置
US20170177712A1 (en) * 2015-12-21 2017-06-22 Ebay Inc. Single step cross-linguistic search using semantic meaning vectors
CN108763293A (zh) * 2018-04-17 2018-11-06 平安科技(深圳)有限公司 基于语义理解的兴趣点查询方法、装置和计算机设备
CN110162593A (zh) * 2018-11-29 2019-08-23 腾讯科技(深圳)有限公司 一种搜索结果处理、相似度模型训练方法及装置
CN111310438A (zh) * 2020-02-20 2020-06-19 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN111782748A (zh) * 2020-06-28 2020-10-16 北京百度网讯科技有限公司 地图检索方法、信息点poi语义向量的计算方法和装置
CN111914179A (zh) * 2020-08-19 2020-11-10 腾讯科技(深圳)有限公司 基于语义的模糊搜索方法和装置、存储介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140114649A1 (en) * 2006-10-10 2014-04-24 Abbyy Infopoisk Llc Method and system for semantic searching
US20170177712A1 (en) * 2015-12-21 2017-06-22 Ebay Inc. Single step cross-linguistic search using semantic meaning vectors
CN106547871A (zh) * 2016-10-31 2017-03-29 北京百度网讯科技有限公司 基于神经网络的搜索结果的召回方法和装置
CN108763293A (zh) * 2018-04-17 2018-11-06 平安科技(深圳)有限公司 基于语义理解的兴趣点查询方法、装置和计算机设备
CN110162593A (zh) * 2018-11-29 2019-08-23 腾讯科技(深圳)有限公司 一种搜索结果处理、相似度模型训练方法及装置
CN111310438A (zh) * 2020-02-20 2020-06-19 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN111782748A (zh) * 2020-06-28 2020-10-16 北京百度网讯科技有限公司 地图检索方法、信息点poi语义向量的计算方法和装置
CN111914179A (zh) * 2020-08-19 2020-11-10 腾讯科技(深圳)有限公司 基于语义的模糊搜索方法和装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIZHOU HUANG ET AL: "Personalized Prefix Embedding for POI Auto-Completion in the Search Engine of Baidu Maps", 《KDD \'20: PROCEEDINGS OF THE 26TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING》, 31 August 2020 (2020-08-31) *
张舒;莫赞;柳建华;杨培琛;刘洪伟;: "基于NWD集成算法的多粒度微博用户兴趣画像构建", 广东工业大学学报, no. 04, 14 July 2020 (2020-07-14) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204697A (zh) * 2021-04-29 2021-08-03 五八有限公司 一种搜索方法、装置、电子设备及存储介质
CN113641696A (zh) * 2021-08-12 2021-11-12 北京百度网讯科技有限公司 一种虚假流量检测方法、装置、电子设备及存储介质
CN116756438A (zh) * 2023-07-20 2023-09-15 兰州交通大学 一种基于向量空间模型检索微地图的改进方法
CN117725324A (zh) * 2024-02-08 2024-03-19 腾讯科技(深圳)有限公司 地图搜索方法及装置、电子设备、存储介质、程序产品

Also Published As

Publication number Publication date
CN112328890B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN112328890B (zh) 搜索地理位置点的方法、装置、设备及存储介质
JP2022013602A (ja) テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
US11709999B2 (en) Method and apparatus for acquiring POI state information, device and computer storage medium
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
KR20220003085A (ko) 검색 결과를 결정하는 방법, 장치, 기기 및 컴퓨터 기록 매체
KR20210151728A (ko) 검색어의 추천 방법, 타겟 모델의 트레이닝 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
JP2023510906A (ja) 地理的位置ポイント空間関係を抽出する方法、抽出モデルをトレーニングする方法、及び装置
CN112528001B (zh) 一种信息查询方法、装置及电子设备
JP7203981B2 (ja) 地理位置を検索するための類似性モデル作成方法、装置、電子デバイス、記憶媒体およびプログラム
CN110909170A (zh) 兴趣点知识图谱构建方法、装置、电子设备及存储介质
JP7319391B2 (ja) 地理的位置を検索する方法、装置、機器、コンピュータ記憶媒体及びコンピュータプログラム
US11704326B2 (en) Generalization processing method, apparatus, device and computer storage medium
CN111737954A (zh) 文本相似度确定方法、装置、设备和介质
CN111090991A (zh) 场景纠错方法、装置、电子设备和存储介质
CN111460296A (zh) 用于更新事件集合的方法和装置
CN111241242A (zh) 目标内容的确定方法、装置、设备及计算机可读存储介质
JP7241122B2 (ja) スマート応答方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20210216710A1 (en) Method and apparatus for performing word segmentation on text, device, and medium
CN111125445A (zh) 社区主题生成方法、装置、电子设备及存储介质
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
KR102531507B1 (ko) 정보 출력 방법, 장치, 기기 및 저장 매체
CN113902005A (zh) 语言模型的预训练方法、装置、设备和存储介质
CN111475614A (zh) 知识推理对话方法、装置、电子设备和存储介质
CN111782748A (zh) 地图检索方法、信息点poi语义向量的计算方法和装置
CN113255398A (zh) 兴趣点判重方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant