CN115017425B - 地点检索方法、装置、电子设备以及存储介质 - Google Patents

地点检索方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN115017425B
CN115017425B CN202210844435.9A CN202210844435A CN115017425B CN 115017425 B CN115017425 B CN 115017425B CN 202210844435 A CN202210844435 A CN 202210844435A CN 115017425 B CN115017425 B CN 115017425B
Authority
CN
China
Prior art keywords
text
vector
query statement
interest point
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210844435.9A
Other languages
English (en)
Other versions
CN115017425A (zh
Inventor
沈奇
赵骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yishi Huolala Technology Co Ltd
Original Assignee
Shenzhen Yishi Huolala Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yishi Huolala Technology Co Ltd filed Critical Shenzhen Yishi Huolala Technology Co Ltd
Priority to CN202210844435.9A priority Critical patent/CN115017425B/zh
Publication of CN115017425A publication Critical patent/CN115017425A/zh
Application granted granted Critical
Publication of CN115017425B publication Critical patent/CN115017425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种地点检索方法、装置、电子设备以及存储介质,包括:接收查询语句;检测所述查询语句的意图;当检测到所述查询语句的意图为门址意图时,获取深度语义召回模型,所述深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的;基于所述深度语义召回模型对所述查询语句进行召回,并输出所述查询语句对应的地点召回结果,该方案不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。

Description

地点检索方法、装置、电子设备以及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种地点检索方法、装置、电子设备以及存储介质。
背景技术
随着智能设备和移动互联网技术的发展,结合互联网的新型出行方式也出现了蓬勃的发展。为了更好地满足用户的需求,准确识别用户想要去的目的地对于地点检索至关重要。
目前的地点检索方案,主要是对用户输入的地点词,通常会进行目的地的推荐,以便于用户对目的地进行选择,其选择的依据主要是基于数据库里已有的结果进行打分,返回最高相似度的分的结果,然而,这种方法需要依赖庞大且完备的数据,如果用户搜索的地址不在库中就无法预测;其次,结果受限于排序算法效果,可能出现文本结构相似度大于语义相似度,由此可见,在目前的地点检索方案中,不仅召回率较低,且准确性较差。
发明内容
本申请实施例提供一种地点检索方法、装置、电子设备以及存储介质,不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
本申请实施例提供了一种地点检索方法,包括:
接收查询语句;
检测所述查询语句的意图;
当检测到所述查询语句的意图为门址意图时,获取深度语义召回模型,所述深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的;
基于所述深度语义召回模型对所述查询语句进行召回,并输出所述查询语句对应的地点召回结果。
可选的,在一些实施例中,所述检测所述查询语句的意图之前,还包括:
获取点击日志、历史查询语句以及兴趣点文本;
提取所述历史查询语句的语义以及兴趣点文本的语义,得到第一语义向量和第二语义向量;
基于所述点击日志、第一语义向量和第二语义向量对预设基础模型进行训练,得到深度语义召回模型。
可选的,在一些实施例中,所述提取所述历史查询语句的语义以及兴趣点文本的语义,得到第一语义向量和第二语义向量,包括:
获取预设向量库;
基于所述预设向量库对所述查询语句和兴趣点文本进行编码,得到第一文本向量和第二文本向量;
分别对所述第一文本向量和第二文本向量进行类别编码,并将编码后第一文本向量和编码后第二文本向量输入至相同的特征提取网络,得到第一语义向量和第二语义向量。
可选的,在一些实施例中,所述获取预设向量库之前,还包括:
获取兴趣点集,所述兴趣点样本集包括多个兴趣点;
构建所述兴趣点集对应的图网络;
提取所述图网络对应的嵌入向量,并将所述嵌入向量存储至预设数据库中,得到向量库。
可选的,在一些实施例中,所述基于所述点击日志、第一语义向量和第二语义向量对预设基础模型进行训练,得到深度语义召回模型,包括:
基于所述点击日志,对所述兴趣点文本进行负采样;
根据采样结果,在所述兴趣点文本确定满足预设条件的目标文本;
计算所述第一语义向量和所述目标文本对应的第二语义向量之间的内积;
基于计算结果,计算所述预设基础模型的目标损失,并根据所述目标损失对预设基础模型进行训练,得到深度语义召回模型。
可选的,在一些实施例中,所述基于所述深度语义召回模型对所述查询语句进行召回,并输出所述查询语句对应的地点召回结果,包括:
基于所述深度语义召回模型对所述查询语句进行召回;
基于所述点击日志对召回的目标文本进行排序;
输出排序后的目标文本。
可选的,在一些实施例中,所述检测所述查询语句的意图,包括:
对所述查询语句进行分割,得到所述查询语句对应的至少一个实体词;
基于所述实体词,输出所述查询语句的意图。
相应的,本申请还提供一种地点检索装置,包括
接收模块,用于接收查询语句;
检测模块,用于检测所述查询语句的意图;
获取模块,用于当检测到所述查询语句的意图为门址意图时,获取深度语义召回模型,所述深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的;
召回模块,用于基于所述深度语义召回模型对所述查询语句进行召回,并输出所述查询语句对应的地点召回结果。
相应的,本申请还提供一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时如上任一所述方法的步骤。
本申请还提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本申请实施例在接收查询语句后,检测所述查询语句的意图,当检测到所述查询语句的意图为门址意图时,获取深度语义召回模型,所述深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的,最后,基于所述深度语义召回模型对所述查询语句进行召回,并输出所述查询语句对应的地点召回结果。本申请提供的地点检索的方案,预先利用点击日志、历史查询语句和兴趣点文本训练得到深度语义召回模型,当检测到查询语句的意图为门址意图时,可以利用该深度语义召回模型对查询语句进行处理,使得召回的地点能够融合地理语义和文本语义,从而不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的地点检索方法的流程示意图;
图2是本申请实施例提供的地点检索方法中孪生BERT模型的结构示意图;
图3是本申请实施例提供的地点检索装置的结构示意图;
图4是本申请实施例提供的地点检索装置的另一结构示意图
图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种地点检索方法、装置、电子设备和存储介质。
其中,该地点检索装置具体可以集成在服务器或者终端中,服务器可以包括一个独立运行的服务器或者分布式服务器,也可以包括由多个服务器组成的服务器集群,终端可以包括手机、平板电脑或个人计算机(PC,Personal Computer)。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
一种地点检索方法,包括:接收查询语句,检测查询语句的意图,当检测到查询语句的意图为门址意图时,获取深度语义召回模型,基于深度语义召回模型对查询语句进行召回,并输出查询语句对应的地点召回结果。
请参阅图1,图1为本申请实施例提供的地点检索方法的流程示意图。该地点检索方法的具体流程可以如下:
101、接收查询语句。
其中,查询语句可以是由用户输入的语句,查询语句还可以是保存在本地数据库的语句,也可以是通过访问网络接口拉取得到的语句,具体根据实际情况而定。
比如,用户在打车软件中输入“XX区XX路”,那么该“XX区XX路”则为查询语句;又比如,用户在货运软件中输入“XX小区”,那么该“XX小区”则为查询语句。
102、检测查询语句的意图。
语句意图识别又称文本意图识别,本申请利用预设的命名实体识别(NamedEntity Recognition, NER,NER)算法对查询语句进行实体切分,得到查询语句对应的至少一个实体词,其中,实体词指的是具有特定语义的词语,具体可以是能够指代某项事物的名词,比如张三、或XX小区,等等。NER自然语言处理中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。
命名实体一般指的是文本中具有特定意义或者指代性强的实体,学术上通常包括实体类,时间类,数字类三大类和人名、地名、组织机构名、时间、日期、货币、百分比七小类。NER就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。
命名实体识别算法可以包括基于词典和规则的方法、传统机器学习的方法以及采用基于深度学习的方法。
基于规则的NER系统依赖于人工制定的规则。规则的设计一般基于句法、语法、词汇的模式以及特定领域的知识等。词典是由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典。 制定好规则和词典后,通常使用匹配的方式对文本进行处理以实现命名实体识别。
在基于机器学习的方法中,命名实体识别被当作是序列标注问题。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。采用的传统机器学习方法主要包括:隐马尔可夫模型、最大熵、最大熵马尔可夫模型、支持向量机以及条件随机场。
故,在得到实体词后,可以根据该实体词,输出查询语句的意图。
103、当检测到查询语句的意图为门址意图时,获取深度语义召回模型。
门址是地图数据中的一种,通常包括街道名称、门牌号码等信息,在本申请中,查询语句的意图为门址意图指的是该查询语句所查询的信息为门址,如街道、门牌号码等。
在本申请的一些实施例中,该深度语义召回模型是BERT模型为基础的孪生模型,BERT的全称是Bidirectional Encoder Representations from Transformer,也就是基于Transformer的双向编码器表征,同时,BERT模型也是一种预训练的语言模型,它的特点之一就是所有层都联合上下文语境进行预训练。训练方法是通过预测随机隐藏(Mask)的一部分输入符号(token)或者对输入的下一个句子进行分类,判断下一个句子是否真的属于给定语料里真实的跟随句子。
其中,深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的。可以理解的是,在检测查询语句之前,可以预先训练得到该深度语义召回模型,即,步骤“检测查询语句的意图”之前,具体可以包括:
(11)获取点击日志、历史查询语句以及兴趣点文本;
(12)提取历史查询语句的语义以及兴趣点文本的语义,得到第一语义向量和第二语义向量;
(13)基于点击日志、第一语义向量和第二语义向量对预设基础模型进行训练,得到深度语义召回模型。
其中,点击日志包含历史时段内历史查询语句对应的历史查询结果,该历史查询结果包括曝光且点击的查询结果和曝光且未点击的查询结果,需要说明的是,在本申请中,曝光指的是查询结果被展示,历史查询语句可以是一个用户在历史时段内查询时所产生的语句,也可以是多个用户在历史时段内查询时所产生的的语句,具体可以根据实际情况进行选择,在此不做赘述。在地图信息系统中,兴趣点(Point of Interest,POI)可以是一栋房子、一个商铺或一个公交站等。其中,POI数据属于最简单的矢量数据,即,坐标点标注数据,POI数据携带有没有个POI的属性信息,如所属行政区域、邮编以及城市名等等。
为了提高后续深度语义召回网络进行查询地点的召回率和准确性,在本申请的一些实施例中,可以利用历史查询语句的语义和POI文本的语义,对预设基础模型进行训练,使得深度语义召回网络在文本召回(或查询地点召回)时不仅可以关注到文本的语义,还可以关注到POI的语义,由此提高查询地点的召回率和准确性。
由于查询语句和POI文本均属于文本,因此,提取其对应的语义需要将其转化成向量,以便后续进行语义提取,即,可选地,在一些实施例中,步骤“提取历史查询语句的语义以及兴趣点文本的语义,得到第一语义向量和第二语义向量”,具体可以包括:
(21)获取预设向量库;
(22)基于预设向量库对查询语句和兴趣点文本进行编码,得到第一文本向量和第二文本向量;
(23)分别对第一文本向量和第二文本向量进行类别编码,并将编码后第一文本向量和编码后第二文本向量输入至相同的特征提取网络,得到第一语义向量和第二语义向量。
基于POI文本,在BERT模型中融合地理嵌入向量的信息。首先在输入层对货运门址(即地址)进行掩膜(mask),将POI对应的门址嵌入向量和BERT的嵌入向量求平均后,进入共同的特征计算层。其损失是对门址mask和文本mask进行预测。该方式下,每个字最后一层向量可以作为文本语义和地理语义的融合向量,并将融合字向量存放起来。其中,对货运门址mask的预测应用充分表达了货运地理信息。
需要说明的是,本申请可以预先利用图网络和卷积神经网络构建POI对应的门址和距离表达的嵌入向量,即,步骤“获取预设向量库”之前,具体还可以包括:
(31)获取兴趣点集;
(32)构建兴趣点集对应的图网络;
(33)提取图网络对应的嵌入向量,并将嵌入向量存储至预设数据库中,得到向量库。
其中,兴趣点样本集包括多个兴趣点,具体的,本申请可以采用无权异构图方式,可对多维信息进行融合学习并表示。第一种连边方式是对设定距离内且相同类别的POI进行连接,我们设定距离等于1km,通过类别限制的方式对距离内的POI进行连接约束。这里POI的类别包括门址、道路、小区、商场、商店等。具体连接方式是,对每个poi连边时,搜索全城1km内的所有POI,同时当类别相同时(或附属类别,例如小区和小区门),两两POI进行连边。例如,古北壹号和古北壹号(西北门)属于附属类别,同时两个POI距离在1km内,两个POI连边。第二种方式是通过货运门址信息连边,货运场景中POI的名称地址都可能存在门址信息,我们对名称地址进行门址识别,存放在门址属性中,我们对相同道路的POI进行连边,并将省份、城市、区县、道路生成一个虚拟节点,同时基于虚拟节点之间的隶属关系连边,比如“上海市黄浦区淮海中路”,“淮海中路”和“黄浦区”连接,“黄浦区”和“上海市”连接,同时淮海中路上的POI都会和虚拟节点“淮海中路”连接。
构建完了图网络后,经过一个卷积神经网络,即可得到POI对应的门址和距离表达的嵌入向量。
在进行训练时,为了提高深度语义召回模型对负样本的识别能力,可以对曝光未点击的POI样本进行负采样,以筛选出语义相似度差距太大的POI,随后,利用点击日志、历史查询语句和筛选后的POI对模型进行训练,即,可选地,在一些实施例中,步骤“基于点击日志、第一语义向量和第二语义向量对预设基础模型进行训练,得到深度语义召回模型”,具体可以包括:
(41)基于点击日志,对兴趣点文本进行负采样;
(42)根据采样结果,在兴趣点文本确定满足预设条件的目标文本;
(43)计算第一语义向量和目标文本对应的第二语义向量之间的内积;
(44)基于计算结果,计算预设基础模型的目标损失,并根据目标损失对预设基础模型进行训练,得到深度语义召回模型。
在对POI文本筛选后,可以构建BERT孪生网络,如图2所示,一侧对查询语句(query)进行编码,另一侧对POI文本进行编码。两侧采用相同的向量嵌入(embedding)的方式,对用户定位和POI经纬度进行哈希编码,每个字的embedding从文本地理语义向量库中取得,并对query和POI文本进行类别编码。对两部分embedding进行相同结构的特征提取网络计算后,得到query和POI文本各自的语义向量。对两个向量求内积相关性,并将正负样本进入softmax激活函数计算后,对结果求交叉熵损失,最后,利用该交叉熵损失对预设基础模型进行训练,得到深度语义召回模型。
在线上推断时,考虑提前将POI向量存起来,线上模型只需要在线推断query的向量即可,然后去POI的向量索引中召回与query语义向量接近的结果。
104、基于深度语义召回模型对查询语句进行召回,并输出查询语句对应的地点召回结果。
在实际召回时,当确定查询语句的意图为门址意图时,深度语义招呼模型来进行门址POI召回,之后的阶段和文本倒排召回一起进入粗排、质检、精排流程中,即,可选地,步骤“基于深度语义召回模型对查询语句进行召回,并输出查询语句对应的地点召回结果”,具体可以包括:
(51)基于深度语义召回模型对查询语句进行召回;
(52)基于点击日志对召回的目标文本进行排序;
(53)输出排序后的目标文本。
本申请实施例在接收查询语句后,检测查询语句的意图,当检测到查询语句的意图为门址意图时,获取深度语义召回模型,该深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的,最后,基于深度语义召回模型对查询语句进行召回,并输出查询语句对应的地点召回结果。本申请提供的地点检索的方案,预先利用点击日志、历史查询语句和兴趣点文本训练得到深度语义召回模型,当检测到查询语句的意图为门址意图时,可以利用该深度语义召回模型对查询语句进行处理,使得召回的地点能够融合地理语义和文本语义,从而不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
为便于更好的实施本申请实施例的地点检索方法,本申请实施例还提供一种基于上述地点检索装置(简称检索装置)。其中名词的含义与上述地点检索方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3,图3为本申请实施例提供的地点检索装置的结构示意图,其中该训练装置可以包括接收模块201、检测模块202、获取模块203以及召回模块204,具体可以如下:
接收模块201,用于接收查询语句;
其中,查询语句可以是由用户输入的语句,查询语句还可以是保存在本地数据库的语句,也可以是通过访问网络接口拉取得到的语句,具体根据实际情况而定。
比如,接收模块201可以用接收用户在打车软件中输入的查询语句“XX区XX路”。
检测模块202,用于检测查询语句的意图。
语句意图识别又称文本意图识别,本申请利用预设的命名实体识别(NamedEntity Recognition, NER,NER)算法对查询语句进行实体切分,得到查询语句对应的至少一个实体词,即,检测模块202具体可以用于:对查询语句进行分割,得到查询语句对应的至少一个实体词;基于实体词,输出查询语句的意图。
获取模块203,用于当检测到查询语句的意图为门址意图时,获取深度语义召回模型。
可选地,在本申请的一些实施例中,该深度语义召回模型是BERT模型为基础的孪生模型,该深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的,可以理解的是,在检测查询语句之前,可以预先训练得到该深度语义召回模型,即,请参阅图4,可选地,在本申请的一些实施例中,该检索装置具体还可以包括训练模块205,该训练模块205用于:获取点击日志、历史查询语句以及兴趣点文本;提取历史查询语句的语义以及兴趣点文本的语义,得到第一语义向量和第二语义向量;基于点击日志、第一语义向量和第二语义向量对预设基础模型进行训练,得到深度语义召回模型。
可选地,在一些实施例中,该训练模块205具体可以用于:获取预设向量库;基于预设向量库对查询语句和兴趣点文本进行编码,得到第一文本向量和第二文本向量;分别对第一文本向量和第二文本向量进行类别编码,并将编码后第一文本向量和编码后第二文本向量输入至相同的特征提取网络,得到第一语义向量和第二语义向量。
可选地,在一些实施例中,该训练模块205具体可以用于:获取兴趣点集;构建兴趣点集对应的图网络;提取图网络对应的嵌入向量,并将嵌入向量存储至预设数据库中,得到向量库。
可选地,在一些实施例中,该训练模块205具体可以用于:基于点击日志,对兴趣点文本进行负采样;根据采样结果,在兴趣点文本确定满足预设条件的目标文本;计算第一语义向量和目标文本对应的第二语义向量之间的内积;基于计算结果,计算预设基础模型的目标损失,并根据目标损失对预设基础模型进行训练,得到深度语义召回模型。
召回模块204,用于基于深度语义召回模型对查询语句进行召回,并输出查询语句对应的地点召回结果。
可选地,在一些实施例中,召回模块204具体可以用于:基于深度语义召回模型对查询语句进行召回;基于点击日志对召回的目标文本进行排序;输出排序后的目标文本。
本申请实施例的接收模块201在接收查询语句后,检测模块202检测查询语句的意图,当检测模块20检测到查询语句的意图为门址意图时,获取模块203获取深度语义召回模型,该深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的,最后,召回模块204基于深度语义召回模型对查询语句进行召回,并输出查询语句对应的地点召回结果。本申请提供的地点检索的方案,预先利用点击日志、历史查询语句和兴趣点文本训练得到深度语义召回模型,当检测到查询语句的意图为门址意图时,可以利用该深度语义召回模型对查询语句进行处理,使得召回的地点能够融合地理语义和文本语义,从而不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
此外,本申请实施例还提供一种电子设备,如图5所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器301、一个或一个以上计算机可读存储介质的存储器302、电源303和输入单元304等部件。本领域技术人员可以理解,图5中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器301是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器301可包括一个或多个处理核心;优选的,处理器301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器301中。
存储器302可用于存储软件程序以及模块,处理器301通过运行存储在存储器302的软件程序以及模块,从而执行各种功能应用以及地点检索。存储器302可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器302还可以包括存储器控制器,以提供处理器301对存储器302的访问。
电子设备还包括给各个部件供电的电源303,优选的,电源303可以通过电源管理系统与处理器301逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元304,该输入单元304可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器301会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器302中,并由处理器301来运行存储在存储器302中的应用程序,从而实现各种功能,如下:
接收查询语句,检测查询语句的意图,当检测到查询语句的意图为门址意图时,获取深度语义召回模型,基于深度语义召回模型对查询语句进行召回,并输出查询语句对应的地点召回结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例在接收查询语句后,检测查询语句的意图,当检测到查询语句的意图为门址意图时,获取深度语义召回模型,该深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的,最后,基于深度语义召回模型对查询语句进行召回,并输出查询语句对应的地点召回结果。本申请提供的地点检索的方案,预先利用点击日志、历史查询语句和兴趣点文本训练得到深度语义召回模型,当检测到查询语句的意图为门址意图时,可以利用该深度语义召回模型对查询语句进行处理,使得召回的地点能够融合地理语义和文本语义,从而不仅可以提高地点检索时召回的地点,还可以提高地点检索的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种地点检索方法中的步骤。例如,该指令可以执行如下步骤:
接收查询语句,检测查询语句的意图,当检测到查询语句的意图为门址意图时,获取深度语义召回模型,基于深度语义召回模型对查询语句进行召回,并输出查询语句对应的地点召回结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种地点检索方法中的步骤,因此,可以实现本申请实施例所提供的任一种地点检索方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种地点检索方法、装置、电子设备以及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (7)

1.一种地点检索方法,其特征在于,包括:
接收查询语句;
检测所述查询语句的意图,具体为:利用预设的命名实体识别算法对查询语句进行实体切分,得到查询语句对应的至少一个实体词,根据所述实体词,输出查询语句的意图,其中,所述命名实体识别算法包括基于词典和规则的方法、传统机器学习的方法以及采用基于深度学习的方法;
当检测到所述查询语句的意图为门址意图时,获取深度语义召回模型,所述深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的,具体为:获取点击日志、历史查询语句以及兴趣点文本;提取所述历史查询语句的语义以及兴趣点文本的语义,得到第一语义向量和第二语义向量;基于所述点击日志,对所述兴趣点文本进行负采样;根据采样结果,在所述兴趣点文本确定满足预设条件的目标文本;计算所述第一语义向量和所述目标文本对应的第二语义向量之间的内积;基于计算结果,计算预设基础模型的目标损失,并根据所述目标损失对预设基础模型进行训练,得到深度语义召回模型;其中,所述根据采样结果,在所述兴趣点文本确定满足预设条件的目标文本,包括:在对兴趣点文本筛选后,构建双向编码器孪生网络,一侧对查询语句进行编码,另一侧对兴趣点文本进行编码;两侧采用相同的向量嵌入的方式,对用户定位和兴趣点经纬度进行哈希编码,每个字的向量嵌入从文本地理语义向量库中取得,并对查询语句和兴趣点文本进行类别编码;对两部分向量嵌入进行相同结构的特征提取网络计算后,得到查询语句和兴趣点文本各自的语义向量;
基于所述深度语义召回模型对所述查询语句进行召回,并输出所述查询语句对应的地点召回结果。
2.根据权利要求1所述的方法,其特征在于,所述提取所述历史查询语句的语义以及兴趣点文本的语义,得到第一语义向量和第二语义向量,包括:
获取预设向量库;
基于所述预设向量库对所述查询语句和兴趣点文本进行编码,得到第一文本向量和第二文本向量;
分别对所述第一文本向量和第二文本向量进行类别编码,并将编码后第一文本向量和编码后第二文本向量输入至相同的特征提取网络,得到第一语义向量和第二语义向量。
3.根据权利要求2所述的方法,其特征在于,所述获取预设向量库之前,还包括:
获取兴趣点集,所述兴趣点样本集包括多个兴趣点;
构建所述兴趣点集对应的图网络;
提取所述图网络对应的嵌入向量,并将所述嵌入向量存储至预设数据库中,得到向量库。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述深度语义召回模型对所述查询语句进行召回,并输出所述查询语句对应的地点召回结果,包括:
基于所述深度语义召回模型对所述查询语句进行召回;
基于所述点击日志对召回的目标文本进行排序;
输出排序后的目标文本。
5.一种地点检索装置,其特征在于,包括:
接收模块,用于接收查询语句,具体为:利用预设的命名实体识别算法对查询语句进行实体切分,得到查询语句对应的至少一个实体词,根据所述实体词,输出查询语句的意图,其中,所述命名实体识别算法包括基于词典和规则的方法、传统机器学习的方法以及采用基于深度学习的方法;
检测模块,用于检测所述查询语句的意图;
获取模块,用于当检测到所述查询语句的意图为门址意图时,获取深度语义召回模型,所述深度语义召回模型由点击日志、历史查询语句和兴趣点文本训练得到的,具体为:获取点击日志、历史查询语句以及兴趣点文本;提取所述历史查询语句的语义以及兴趣点文本的语义,得到第一语义向量和第二语义向量;基于所述点击日志,对所述兴趣点文本进行负采样;根据采样结果,在所述兴趣点文本确定满足预设条件的目标文本;计算所述第一语义向量和所述目标文本对应的第二语义向量之间的内积;基于计算结果,计算预设基础模型的目标损失,并根据所述目标损失对预设基础模型进行训练,得到深度语义召回模型;其中,所述根据采样结果,在所述兴趣点文本确定满足预设条件的目标文本,包括:在对兴趣点文本筛选后,构建双向编码器孪生网络,一侧对查询语句进行编码,另一侧对兴趣点文本进行编码;两侧采用相同的向量嵌入的方式,对用户定位和兴趣点经纬度进行哈希编码,每个字的向量嵌入从文本地理语义向量库中取得,并对查询语句和兴趣点文本进行类别编码;对两部分向量嵌入进行相同结构的特征提取网络计算后,得到查询语句和兴趣点文本各自的语义向量;
召回模块,用于基于所述深度语义召回模型对所述查询语句进行召回,并输出所述查询语句对应的地点召回结果。
6.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1-4任一项所述地点检索方法的步骤。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述地点检索方法的步骤。
CN202210844435.9A 2022-07-19 2022-07-19 地点检索方法、装置、电子设备以及存储介质 Active CN115017425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210844435.9A CN115017425B (zh) 2022-07-19 2022-07-19 地点检索方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210844435.9A CN115017425B (zh) 2022-07-19 2022-07-19 地点检索方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN115017425A CN115017425A (zh) 2022-09-06
CN115017425B true CN115017425B (zh) 2022-11-04

Family

ID=83082040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210844435.9A Active CN115017425B (zh) 2022-07-19 2022-07-19 地点检索方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN115017425B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662583B (zh) * 2023-08-01 2023-11-10 腾讯科技(深圳)有限公司 一种文本生成方法、地点检索方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831867A (zh) * 2020-04-02 2020-10-27 北京嘀嘀无限科技发展有限公司 地址查询方法、装置、电子设备和计算机可读存储介质
CN111831685A (zh) * 2019-09-17 2020-10-27 北京嘀嘀无限科技发展有限公司 一种查询语句的处理方法、训练模型的方法、装置及设备
CN113505204A (zh) * 2021-09-09 2021-10-15 腾讯科技(深圳)有限公司 召回模型训练方法、搜索召回方法、装置和计算机设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562749B2 (en) * 2020-05-01 2023-01-24 Adp, Inc. System and method for query authorization and response generation using machine learning
US20210365500A1 (en) * 2020-05-19 2021-11-25 Miso Technologies Inc. System and method for question-based content answering
CN113626713A (zh) * 2021-08-19 2021-11-09 北京齐尔布莱特科技有限公司 搜索方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831685A (zh) * 2019-09-17 2020-10-27 北京嘀嘀无限科技发展有限公司 一种查询语句的处理方法、训练模型的方法、装置及设备
CN111831867A (zh) * 2020-04-02 2020-10-27 北京嘀嘀无限科技发展有限公司 地址查询方法、装置、电子设备和计算机可读存储介质
CN113505204A (zh) * 2021-09-09 2021-10-15 腾讯科技(深圳)有限公司 召回模型训练方法、搜索召回方法、装置和计算机设备

Also Published As

Publication number Publication date
CN115017425A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
CN112699246B (zh) 基于知识图谱的领域知识推送方法
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN112329467A (zh) 地址识别方法、装置、电子设备以及存储介质
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN111160471A (zh) 一种兴趣点数据处理方法、装置、电子设备和存储介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
JP2023519049A (ja) Poi状態情報を取得する方法、及び装置
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
Alsudais Quantifying the offline interactions between hosts and guests of Airbnb
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
CN114091454A (zh) 一种互联网文本中地名信息提取及空间定位方法
CN116797195A (zh) 工单处理方法、装置、计算机设备和计算机可读存储介质
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
CN115309994A (zh) 地点检索方法、电子设备以及存储介质
CN114942981A (zh) 问答查询方法、装置、电子设备及计算机可读存储介质
Devi et al. Big Data Analytics Based Sentiment Analysis Using Superior Expectation-Maximization Vector Neural Network in Tourism
CN114201953A (zh) 一种关键词提取、模型训练方法、装置、设备及存储介质
CN114254622A (zh) 一种意图识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant