CN117743411A - 构建查询词类目匹配关系的方法、查询方法及相关产品 - Google Patents

构建查询词类目匹配关系的方法、查询方法及相关产品 Download PDF

Info

Publication number
CN117743411A
CN117743411A CN202211625563.0A CN202211625563A CN117743411A CN 117743411 A CN117743411 A CN 117743411A CN 202211625563 A CN202211625563 A CN 202211625563A CN 117743411 A CN117743411 A CN 117743411A
Authority
CN
China
Prior art keywords
query
feature vector
category
training
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211625563.0A
Other languages
English (en)
Inventor
王树森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaohongshu Technology Co ltd
Original Assignee
Xiaohongshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaohongshu Technology Co ltd filed Critical Xiaohongshu Technology Co ltd
Priority to CN202211625563.0A priority Critical patent/CN117743411A/zh
Publication of CN117743411A publication Critical patent/CN117743411A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种构建查询词类目匹配关系的方法、查询方法及相关产品。该方法包括:基于参考查询词的原始特征向量、与参考查询词相关的参考查询结果的特征向量和与所述参考查询结果匹配的参考类目的特征向量,构建目标异构图;通过利用图神经网络对所述目标异构图进行处理,将所述参考查询词的原始特征向量、所述参考查询结果的特征向量、所述参考类目的特征向量融合,得到所述参考查询词的第一优化特征向量;基于所述第一优化特征向量与所述参考类目的特征向量的第一相似度,确定所述参考查询词与所述参考类目的目标匹配关系。

Description

构建查询词类目匹配关系的方法、查询方法及相关产品
技术领域
本申请涉及计算机技术领域,尤其涉及一种构建查询词类目匹配关系的方法、查询方法及相关产品。
背景技术
在以查询词为依据进行查询时,可通过识别查询词的类目,并利用查询词的类目确定查询词的查询结果。目前的方法通过预先构建查询词与类目的匹配关系,进而基于该匹配关系识别查询词的类目,因此如何构建查询词与类目的匹配关系具有非常重要的意义。
发明内容
本申请提供一种构建查询词类目匹配关系的方法、查询方法及相关产品。
第一方面,提供了一种构建查询词类目匹配关系的方法,该方法包括:
基于参考查询词的原始特征向量、与参考查询词相关的参考查询结果的特征向量和与所述参考查询结果匹配的参考类目的特征向量,构建目标异构图,在所述目标异构图中,所述参考查询词的原始特征向量所对应的节点与所述参考查询结果的特征向量所对应的节点相连,所述参考查询结果的特征向量所对应的节点与所述参考类目的特征向量所对应的节点相连;
通过利用图神经网络对所述目标异构图进行处理,将所述参考查询词的原始特征向量、所述参考查询结果的特征向量、所述参考类目的特征向量融合,得到所述参考查询词的第一优化特征向量;
基于所述第一优化特征向量与所述参考类目的特征向量的第一相似度,确定所述参考查询词与所述参考类目的目标匹配关系。
在该方面中,构建装置基于参考查询词的原始特征向量、参考查询结果的特征向量和参考类目的特征向量,构建目标异构图,其中,在目标异构图中,参考查询词的原始特征向量所对应的节点与参考查询结果的特征向量所对应的节点相连,参考查询结果的特征向量所对应的节点与参考类目的特征向量所对应的节点相连。这样,通过利用GNN对目标异构图进行处理,可将参考查询词的原始特征向量、参考查询结果的特征向量和参考类目的特征向量进行融合得到参考查询词的第一优化特征向量,即通过该融合可将参考查询结果的特征向量和参考类目的特征向量用于优化参考查询词的原始特征向量。
而由于参考查询词与参考查询结果相关,参考查询结果与参考类目匹配,参考类目为可能与参考查询词匹配的类目,利用参考查询结果的特征向量和参考类目的特征向量优化参考查询词的原始特征向量得到第一优化特征向量,可使第一优化特征向量既携带参考查询词本身的信息,又携带参考查询结果的信息和参考类目的信息,进而使第一优化特征向量能更好的表达参考查询词。因此,基于第一优化特征向量与参考类目的特征向量的第一相似度,确定参考查询词与参考类目的目标匹配关系,可提高目标匹配关系的准确度。
结合第一方面及任一实施方式,所述基于所述第一优化特征向量与所述参考类目的特征向量的第一相似度,确定所述参考查询词与所述参考类目的目标匹配关系,包括:
基于所述第一相似度,确定与所述参考查询词相似度最高的所述参考类目为与所述参考查询词匹配的类目;
基于所述参考查询词和与所述参考查询词匹配的类目,得到所述参考查询词与所述参考类目的目标匹配关系。
结合第一方面及任一实施方式,在所述通过利用图神经网络对所述目标异构图进行处理,将所述参考查询词的原始特征向量、所述参考查询结果的特征向量、所述参考类目的特征向量融合,得到所述第一优化特征向量之前,所述方法还包括所述图神经网络的训练过程:
获取所述图神经网络和训练异构图,在所述训练异构图中,训练查询词的原始特征向量所对应的节点与训练查询结果的特征向量所对应的节点相连,所述训练查询结果的特征向量所对应的节点与训练类目的特征向量所对应的节点相连,所述训练查询结果与所述训练查询词相关,所述训练类目与所述查询结果匹配;
利用所述图神经网络对所述训练异构图进行处理,得到所述训练查询词的第二优化特征向量、所述训练查询结果的第三优化特征向量和所述训练类目的第四优化特征向量;
基于所述第二优化特征向量、所述第三优化特征向量和第一标签,得到第一损失,所述第一标签表征所述训练查询词与所述训练查询结果的相关性;
基于所述第二优化特征向量、所述第四优化特征向量和第二标签,得到第二损失,所述第二标签表征所述训练查询词与所述训练类目的相关性;
基于所述第一损失和所述第二损失,更新所述图神经网络的参数。
结合第一方面及任一实施方式,在所述基于所述第一损失和所述第二损失,更新所述图神经网络的参数之前,所述训练过程还包括:
基于所述第三优化特征向量、所述第四优化特征向量和第三标签,得到第三损失,所述第三标签表征所述训练查询结果与所述训练类目的相关性;
所述基于所述第一损失和所述第二损失,更新所述图神经网络的参数,包括:
基于所述第一损失、所述第二损失和所述第三损失,更新所述图神经网络的参数。
结合第一方面及任一实施方式,所述基于所述第二优化特征向量、所述第三优化特征向量和第一标签,得到第一损失,包括:
计算所述第二优化特征向量与所述第三优化特征向量的第二相似度;
基于交叉熵损失函数、所述第二相似度和所述第一标签,得到所述第一损失。
结合第一方面及任一实施方式,所述基于所述第二优化特征向量、所述第四优化特征向量和第二标签,得到第二损失,包括:
计算所述第二优化特征向量与所述第四优化特征向量的第三相似度;
基于交叉熵损失函数、所述第三相似度和所述第二标签,得到所述第二损失。
结合第一方面及任一实施方式,所述基于所述第三优化特征向量、所述第四优化特征向量和第三标签,得到第三损失,包括:
计算所述第三优化特征向量与所述第四优化特征向量的第四相似度;
基于交叉熵损失函数、所述第四相似度和所述第三标签,得到所述第三损失。
结合第一方面及任一实施方式,所述基于所述第一损失、所述第二损失和所述第三损失,更新所述图神经网络的参数,包括:
对所述第一损失、所述第二损失和所述第三损失加权求和,得到总损失;
基于所述总损失,更新所述图神经网络的参数,直至所述总损失收敛。
结合第一方面及任一实施方式,所述基于所述总损失,更新所述图神经网络的参数,直至所述总损失收敛,包括:
利用随机梯度下降算法,更新所述图神经网络的参数,直至所述总损失收敛。
第二方面,提供了一种查询方法,该查询方法包括:
获取待识别查询词;
确定与所述待识别查询词匹配的参考查询词作为目标查询词;
基于目标匹配关系,确定与所述目标查询词匹配的类目,作为所述待识别查询词的目标类目,所述目标匹配关系根据第一方面及其任一实施方式得到。
在该方面中,查询装置在确定与待识别查询词匹配的目标查询词的情况下,可基于目标匹配关系,确定待识别查询词的目标类目,从而可提高对待识别查询词的类目的识别准确度。
结合第二方面及任一实施方式,在所述基于目标匹配关系确定与所述目标查询词匹配的类目,作为所述待识别查询词的目标类目之后,所述方法还包括:
获取所述待识别查询词的n个初始查询结果;
确定所述初始查询结果的类目与所述目标类目的匹配度,将大于或等于匹配度阈值的匹配度作为目标匹配度;
筛选出与目标匹配度对应的所述初始查询结果,作为所述待识别查询词的目标查询结果。
结合第二方面及任一实施方式,在所述筛选出与目标匹配度对应的所述初始查询结果,作为所述待识别查询词的目标查询结果之后,所述方法还包括:
在所述目标查询结果的数量大于1的情况下,以所述目标匹配度的大小为依据,对所述目标查询结果进行排序。
结合第二方面及任一实施方式,所述初始查询结果包括与所述待识别查询词相关的文档。
第三方面,提供了一种构建查询词类目匹配关系的装置,所述装置包括:
构建单元,用于基于参考查询词的原始特征向量、与参考查询词相关的参考查询结果的特征向量和与所述参考查询结果匹配的参考类目的特征向量,构建目标异构图,在所述目标异构图中,所述参考查询词的原始特征向量所对应的节点与所述参考查询结果的特征向量所对应的节点相连,所述参考查询结果的特征向量所对应的节点与所述参考类目的特征向量所对应的节点相连;
融合单元,用于通过利用图神经网络对所述目标异构图进行处理,将所述参考查询词的原始特征向量、所述参考查询结果的特征向量、所述参考类目的特征向量融合,得到所述参考查询词的第一优化特征向量;
第一确定单元,用于基于所述第一优化特征向量与所述参考类目的特征向量的第一相似度,确定所述参考查询词与所述参考类目的目标匹配关系。
结合任一实施方式,所述第一确定单元,用于:
基于所述第一相似度,确定与所述参考查询词相似度最高的所述参考类目为与所述参考查询词匹配的类目;
基于所述参考查询词和与所述参考查询词匹配的类目,得到所述参考查询词与所述参考类目的目标匹配关系。
结合任一实施方式,所述装置还包括训练单元,用于执行所述图神经网络的以下训练过程:
获取所述图神经网络和训练异构图,在所述训练异构图中,训练查询词的原始特征向量所对应的节点与训练查询结果的特征向量所对应的节点相连,所述训练查询结果的特征向量所对应的节点与训练类目的特征向量所对应的节点相连,所述训练查询结果与所述训练查询词相关,所述训练类目与所述查询结果匹配;
利用所述图神经网络对所述训练异构图进行处理,得到所述训练查询词的第二优化特征向量、所述训练查询结果的第三优化特征向量和所述训练类目的第四优化特征向量;
基于所述第二优化特征向量、所述第三优化特征向量和第一标签,得到第一损失,所述第一标签表征所述训练查询词与所述训练查询结果的相关性;
基于所述第二优化特征向量、所述第四优化特征向量和第二标签,得到第二损失,所述第二标签表征所述训练查询词与所述训练类目的相关性;
基于所述第一损失和所述第二损失,更新所述图神经网络的参数。
结合任一实施方式,所述训练单元,还用于:
基于所述第三优化特征向量、所述第四优化特征向量和第三标签,得到第三损失,所述第三标签表征所述训练查询结果与所述训练类目的相关性;
基于所述第一损失、所述第二损失和所述第三损失,更新所述图神经网络的参数。
结合任一实施方式,所述训练单元,用于:
计算所述第二优化特征向量与所述第三优化特征向量的第二相似度;
基于交叉熵损失函数、所述第二相似度和所述第一标签,得到所述第一损失。
结合任一实施方式,所述训练单元,用于:
计算所述第二优化特征向量与所述第四优化特征向量的第三相似度;
基于交叉熵损失函数、所述第三相似度和所述第二标签,得到所述第二损失。
结合任一实施方式,所述训练单元,用于:
计算所述第三优化特征向量与所述第四优化特征向量的第四相似度;
基于交叉熵损失函数、所述第四相似度和所述第三标签,得到所述第三损失。
结合任一实施方式,所述训练单元,用于:
对所述第一损失、所述第二损失和所述第三损失加权求和,得到总损失;
基于所述总损失,更新所述图神经网络的参数,直至所述总损失收敛。
结合任一实施方式,所述训练单元,用于利用随机梯度下降算法,更新所述图神经网络的参数,直至所述总损失收敛。
第四方面,提供了一种查询装置,所述查询装置包括:
获取单元,用于获取待识别查询词;
第二确定单元,用于确定与所述待识别查询词匹配的参考查询词作为目标查询词;
第三确定单元,用于基于目标匹配关系,确定与所述目标查询词匹配的类目,作为所述待识别查询词的目标类目,所述目标匹配关系根据前文所述的构建查询词类目匹配关系的方法得到。
结合任一实施方式,所述获取单元,还用于获取所述待识别查询词的n个初始查询结果;
所述第三确定单元,还用于确定所述初始查询结果的类目与所述目标类目的匹配度,将大于或等于匹配度阈值的匹配度作为目标匹配度;
所述查询装置,还包括:筛选单元,用于筛选出与目标匹配度对应的所述初始查询结果,作为所述待识别查询词的目标查询结果。
结合任一实施方式,所述查询装置,还包括:排序单元25,用于在所述目标查询结果的数量大于1的情况下,以所述目标匹配度的大小为依据,对所述目标查询结果进行排序。
结合任一实施方式,所述初始查询结果包括与所述待识别查询词相关的文档。
第五方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种实施方式的方法。
第六方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种实施方式的方法。
第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任意一种实施方式的方法。
第八方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。
第九方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第二方面及其任意一种实施方式的方法。
第十方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第二方面及其任意一种实施方式的方法。
第十一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第二方面及其任意一种实施方式的方法。
第十二方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第二方面及其任一种可能的实现方式的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种构建查询词类目匹配关系的方法的流程示意图;
图2为本申请实施例提供的一种目标异构图的结构示意图;
图3为本申请实施例提供的一种查询方法的流程示意图;
图4为本申请实施例提供的一种构建装置的结构示意图;
图5为本申请实施例提供的一种查询装置的结构示意图;
图6为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”可表示前后关联对象是一种“或”的关系,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。字符“/”还可表示数学运算中的除号,例如,a/b=a除以b;6/3=2。“以下至少一项(个)”或其类似表达。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供了一种构建查询词类目匹配关系方法的技术方案,该技术方案的执行主体为构建查询词类目匹配关系装置(下文简称为构建装置),其中,构建装置可以是任意一种可执行构建查询词类目匹配关系的技术方案的电子设备。可选的,构建装置可以是以下中的一种:手机、计算机、平板电脑、可穿戴智能设备。请参阅图1,图1是本申请实施例提供的一种构建查询词类目匹配关系的方法的流程示意图。
101、基于参考查询词的原始特征向量、与参考查询词相关的参考查询结果的特征向量和与上述参考查询结果匹配的参考类目的特征向量,构建目标异构图。
本申请实施例中,参考查询词可作为查询依据,具体的,在查询时以参考查询词为依据进行查询,例如,参考查询词为穿搭,那么以穿搭为依据进行查询可得到与穿搭相关的查询结果。参考查询结果与参考查询词相关,即参考查询结果作为参考查询词的查询结果,其中,参考查询结果包括:文档、图像、语音、视频。
在一种可能实现的方式中,参考查询结果为在以参考查询词为依据进行查询时被选择的查询结果。例如,用户将穿搭作为参考查询词输入构建装置,构建装置以穿搭为依据从数据库中确定与穿搭相关的文档作为查询结果,并将所有查询结果通过显示设备显示,用户进而可从显示设备所显示的查询结果选择至少一个进行研读,如用户可通过点击查询结果查看查询结果的详细内容。此时,被用户选择的查询结果即为参考查询结果。
本申请实施例中,参考类目为与参考查询结果匹配。例如,参考查询结果为一篇描述美食的文档,那么与参考查询结果匹配的类目为美食,即参考类目为美食,又例如,参考查询结果为一段关于篮球的视频,那么与参考查询结果匹配的类目为篮球,即参考类目为篮球。
本申请实施例中,参考查询词的原始特征向量携带参考查询词的信息,通过对参考查询词进行特征提取可得到参考查询词的原始特征向量。参考查询结果的特征向量携带参考查询结果的信息,通过对参考查询结果进行特征提取可得到参考查询结果的特征向量。参考类目结果的特征向量携带参考类目的信息,通过对参考类目进行特征提取可得到参考类目的特征向量。
本申请实施例中,目标异构图包括三类节点,分别为查询词节点、查询结果节点、类目节点,其中,查询词节点表征查询词,查询结果节点表征查询结果,类目节点表征类目,查询词节点包括参考查询词的节点,查询结果节点包括参考查询结果的节点,类目节点包括参考类目的节点。各个节点的输入数据为所表征的对象的特征向量,即查询词接节点的输入数据为查询词的特征向量,查询结果节点的输入数据为查询结果的特征向量,类目节点的输入数据为类目的特征向量,其中,参考查询词的节点的输入数据为参考查询词的原始特征向量,即参考查询词的原始特征向量所对应的节点为参考查询词的节点,参考查询结果的节点的输入数据为参考查询结果的特征向量,即参考查询结果的特征向量所对应的节点为参考查询结果的节点,参考类目的节点的输入数据为参考类目的特征向量,即参考类目的特征向量所对应的节点为参考类目的节点。
在目标异构图中,参考查询词的原始特征向量所对应的节点与参考查询结果的特征向量所对应的节点相连,参考查询结果的特征向量所对应的节点与参考类目的特征向量所对应的节点相连。
图2所示为目标异构图的结构示意图,如图2所示,目标异构图包括查询词节点、查询结果节点、类目节点三类节点。在目标异构图中,查询词节点与查询结果节点相连,说明查询词节点所表征的查询词与查询结果节点所表征的查询结果相关,查询结果节点与类目节点相连,说明查询结果节点所表征的查询结果与类目节点所表征的类目相关,即查询结果节点所表征的查询结果与类目节点所表征的类目匹配。各个节点的输入数据为节点所对应的特征向量,具体的,查询词节点的输入数据为查询词节点所表征的查询词的特征向量,查询结果的输入数据为查询结果节点所表征的查询结果的特征向量,类目的输入数据为类目节点所表征的类目的特征向量。
即在目标异构图中,具有相关关系的查询词节点与查询结果节点相连,具有匹配关系的查询结果节点与类目节点相连。在一种可能实现的方式中,构建装置基于参考查询词的原始特征向量生成参考查询词的节点,基于参考查询结果的特征向量生成参考查询结果的节点,基于参考类目的特征向量生成参考类目的节点,然后将参考查询词的节点与参考查询结果的节点相连,并将参考查询词结果的节点与参考类目的节点相连,构建得到目标异构图。
102、通过利用图神经网络(graph neural network,GNN)对上述目标异构图进行处理,将上述参考查询词的原始特征向量、上述参考查询结果的特征向量、上述参考类目的特征向量融合,得到上述参考查询词的第一优化特征向量。
构建装置利用GNN对目标异构图进行处理,可将各个节点所携带的信息通过节点之间的连接关系进行传播,由此可通过信息的传播,将参考查询词的节点所携带的信息、参考查询结果的节点所携带的信息和参考类目的节点所携带的信息进行融合,即通过该信息传播,可将参考查询词的原始特征向量、参考查询结果的特征向量、参考类目的特征向量融合。可选的,GNN为以下中的一个:图神经网络算法(graphSage)、图自注意力网络(graphattention networks)。
而通过将参考查询词的原始特征向量、参考查询结果的特征向量、参考类目的特征向量融合得到第一优化特征向量,可实现对参考查询词的节点的优化,即第一优化特征向量为对参考查询词节点优化后得到的特征向量,换句话说,第一优化特征向量为对参考查询词的原始特征向量进行优化得到的特征向量。
103、基于上述第一优化特征向量与上述参考类目的特征向量的第一相似度,确定上述参考查询词与上述参考类目的目标匹配关系。
本申请实施例中,第一相似度为第一优化特征向量与参考类目的特征向量的相似度,第一相似度越大,说明参考查询词与参考类目的匹配度越高,因此构建装置可基于第一相似度,确定参考查询词与参考类目是否匹配,进而确定参考查询词与参考类目的匹配关系,即目标匹配关系。
本申请实施例中,构建装置基于参考查询词的原始特征向量、参考查询结果的特征向量和参考类目的特征向量,构建目标异构图,其中,在目标异构图中,参考查询词的原始特征向量所对应的节点与参考查询结果的特征向量所对应的节点相连,参考查询结果的特征向量所对应的节点与参考类目的特征向量所对应的节点相连。这样,通过利用GNN对目标异构图进行处理,可将参考查询词的原始特征向量、参考查询结果的特征向量和参考类目的特征向量进行融合得到参考查询词的第一优化特征向量,即通过该融合可将参考查询结果的特征向量和参考类目的特征向量用于优化参考查询词的原始特征向量。
而由于参考查询词与参考查询结果相关,参考查询结果与参考类目匹配,参考类目为可能与参考查询词匹配的类目,利用参考查询结果的特征向量和参考类目的特征向量优化参考查询词的原始特征向量得到第一优化特征向量,可使第一优化特征向量既携带参考查询词本身的信息,又携带参考查询结果的信息和参考类目的信息,进而使第一优化特征向量能更好的表达参考查询词。因此,基于第一优化特征向量与参考类目的特征向量的第一相似度,确定参考查询词与参考类目的目标匹配关系,可提高目标匹配关系的准确度。
作为一种可选的实施方式,构建装置在执行步骤103的过程中执行以下步骤:
2001、基于上述第一相似度,确定与上述参考查询词相似度最高的上述参考类目为与上述参考查询词匹配的类目。
本申请实施例中,与参考查询词相关的参考查询结果的数量大于或等于1,而一个参考查询词匹配的类目的数量也大于或等于1,因此第一相似度的数量也大于或等于1。例如,与参考查询词相关的参考查询结果包括参考查询结果a和参考查询结果b,其中,与参考查询结果a匹配的参考类目包括参考类目c和参考类目d,与参考查询结果b匹配的参考类目为参考类目e。那么,参考查询词与参考类目c之间的相似度、参考查询词与参考类目d之间的相似度、参考查询词与参考类目e之间的相似度均称为第一相似度。
构建装置进而可基于第一相似度,确定与参考查询词相似度最高的参考类目,并将该参考类目作为与参考查询词匹配的类目。例如,参考查询词与参考类目c之间的相似度、参考查询词与参考类目d之间的相似度、参考查询词与参考类目e之间的相似度均称为第一相似度,若参考查询词与参考类目c之间的第一相似度比参考查询词与参考类目d之间的第一相似度大,且参考查询词与参考类目c之间的第一相似度比参考查询词与参考类目e之间的第一相似度大,那么基于第一相似度,可确定与参考查询词相似度最高的参考类目为参考类目c,即参考类目c为与参考查询词匹配的类目。
2002、基于上述参考查询词和与上述参考查询词匹配的类目,得到上述参考查询词与上述参考类目的目标匹配关系。
构建装置通过执行步骤2002,可确定目标匹配关系为参考查询词和与参考查询词匹配的类目匹配。
在该种实施方式中,构建装置基于第一相似度,可确定与参考查询词匹配的类目,进而可得到目标匹配关系。
作为一种可选的实施方式,本申请实施例还提供了一种GNN的训练方法,该训练方法可以由与构建装置不同的训练装置执行,其中,训练装置包括:电脑、计算机、服务器。该训练方法也可由构建装置在执行步骤102之前执行。该训练方法具体包括以下步骤:
3001、获取上述GNN和训练异构图。
本申请实施例中,训练异构图的组成与上述目标异构图相同,即训练异构图也包括查询词节点、查询结果节点、类目节点这三类节点,其中,查询词节点包括训练查询词的节点,查询结果节点包括训练查询结果的节点,类目节点包括训练类目的节点。训练查询词的节点的输入数据为训练查询词的原始特征向量,即训练查询词的原始特征向量所对应的节点为训练查询词的节点,训练查询结果的节点的输入数据为训练查询结果的特征向量,即训练查询结果的特征向量所对应的节点为训练查询结果的节点,训练类目的节点的输入数据为训练类目的特征向量,即训练类目的特征向量所对应的节点为训练类目的节点。
本申请实施例中,训练查询词可作为查询依据,具体的,在查询时以训练查询词为依据进行查询,例如,训练查询词为旅游,那么以旅游为依据进行查询可得到与旅游相关的查询结果。训练查询结果与训练查询词相关,即训练查询结果作为训练查询词的查询结果,其中,训练查询结果包括:文档、图像、语音、视频。
在一种可能实现的方式中,训练查询结果为在以训练查询词为依据进行查询时被选择的查询结果。例如,用户将旅游作为训练查询词输入构建装置,构建装置以旅游为依据从数据库中确定与旅游相关的文档作为查询结果,并将所有查询结果通过显示设备显示,用户进而可从显示设备所显示的查询结果选择至少一个进行研读,如用户可通过点击查询结果查看查询结果的详细内容。此时,被用户选择的查询结果即为训练查询结果。
本申请实施例中,训练类目为与训练查询结果匹配。例如,训练查询结果为一篇描述旅游的文档,那么与训练查询结果匹配的类目为旅游,即训练类目为旅游,又例如,训练查询结果为一段关于舞蹈的视频,那么与训练查询结果匹配的类目为舞蹈,即训练类目为舞蹈。
本申请实施例中,训练查询词的原始特征向量携带训练查询词的信息,通过对训练查询词进行特征提取可得到训练查询词的原始特征向量。训练查询结果的特征向量携带训练查询结果的信息,通过对训练查询结果进行特征提取可得到训练查询结果的特征向量。训练类目结果的特征向量携带训练类目的信息,通过对训练类目进行特征提取可得到训练类目的特征向量。
在训练异构图中,训练查询词的原始特征向量所对应的节点与训练查询结果的特征向量所对应的节点相连,训练查询结果的特征向量所对应的节点与训练类目的特征向量所对应的节点相连。即在训练异构图中,具有相关关系的查询词节点与查询结果节点相连,具有匹配关系的查询结果节点与类目节点相连。
3002、利用上述GNN对上述训练异构图进行处理,得到上述训练查询词的第二优化特征向量、上述训练查询结果的第三优化特征向量和上述训练类目的第四优化特征向量。
利用GNN对训练异构图进行处理,可将各个节点所携带的信息通过节点之间的连接关系进行传播,由此可通过信息的传播,将训练查询词的节点所携带的信息、训练查询结果的节点所携带的信息和训练类目的节点所携带的信息进行融合,即通过该信息传播,可将训练查询词的原始特征向量、训练查询结果的特征向量、训练类目的特征向量融合。
而通过将训练查询词的原始特征向量、训练查询结果的特征向量、训练类目的特征向量融合得到第二优化特征向量,可实现对训练查询词的节点的优化,即第二优化特征向量为对训练查询词节点优化后得到的特征向量,换句话说,第二优化特征向量为对训练查询词的原始特征向量进行优化得到的特征向量。同理,可利用训练查询词的原始特征向量和训练类目的特征向量,优化训练查询结果的节点,得到第三优化特征向量,即第三优化特征向量为对训练查询结果的特征向量进行优化得到的特征向量。同理,可利用训练查询词的原始特征向量和训练查询结果的特征向量,优化训练类目的节点,得到第四优化特征向量,即第四优化特征向量为对训练类目的特征向量进行优化得到的特征向量。
3003、基于上述第二优化特征向量、上述第三优化特征向量和第一标签,得到第一损失。
本申请实施例中,第一标签表征训练查询词与训练查询结果的相关性。可选的,第一标签通过相关性分数表征训练查询词与训练查询结果的相关性,其中,相关性分数越大,相关性越高。可选的,相关性分数的取值处于0至1之间。
基于第二优化特征向量和第三优化特征向量的相似度,可确定训练查询词与训练查询结果的相关性,具体的,第二优化特征向量和第三优化特征向量的相似度越大,训练查询词与训练查询结果的相关性越高。
也就是说,基于第二优化特征向量和第三优化特征向量,可确定训练查询词与训练查询结果的相关性(下文称为第一预测相关性),再基于第一预测相关性与第一标签所指示的相关性的差异,可得到第一损失,即第一损失表征第一预测相关性与第一标签所指示的相关性的差异,且第一损失与该差异呈正相关。
3004、基于上述第二优化特征向量、上述第四优化特征向量和第二标签,得到第二损失。
本申请实施例中,第二标签表征训练查询词与训练类目的相关性。可选的,第二标签通过相关性分数表征训练查询词与训练类目的相关性,其中,相关性分数越大,相关性越高。可选的,相关性分数的取值处于0至1之间。应理解,训练查询词与训练类目的相关性可表征训练查询词与训练类目的匹配度,具体的,训练查询词与训练类目的相关性越高,说明训练查询词与训练类目的匹配度越高。
基于第三优化特征向量和第四优化特征向量的相似度,可确定训练查询词与训练类目的相关性,具体的,第三优化特征向量和第四优化特征向量的相似度越大,训练查询词与训练类目的相关性越高。
也就是说,基于第三优化特征向量和第四优化特征向量,可确定训练查询词与训练类目的相关性(下文称为第二预测相关性),再基于第二预测相关性与第二标签所指示的相关性的差异,可得到第二损失,即第二损失表征第二预测相关性与第二标签所指示的相关性的差异,且第二损失与该差异呈正相关。
3005、基于上述第一损失和上述第二损失,更新上述GNN的参数。
基于第一损失更新GNN的参数,可缩小上述第一预测相关性与第一标签所指示的相关性的差异,而第一预测相关性基于第二优化特征向量与第三优化特征向量的相似度得到,因此,基于第一损失更新GNN的参数,可使第二优化特征向量和第三优化特征向量能更准确的表征训练查询词与训练查询结果之间的相关性。
基于第二损失更新GNN的参数,可缩小上述第二预测相关性与第二标签所指示的相关性的差异,而第二预测相关性基于第三优化特征向量与第四优化特征向量的相似度得到,因此,基于第二损失更新GNN的参数,可使第三优化特征向量和第四优化特征向量能更准确的表征训练查询词与训练类目之间的相关性。
在一种可能实现的方式中,通过对第一损失和第二损失进行加权求和得到总损失,然后基于总损失更新GNN的参数,直至总损失收敛,完成GNN的训练。
由于在目标异构图中,参考查询词的节点与参考查询结果的节点相连,参考查询结果的节点与参考类目的节点相连,而在通过使用GNN对目标异构图进行处理,优化参考查询词的特征向量时,节点的信息又是通过节点的连接关系进行传播的,也就是说,通过使用GNN对目标异构图进行处理,是以参考查询结果为桥梁,将参考类目的节点的信息传播至参考查询词节点。换句话说,参考查询词与参考查询结果相关是一个前提条件,即基于优化参考查询词节点进得到的第一优化特征向量,所确定的参考查询词与参考查询结果的相关关系,应该是参考查询词与参考查询结果相关,即参考查询词与参考查询结果相关,相当于优化参考查询词节点的一个约束条件。
而构建装置基于第一损失和第二损失,更新GNN的参数,既可利用训练类目的特征向量和训练查询结果的特征向量优化训练查询词的原始特征向量,又可使对训练查询节点的优化满足上述约束条件。而且通过对训练查询词的原始特征向量进行优化得到的第二优化特征向量能准确的表征训练查询词与训练类目的匹配关系,具体而言,可使第二优化特征向量与通过GNN优化训练查询结果节点得到的第三优化特征向量能准确的表达训练查询词与训练查询结果的相关性,又可使第二优化特征向量与通过GNN优化训练类目节点得到的第四优化特征向量能准确的表达训练查询词与训练类目的相关性。
因此,使用基于第一损失和第二损失训练得到的GNN对目标异构图进行处理,优化参考查询词的节点得到第一优化特征向量,可更好的利用参考查询结果的特征向量和参考类目的特征向量,优化参考查询词的原始特征向量,从而使优得到的第一优化特征向量能更准确的表征参考查询词与参考类目的匹配关系。
作为一种可选的实施方式,在执行步骤3005之前,还可执行以下步骤:
4001、基于上述第三优化特征向量、上述第四优化特征向量和第三标签,得到第三损失。
本申请实施例中,第三标签表征训练查询结果与训练类目的相关性。可选的,第三标签通过相关性分数表征训练查询结果与训练类目的相关性,其中,相关性分数越大,相关性越高。可选的,相关性分数的取值处于0至1之间。应理解,训练查询结果与训练类目的相关性可表征训练查询结果与训练类目的匹配度,具体的,训练查询结果与训练类目的相关性越高,说明训练查询结果与训练类目的匹配度越高。
基于第三优化特征向量和第四优化特征向量的相似度,可确定训练查询结果与训练类目的相关性,具体的,第三优化特征向量和第四优化特征向量的相似度越大,训练查询结果与训练类目的相关性越高。
也就是说,基于第三优化特征向量和第四优化特征向量,可确定训练查询结果与训练类目的相关性(下文称为第三预测相关性),再基于第三预测相关性与第三标签所指示的相关性的差异,可得到第三损失,即第三损失表征第三预测相关性与第三标签所指示的相关性的差异,且第三损失与该差异呈正相关。
在得到第三损失的情况下,可在执行步骤3005的过程中执行以下步骤:
4002、基于上述第一损失、上述第二损失和上述第三损失,更新上述GNN的参数。
基于第三损失更新GNN的参数,可缩小上述第三预测相关性与第三标签所指示的相关性的差异,而第三预测相关性基于第三优化特征向量与第四优化特征向量的相似度得到,因此,基于第三损失更新GNN的参数,可使第三优化特征向量和第四优化特征向量能更准确的表征训练查询词与训练类目之间的相关性。
在一种可能实现的方式中,通过对第一损失、第二损失和第三损失加权求和,得到总损失。基于总损失,更新GNN的参数,直至总损失收敛,完成对GNN的训练。可选的,利用随机梯度下降算法,更新上述GNN的参数,直至总损失收敛。
由于使用GNN对训练异构图进行处理,会使训练类目的节点的信息传播至训练查询结果的节点,也会使训练查询词的节点的信息传播至训练查询结果的节点,通过GNN对训练异构图的处理,会利用传播至训练查询结果的节点的训练类目的节点的信息和传播至训练查询结果的节点的训练查询词的节点的信息,优化训练查询结果的节点得到第三优化特征向量。进一步的,传播至训练查询结果的训练类目的节点的信息还会通过训练查询结果的节点传播至训练查询词的节点,因此,传播至训练查询结果的节点的训练类目的节点的信息,会影响对训练查询词的节点的优化效果,即会影响第二优化特征向量对训练查询词的表达能力。同理,训练查询词的节点的信息也会通过训练查询结果的节点传播至训练类目的节点,训练查询结果的节点的信息也会传播至训练类目的节点,从而优化训练类目的节点得到第四优化特征向量。
因此,基于第三损失,更新GNN的参数,可使GNN通过对训练异构图的处理,让训练异构图中的信息的传播更准确,从而提升对训练查询词的节点的优化效果,即提升第二优化特征向量对训练查询词的表达能力。
这样,在该种实施方式中,在更新GNN的参数时,第一损失和第二损失的基础上增加第三损失,可在使用训练后的GNN对目标异构图进行处理时,让目标异构图中的信息的传播更准确,从而提升对参考查询词的节点的优化效果,即提升第一优化特征向量对参考查询词的表达能力,由此提升基于第一优化特征向量确定的目标匹配关系的准确度。
作为一种可选的实施方式,在执行步骤3003的过程中执行以下步骤:
5001、计算上述第二优化特征向量与上述第三优化特征向量的第二相似度。
本申请实施例中,第二相似度为第二优化特征向量与第三优化特征向量的相似度。可选的,用aq表示第二优化特征向量,用bd表示第三优化特征向量,那么第二相似度为
5002、基于交叉熵损失函数、上述第二相似度和上述第一标签,得到上述第一损失。
在本步骤中,第二相似度作为上述第一预设相关性,通过交叉熵损失函数,可计算第一预设相关性与第一标签所指示的相关性的差异,得到第一损失。可选的,用relqd表示第一标签,用表示第二相似度,用/>表示第一损失,那么用relqd、/> 满足下式:
其中,ln(·)表示以无理数e为底数的对数函数。
作为一种可选的实施方式,在执行步骤3004的过程中执行以下步骤:
6001、计算上述第二优化特征向量与上述第四优化特征向量的第三相似度。
本申请实施例中,第三相似度为第二优化特征向量与第四优化特征向量的相似度。可选的,用aq表示第二优化特征向量,用ct表示第四优化特征向量,那么第三相似度为
6002、基于交叉熵损失函数、上述第三相似度和上述第二标签,得到上述第二损失。
在本步骤中,第三相似度作为上述第二预设相关性,通过交叉熵损失函数,可计算第二预设相关性与第二标签所指示的相关性的差异,得到第二损失。可选的,用rel′qt表示第二标签,用表示第三相似度,用/>表示第二损失,那么用rel′qt、/> 满足下式:
其中,ln(·)表示以无理数e为底数的对数函数。
作为一种可选的实施方式,在执行步骤4001的过程中执行以下步骤:
7001、计算上述第三优化特征向量与上述第四优化特征向量的第四相似度。
本申请实施例中,第四相似度为第三优化特征向量与第四优化特征向量的相似度。可选的,用bd表示第三优化特征向量,用ct表示第四优化特征向量,那么第四相似度为
7002、基于交叉熵损失函数、上述第四相似度和上述第三标签,得到上述第三损失。
在本步骤中,第四相似度作为上述第三预设相关性,通过交叉熵损失函数,可计算第三预设相关性与第三标签所指示的相关性的差异,得到第三损失。可选的,用rel″dt表示第二标签,用表示第四相似度,用/>表示第三损失,那么用rel″dt、/> 满足下式:
其中,ln(·)表示以无理数e为底数的对数函数。
本申请实施例还提供了一种查询方法的技术方案,该技术方案的执行主体为查询装置,其中,查询装置可以是任意一种可执行查询技术方案的电子设备。可选的,查询装置可以是以下中的一种:手机、计算机、平板电脑、可穿戴智能设备。
应理解,本申请方法实施例还可以通过处理器执行计算机程序代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图3,图3是本申请实施例提供的一种查询方法的流程示意图。
301、获取待识别查询词。
本申请实施例中,待识别查询词为查询的依据,例如,用户将化妆品作为待识别查询词输入至查询装置,以使查询装置以待识别查询词为依据查询出与化妆品相关的查询结果。待
在一种获取待识别查询词的实现方式中,查询装置接收用户通过输入组件输入的待识别查询词,上述输入组件包括:键盘、鼠标、触控屏、触控板、音频输入器。
在另一种获取待识别查询词的实现方式中,查询装置接收终端发送的待识别查询词,其中,终端包括:手机、计算机、平板电脑、服务器。
在又一种获取待识别查询词的实现方式中,查询装置通过对文本和/或图像进行文字识别(optical character recognition,OCR),获得待识别查询词。例如,查询装置通过对文本进行OCR获得该文本中的词,作为待识别查询词。又例如,查询装置通过对图像进行OCR获得图像中的词,作为待识别查询词。再例如,查询装置通过对文档中的文本和图像进行OCR获得文档中的词,作为待识别查询词。
302、确定与上述待识别查询词匹配的参考查询词作为目标查询词。
本步骤中的参考查询词即为构建查询词类目匹配关系方法中的参考查询词。可选的,数据库包括多个查询词,而数据库中的查询词称为参考查询词。那么查询装置从数据库中确定与待识别查询词匹配的参考查询词作为目标查询词。
在一种可能实现的方式中,查询装置确定与待识别查询词相同的参考查询词作为目标查询词。例如,待识别查询词为化妆品,那么目标查询词也为化妆品。
在另一种可能实现的方式中,查询装置确定与待识别查询词语义匹配的参考查询词作为目标查询词。在待识别查询词与目标查询词语义匹配的情况下,待识别查询词与目标查询词的关系包括:互为同义词、待识别查询词为目标查询词的上位词、互为别称。例如,待识别查询词为画图,目标插叙词为绘图,此时两者为同义词。又例如,待识别查询词为运动,目标查询词为篮球,此时待识别查询词为目标查询词的上位词。再例如,待识别查询词为电脑,目标查询词为计算机,此时两者为别称。
303、基于目标匹配关系,确定与上述目标查询词匹配的类目,作为上述待识别查询词的目标类目。
本步骤中的目标匹配关系可根据前文所述的构建查询词类目匹配关系方法得到。查询装置基于该目标匹配关系,可确定与目标查询词匹配的类目,进而将该类目作为待识别查询词的类目,即为目标类目。
本申请实施例中,查询装置在确定与待识别查询词匹配的目标查询词的情况下,可基于目标匹配关系,确定待识别查询词的目标类目,从而可提高对待识别查询词的类目的识别准确度。
在一种可能的应用场景中,查询装置和上述构建装置为同一个设备,例如,查询装置和构建装置均为服务器,即服务器既可执行前文所述的构建查询词类目匹配关系方法的技术方案,又可执行查询方法的技术方案。查询装置在第一预设时间段通过执行构建查询词类目匹配关系方法的技术方案,构建目标匹配关系,在第二预设时间段通过执行查询方法的技术方案,识别待识别查询词的类目,其中,第一预设时间段和第二预设时间段不同。
例如,第一预设时间段可以是每天的3点至4点,第二预设时间段可以是每天的0点至24点,查询装置可在每天的3点至4点通过执行构建查询词类目匹配关系方法的技术方案,构建目标匹配关系,应理解,在已有目标匹配关系的情况下,查询装置通过在每天的3点至4点执行构建查询词类目匹配关系方法的技术方案,可更新目标匹配关系。查询装置并可在每天的0点至24点通过执行查询方法的技术方案识别待识别查询词的类目,应理解,在每天的0点至4点,查询装置在执行查询方法的技术方案的过程中,使用的目标匹配关系为前一天所更新的目标匹配关系,在每天的4点至24点,查询装置在执行查询方法的技术方案的过程中,使用的目标匹配关系是当天所更新的目标匹配关系。
作为一种可选的实施方式,查询装置在执行完步骤303的情况下,还执行以下步骤:
9001、获取上述待识别查询词的n个初始查询结果。
本申请实施中,n为正整数。初始查询结果为以待识别查询词为依据查询得到的查询结果。例如,待识别查询词为化妆品,初始查询结果为与化妆品相关的查询结果。可选的,初始查询结果包括与待识别查询词相关的文档。
在一种可能实现的方式中,查询装置使用待识别查询词查询数据库,得到n个初始查询结果,例如,查询装置以化妆品为依据,从数据库中查询到n篇与化妆品相关的文档,作为n个初始查询结果。
9002、确定上述初始查询结果的类目与上述目标类目的匹配度,将大于或等于匹配度阈值的匹配度作为目标匹配度。
9003、筛选出与目标匹配度对应的上述初始查询结果,作为上述待识别查询词的目标查询结果。
初始查询结果的类目与目标类目的匹配度高,说明初始查询结果与待识别查询词的匹配高,反之,初始查询结果的类目与目标类目的匹配度低,说明初始查询结果与待识别查询词的匹配低。
本申请实施例中,查询装置以匹配度阈值为依据,确定初始查询结果的类目与目标类目的匹配度是高还是低,具体的,初始查询结果的类目与目标类目的匹配度大于或等于匹配度阈值,说明初始查询结果的类目与目标类目的匹配度高,初始查询结果的类目与目标类目的匹配度小于匹配度阈值,说明初始查询结果的类目与目标类目的匹配度低。
因此,查询装置在确定初始查询结果的类目与目标类目的匹配度的情况下,将大于或等于匹配度阈值的匹配度作为目标匹配度,并筛选出与目标匹配度对应的初始查询结果,作为待识别查询词的目标查询结果。这样可提高基于待识别查询词查询得到目标查询词的查询准确度。例如,数据库中有一篇题目为“在外旅游吃了一份特别好吃的炒饭”的文档,该文档的内容描述的是炒饭,即该文档的类目应该为美食。若待识别查询词为旅游,由于该文档的题目包括旅游,进而将该文档作为了待识别查询词的初始查询结果,但显然该文档的内容与待识别查询词不符。由于待识别查询词的类目为旅游,即目标类目为旅游,文档的类目为美食,即初始查询结果的类目为美食,导致初始查询结果的类目与目标类目的匹配度小于匹配度阈值,查询装置进而确定该文档不是待识别查询词的目标查询结果。
作为一种可选的实施方式,查询装置在执行完步骤9003的情况下,还执行以下步骤:
9004、在上述目标查询结果的数量大于1的情况下,以上述目标匹配度的大小为依据,对上述目标查询结果进行排序。
在一种可能实现的方式中,查询装置按目标匹配度从大到小的顺序,对目标查询结果进行排序。在另一种可能实现的方式中,查询装置按目标匹配度从小到大的顺序,对目标查询结果进行排序。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参阅图4,图4为本申请实施例提供的一种构建查询词类目匹配关系的装置(简称为构建装置)的结构示意图,该构建装置1包括:构建单元11、融合单元12、第一确定单元13,可选的,该构建装置1还包括训练单元14,具体的:
构建单元11,用于基于参考查询词的原始特征向量、与参考查询词相关的参考查询结果的特征向量和与所述参考查询结果匹配的参考类目的特征向量,构建目标异构图,在所述目标异构图中,所述参考查询词的原始特征向量所对应的节点与所述参考查询结果的特征向量所对应的节点相连,所述参考查询结果的特征向量所对应的节点与所述参考类目的特征向量所对应的节点相连;
融合单元12,用于通过利用图神经网络对所述目标异构图进行处理,将所述参考查询词的原始特征向量、所述参考查询结果的特征向量、所述参考类目的特征向量融合,得到所述参考查询词的第一优化特征向量;
第一确定单元13,用于基于所述第一优化特征向量与所述参考类目的特征向量的第一相似度,确定所述参考查询词与所述参考类目的目标匹配关系。
结合任一实施方式,所述第一确定单元13,用于:
基于所述第一相似度,确定与所述参考查询词相似度最高的所述参考类目为与所述参考查询词匹配的类目;
基于所述参考查询词和与所述参考查询词匹配的类目,得到所述参考查询词与所述参考类目的目标匹配关系。
结合任一实施方式,该构建装置1还包括训练单元14,用于执行所述图神经网络的以下训练过程:
获取所述图神经网络和训练异构图,在所述训练异构图中,训练查询词的原始特征向量所对应的节点与训练查询结果的特征向量所对应的节点相连,所述训练查询结果的特征向量所对应的节点与训练类目的特征向量所对应的节点相连,所述训练查询结果与所述训练查询词相关,所述训练类目与所述查询结果匹配;
利用所述图神经网络对所述训练异构图进行处理,得到所述训练查询词的第二优化特征向量、所述训练查询结果的第三优化特征向量和所述训练类目的第四优化特征向量;
基于所述第二优化特征向量、所述第三优化特征向量和第一标签,得到第一损失,所述第一标签表征所述训练查询词与所述训练查询结果的相关性;
基于所述第二优化特征向量、所述第四优化特征向量和第二标签,得到第二损失,所述第二标签表征所述训练查询词与所述训练类目的相关性;
基于所述第一损失和所述第二损失,更新所述图神经网络的参数。
结合任一实施方式,所述训练单元14,还用于:
基于所述第三优化特征向量、所述第四优化特征向量和第三标签,得到第三损失,所述第三标签表征所述训练查询结果与所述训练类目的相关性;
基于所述第一损失、所述第二损失和所述第三损失,更新所述图神经网络的参数。
结合任一实施方式,所述训练单元14,用于:
计算所述第二优化特征向量与所述第三优化特征向量的第二相似度;
基于交叉熵损失函数、所述第二相似度和所述第一标签,得到所述第一损失。
结合任一实施方式,所述训练单元14,用于:
计算所述第二优化特征向量与所述第四优化特征向量的第三相似度;
基于交叉熵损失函数、所述第三相似度和所述第二标签,得到所述第二损失。
结合任一实施方式,所述训练单元14,用于:
计算所述第三优化特征向量与所述第四优化特征向量的第四相似度;
基于交叉熵损失函数、所述第四相似度和所述第三标签,得到所述第三损失。
结合任一实施方式,所述训练单元14,用于:
对所述第一损失、所述第二损失和所述第三损失加权求和,得到总损失;
基于所述总损失,更新所述图神经网络的参数,直至所述总损失收敛。
结合任一实施方式,所述训练单元14,用于利用随机梯度下降算法,更新所述图神经网络的参数,直至所述总损失收敛。
本申请实施例中,构建装置基于参考查询词的原始特征向量、参考查询结果的特征向量和参考类目的特征向量,构建目标异构图,其中,在目标异构图中,参考查询词的原始特征向量所对应的节点与参考查询结果的特征向量所对应的节点相连,参考查询结果的特征向量所对应的节点与参考类目的特征向量所对应的节点相连。这样,通过利用GNN对目标异构图进行处理,可将参考查询词的原始特征向量、参考查询结果的特征向量和参考类目的特征向量进行融合得到参考查询词的第一优化特征向量,即通过该融合可将参考查询结果的特征向量和参考类目的特征向量用于优化参考查询词的原始特征向量。
而由于参考查询词与参考查询结果相关,参考查询结果与参考类目匹配,参考类目为可能与参考查询词匹配的类目,利用参考查询结果的特征向量和参考类目的特征向量优化参考查询词的原始特征向量得到第一优化特征向量,可使第一优化特征向量既携带参考查询词本身的信息,又携带参考查询结果的信息和参考类目的信息,进而使第一优化特征向量能更好的表达参考查询词。因此,基于第一优化特征向量与参考类目的特征向量的第一相似度,确定参考查询词与参考类目的目标匹配关系,可提高目标匹配关系的准确度。
请参阅图5,图5为本申请实施例提供的一种查询装置的结构示意图,该查询装置2包括:获取单元21、第二确定单元22、第三确定单元23,可选的,查询装置2还包括筛选单元24和排序单元25,具体的:
获取单元21,用于获取待识别查询词;
第二确定单元22,用于确定与所述待识别查询词匹配的参考查询词作为目标查询词;
第三确定单元23,用于基于目标匹配关系,确定与所述目标查询词匹配的类目,作为所述待识别查询词的目标类目,所述目标匹配关系根据前文所述的构建查询词类目匹配关系的方法得到。
结合任一实施方式,所述获取单元21,还用于获取所述待识别查询词的n个初始查询结果;
所述第三确定单元23,还用于确定所述初始查询结果的类目与所述目标类目的匹配度,将大于或等于匹配度阈值的匹配度作为目标匹配度;
所述查询装置2,还包括:筛选单元24,用于筛选出与目标匹配度对应的所述初始查询结果,作为所述待识别查询词的目标查询结果。
结合任一实施方式,所述查询装置2,还包括:排序单元25,用于在所述目标查询结果的数量大于1的情况下,以所述目标匹配度的大小为依据,对所述目标查询结果进行排序。
结合任一实施方式,所述初始查询结果包括与所述待识别查询词相关的文档。
本申请实施例中,查询装置在确定与待识别查询词匹配的目标查询词的情况下,可基于目标匹配关系,确定待识别查询词的目标类目,从而可提高对待识别查询词的类目的识别准确度。
在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
图6为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备3包括处理器31,存储器32。可选的,该电子设备3还包括输入装置33,输出装置34。该处理器31、存储器32、输入装置33和输出装置34通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本申请实施例对此不作限定。应当理解,本申请的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
处理器31可以包括是一个或多个处理器,例如包括一个或多个中央处理器(central processing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。可选的,处理器31可以是多个CPU构成的处理器组,多个处理器之间通过一个或多个总线彼此耦合。可选的,该处理器还可以为其他类型的处理器等等,本申请实施例不作限定。
存储器32可用于存储计算机程序指令,以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地,存储器包括但不限于是随机存储记忆体(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置33用于输入数据和/或信号,以及输出装置34用于输出数据和/或信号。输入装置33和输出装置34可以是独立的器件,也可以是一个整体的器件。
可理解,本申请实施例中,存储器32不仅可用于存储相关指令,还可用于存储相关数据,本申请实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图6仅仅示出了一种电子设备的简化设计。在实际应用中,电子设备还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本申请实施例的电子设备都在本申请的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本申请各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital versatiledisc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims (17)

1.一种构建查询词类目匹配关系的方法,其特征在于,所述方法包括:
基于参考查询词的原始特征向量、与参考查询词相关的参考查询结果的特征向量和与所述参考查询结果匹配的参考类目的特征向量,构建目标异构图,在所述目标异构图中,所述参考查询词的原始特征向量所对应的节点与所述参考查询结果的特征向量所对应的节点相连,所述参考查询结果的特征向量所对应的节点与所述参考类目的特征向量所对应的节点相连;
通过利用图神经网络对所述目标异构图进行处理,将所述参考查询词的原始特征向量、所述参考查询结果的特征向量、所述参考类目的特征向量融合,得到所述参考查询词的第一优化特征向量;
基于所述第一优化特征向量与所述参考类目的特征向量的第一相似度,确定所述参考查询词与所述参考类目的目标匹配关系。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一优化特征向量与所述参考类目的特征向量的第一相似度,确定所述参考查询词与所述参考类目的目标匹配关系,包括:
基于所述第一相似度,确定与所述参考查询词相似度最高的所述参考类目为与所述参考查询词匹配的类目;
基于所述参考查询词和与所述参考查询词匹配的类目,得到所述参考查询词与所述参考类目的目标匹配关系。
3.根据权利要求1或2所述的方法,其特征在于,在所述通过利用图神经网络对所述目标异构图进行处理,将所述参考查询词的原始特征向量、所述参考查询结果的特征向量、所述参考类目的特征向量融合,得到所述第一优化特征向量之前,所述方法还包括所述图神经网络的训练过程:
获取所述图神经网络和训练异构图,在所述训练异构图中,训练查询词的原始特征向量所对应的节点与训练查询结果的特征向量所对应的节点相连,所述训练查询结果的特征向量所对应的节点与训练类目的特征向量所对应的节点相连,所述训练查询结果与所述训练查询词相关,所述训练类目与所述查询结果匹配;
利用所述图神经网络对所述训练异构图进行处理,得到所述训练查询词的第二优化特征向量、所述训练查询结果的第三优化特征向量和所述训练类目的第四优化特征向量;
基于所述第二优化特征向量、所述第三优化特征向量和第一标签,得到第一损失,所述第一标签表征所述训练查询词与所述训练查询结果的相关性;
基于所述第二优化特征向量、所述第四优化特征向量和第二标签,得到第二损失,所述第二标签表征所述训练查询词与所述训练类目的相关性;
基于所述第一损失和所述第二损失,更新所述图神经网络的参数。
4.根据权利要求3所述的方法,其特征在于,在所述基于所述第一损失和所述第二损失,更新所述图神经网络的参数之前,所述训练过程还包括:
基于所述第三优化特征向量、所述第四优化特征向量和第三标签,得到第三损失,所述第三标签表征所述训练查询结果与所述训练类目的相关性;
所述基于所述第一损失和所述第二损失,更新所述图神经网络的参数,包括:
基于所述第一损失、所述第二损失和所述第三损失,更新所述图神经网络的参数。
5.根据权利要求3所述的方法,其特征在于,所述基于所述第二优化特征向量、所述第三优化特征向量和第一标签,得到第一损失,包括:
计算所述第二优化特征向量与所述第三优化特征向量的第二相似度;
基于交叉熵损失函数、所述第二相似度和所述第一标签,得到所述第一损失。
6.根据权利要求3所述的方法,其特征在于,所述基于所述第二优化特征向量、所述第四优化特征向量和第二标签,得到第二损失,包括:
计算所述第二优化特征向量与所述第四优化特征向量的第三相似度;
基于交叉熵损失函数、所述第三相似度和所述第二标签,得到所述第二损失。
7.根据权利要求4所述的方法,其特征在于,所述基于所述第三优化特征向量、所述第四优化特征向量和第三标签,得到第三损失,包括:
计算所述第三优化特征向量与所述第四优化特征向量的第四相似度;
基于交叉熵损失函数、所述第四相似度和所述第三标签,得到所述第三损失。
8.根据权利要求4所述的方法,其特征在于,所述基于所述第一损失、所述第二损失和所述第三损失,更新所述图神经网络的参数,包括:
对所述第一损失、所述第二损失和所述第三损失加权求和,得到总损失;
基于所述总损失,更新所述图神经网络的参数,直至所述总损失收敛。
9.根据权利要求8所述的方法,其特征在于,所述基于所述总损失,更新所述图神经网络的参数,直至所述总损失收敛,包括:
利用随机梯度下降算法,更新所述图神经网络的参数,直至所述总损失收敛。
10.一种查询方法,其特征在于,所述方法包括:
获取待识别查询词;
确定与所述待识别查询词匹配的参考查询词作为目标查询词;
基于目标匹配关系,确定与所述目标查询词匹配的类目,作为所述待识别查询词的目标类目,所述目标匹配关系根据权利要求1至9中任意一项所述的方法得到。
11.根据权利要求10所述的方法,其特征在于,在所述基于目标匹配关系确定与所述目标查询词匹配的类目,作为所述待识别查询词的目标类目之后,所述方法还包括:
获取所述待识别查询词的n个初始查询结果;
确定所述初始查询结果的类目与所述目标类目的匹配度,将大于或等于匹配度阈值的匹配度作为目标匹配度;
筛选出与目标匹配度对应的所述初始查询结果,作为所述待识别查询词的目标查询结果。
12.根据权利要求11所述的方法,其特征在于,在所述筛选出与目标匹配度对应的所述初始查询结果,作为所述待识别查询词的目标查询结果之后,所述方法还包括:
在所述目标查询结果的数量大于1的情况下,以所述目标匹配度的大小为依据,对所述目标查询结果进行排序。
13.根据权利要求11或12所述的方法,其特征在于,所述初始查询结果包括与所述待识别查询词相关的文档。
14.一种构建查询词类目匹配关系的装置,其特征在于,所述构建查询词类目匹配关系的装置包括:
构建单元,用于基于参考查询词的原始特征向量、与参考查询词相关的参考查询结果的特征向量和与所述参考查询结果匹配的参考类目的特征向量,构建目标异构图,在所述目标异构图中,所述参考查询词的原始特征向量所对应的节点与所述参考查询结果的特征向量所对应的节点相连,所述参考查询结果的特征向量所对应的节点与所述参考类目的特征向量所对应的节点相连;
融合单元,用于通过利用图神经网络对所述目标异构图进行处理,将所述参考查询词的原始特征向量、所述参考查询结果的特征向量、所述参考类目的特征向量融合,得到所述参考查询词的第一优化特征向量;
第一确定单元,用于基于所述第一优化特征向量与所述参考类目的特征向量的第一相似度,确定所述参考查询词与所述参考类目的目标匹配关系。
15.一种查询装置,其特征在于,所述查询装置包括:
获取单元,用于获取待识别查询词;
第二确定单元,用于确定与所述待识别查询词匹配的参考查询词作为目标查询词;
第三确定单元,用于基于目标匹配关系,确定与所述目标查询词匹配的类目,作为所述待识别查询词的目标类目,所述目标匹配关系根据权利要求1至9中任意一项所述的方法得到。
16.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至9中任意一项所述的方法;
在所述处理器执行所述计算机指令的情况下,所述电子设备或者执行如权利要求10至13中任意一项所述的方法。
17.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求10至13中任意一项所述的方法;
在所述处理器执行所述计算机指令的情况下,所述电子设备或者执行如权利要求10至13中任意一项所述的方法。
CN202211625563.0A 2022-12-16 2022-12-16 构建查询词类目匹配关系的方法、查询方法及相关产品 Pending CN117743411A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211625563.0A CN117743411A (zh) 2022-12-16 2022-12-16 构建查询词类目匹配关系的方法、查询方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211625563.0A CN117743411A (zh) 2022-12-16 2022-12-16 构建查询词类目匹配关系的方法、查询方法及相关产品

Publications (1)

Publication Number Publication Date
CN117743411A true CN117743411A (zh) 2024-03-22

Family

ID=90280092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211625563.0A Pending CN117743411A (zh) 2022-12-16 2022-12-16 构建查询词类目匹配关系的方法、查询方法及相关产品

Country Status (1)

Country Link
CN (1) CN117743411A (zh)

Similar Documents

Publication Publication Date Title
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN100442284C (zh) 用于按类别提供关键字输入频率信息的搜索系统及其方法
CN107025216A (zh) 句子提取方法及系统
CN109471978B (zh) 一种电子资源推荐方法及装置
CN110008397B (zh) 一种推荐模型训练方法及装置
CN105159910A (zh) 信息推荐方法和装置
CN109241403A (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
CN109933708A (zh) 信息检索方法、装置、存储介质及计算机设备
CN109657044A (zh) 数据检索方法、数据排序方法、装置、终端以及存储介质
CN110472016B (zh) 文章推荐方法、装置、电子设备及存储介质
CN111428007B (zh) 基于跨平台的同步推送反馈方法
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
CN108604248B (zh) 利用基于人工智能的相关性计算的笔记提供方法及装置
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN109885651A (zh) 一种问题推送方法和装置
CN111310834B (zh) 数据处理方法及装置、处理器、电子设备、存储介质
US11669530B2 (en) Information push method and apparatus, device, and storage medium
CN108563648B (zh) 数据显示方法和装置、存储介质及电子装置
CN111915414B (zh) 向目标用户展示目标对象序列的方法和装置
CN109635004A (zh) 一种数据库的对象描述提供方法、装置及设备
CN116383458B (zh) 信息推送的方法及装置
KR20190036834A (ko) SaaS 어플리케이션 연동 서비스의 제공장치 및 그 제공방법
CN115841144A (zh) 一种文本检索模型的训练方法及装置
CN115618126A (zh) 搜索处理方法、系统、计算机可读存储介质及计算机设备
CN115544285A (zh) 三维模型搜索推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination