CN111435378B - 查询结果的排序方法、装置、电子设备以及存储介质 - Google Patents

查询结果的排序方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN111435378B
CN111435378B CN201910030272.9A CN201910030272A CN111435378B CN 111435378 B CN111435378 B CN 111435378B CN 201910030272 A CN201910030272 A CN 201910030272A CN 111435378 B CN111435378 B CN 111435378B
Authority
CN
China
Prior art keywords
query
term interest
short
user
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910030272.9A
Other languages
English (en)
Other versions
CN111435378A (zh
Inventor
窦志成
周雨佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN201910030272.9A priority Critical patent/CN111435378B/zh
Publication of CN111435378A publication Critical patent/CN111435378A/zh
Application granted granted Critical
Publication of CN111435378B publication Critical patent/CN111435378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种查询结果的排序方法、装置、电子设备以及存储介质,包括:获取用户输入的关键词;确定关键词对应的多个查询结果;将关键词和多个查询结果作为查询模型的输入,获取查询模型输出的用户的短期兴趣特征和长期兴趣特征;查询模型是以用户历史输入的多个历史关键词,以及,多个历史关键词对应的历史查询结果训练建立的;根据短期兴趣特征和长期兴趣特征,对多个查询结果进行排序;输出排序后的查询结果。本发明提供的查询结果的排序方法,通过确定当前查询的短期兴趣特征和长期兴趣特征,提高了查询结果排序的准确性。

Description

查询结果的排序方法、装置、电子设备以及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种查询结果的排序方法、装置、电子设备以及存储介质。
背景技术
个性化查询是各大查询引擎的主要发展目标之一,当前主流的个性化算法是基于文本内容进行分析,即,通过比较用户兴趣与查询结果相似度来对查询结果进行重排。个性化查询的主要目标是根据用户兴趣不同,为不同用户返回满足其需要的个性化的排序列表。
现有的个性化算法主要通过比较用户模型与查询结果的相似度来估计该文档与用户需求的契合程度。具体的,首先可以对用户兴趣进行建模,进而在文档排序时,除了考虑查询结果和查询的相关性,还同时考虑查询结果和用户兴趣的匹配程度。当用户提交一个查询词后,查询引擎在对待检索的查询结果进行打分时,将综合考虑查询结果本身相对于查询的相关性,以及查询结果和用户历史兴趣的匹配程度,通过一定的方法对这两方面的因素进行融合并最终对查询结果进行打分。
然而由于生活和工作的需要,用户的信息需求会随着时间进行阶段性变化。用户可能会在一段时间内围绕着一个主题不断地查询,但当该阶段的任务完成后,用户可能会切换到另外一个主题。因此,在用户短期变更查询主题时,若仅仅考虑用户长期形成的兴趣特征,会造成查询结果的排序准确性较低的情况。
发明内容
本发明提供一种查询结果的排序方法、装置、电子设备以及存储介质,以提高查询结果的排序准确性。
本发明第一个方面提供一种查询结果的排序方法,包括:
获取用户输入的关键词;
确定所述关键词对应的多个查询结果;
将所述关键词和所述多个查询结果作为查询模型的输入,获取所述查询模型输出的所述用户的短期兴趣特征和长期兴趣特征;所述查询模型是以所述用户历史输入的多个历史关键词,以及,所述多个历史关键词对应的历史查询结果训练建立的;
根据所述短期兴趣特征和所述长期兴趣特征,对所述多个查询结果进行排序;
输出排序后的查询结果。
可选的,所述用户输入的关键词的时刻位于第一查询时间段;
所述查询模型,包括:第一递归神经网络层、第二递归神经网络层和注意力层;
所述第一递归神经网络层用于根据第一查询时间段内所述用户输入的关键词和所述关键词对应的查询结果,确定所述第一查询时间段对应的短期兴趣节点向量,以及将所有时域对应的短期兴趣节点向量的集合作为所述短期兴趣特征进行输出,所述第一查询时间段为查询过程中的任一时域;
所述第二递归网络层用于根据所述短期兴趣特征,确定初始长期兴趣特征;
所述注意力层用于对所述初始长期兴趣特征进行赋权,得到所述长期兴趣特征,并输出所述长期兴趣特征。
可选的,在所述根据所述短期兴趣特征和所述长期兴趣特征,对所述多个查询结果进行排序前,还包括:
获取用户的历史查询信息,所述历史查询信息为用户在历史查询中的操作信息;
根据所述历史查询信息,分别确定每个所述查询结果对应的查询相关度得分。
可选的,所述根据所述历史查询信息,分别确定每个所述查询结果对应的查询相关度得分,包括:
根据所述历史查询信息,确定每个所述查询结果对应的点击次数、点击位置和点击熵;
根据每个所述查询结果对应的点击次数、点击位置和点击熵,确定每个所述查询结果对应的相关度得分。
可选的,所述根据所述短期兴趣特征和所述长期兴趣特征,对所述多个查询结果进行排序,包括:
根据所述短期兴趣特征,确定每个所述查询结果对应的短期兴趣相似性得分;
根据所述长期兴趣特征,确定每个所述查询结果对应的长期兴趣相似性得分;
根据每个所述查询结果对应的短期兴趣相似性得分、每个所述查询结果对应的长期兴趣相似性得分和每个所述查询结果对应的相关度得分,对所述多个查询结果进行排序。
本发明的第二个方面提供一种查询结果的排序装置,包括:
第一获取模块,用于获取用户输入的关键词;
查询模块,用于确定所述关键词对应的多个查询结果;
特征确定模块,用于将所述关键词和所述多个查询结果作为查询模型的输入,获取所述查询模型输出的所述用户的短期兴趣特征和长期兴趣特征;所述查询模型是以所述用户历史输入的多个历史关键词,以及,所述多个历史关键词对应的历史查询结果训练建立的;
排序模块,用于根据所述短期兴趣特征和所述长期兴趣特征,对所述多个查询结果进行排序;
输出模块,用于输出排序后的查询结果。
可选的,所述用户输入的关键词的时刻位于第一查询时间段;
所述查询模型,包括:第一递归神经网络层、第二递归神经网络层和注意力层;
所述第一递归神经网络层用于根据第一查询时间段内所述用户输入的关键词和所述关键词对应的查询结果,确定所述第一查询时间段对应的短期兴趣节点向量,以及将所有时域对应的短期兴趣节点向量的集合作为所述短期兴趣特征进行输出,所述第一查询时间段为查询过程中的任一时域;
所述第二递归网络层用于根据所述短期兴趣特征,确定初始长期兴趣特征;
所述注意力层用于对所述初始长期兴趣特征进行赋权,得到所述长期兴趣特征,并输出所述长期兴趣特征。
可选的,还包括:
第二获取模块,用于获取用户的历史查询信息,所述历史查询信息为用户在历史查询中的操作信息;
相关度确定模块,用于根据所述历史查询信息,分别确定每个所述查询结果对应的查询相关度得分。
可选的,所述相关度确定模块,包括
相关参数确定单元,用于根据所述历史查询信息,确定每个所述查询结果对应的点击次数、点击位置和点击熵;
相关性得分单元,用于根据每个所述查询结果对应的点击次数、点击位置和点击熵,确定每个所述查询结果对应的相关度得分。
可选的,所述排序模块,包括:
短期相似性得分单元,用于根据所述短期兴趣特征,确定每个所述查询结果对应的短期兴趣相似性得分;
长期相似性得分单元,用于根据所述长期兴趣特征,确定每个所述查询结果对应的长期兴趣相似性得分;
重排单元,用于根据每个所述查询结果对应的短期兴趣相似性得分、每个所述查询结果对应的长期兴趣相似性得分和每个所述查询结果对应的相关度得分,对所述多个查询结果进行排序。
本发明的第三方面提供一种电子设备,包括:存储器与处理器;
所述存储器,用于存储所述处理器的可执行指令;
所述处理器配置为经由执行所述可执行指令来执行第一方面及其可选方案涉及的方法。
本发明的第四方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面及其可选方案涉及的方法。
本发明提供的查询结果的排序方法、装置、电子设备以及存储介质,通过将用户输入的关键词和根据关键词确定的查询结果输入已训练的动态查询模型中,使得动态查询模型输出当前查询的短期兴趣特征和长期兴趣特征,并以此对查询结果进行排列,从而降低了用户因为短期兴趣变更造成的影响,提高了查询结果的排序准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种查询结果的排序方法的流程示意图;
图2为本发明实施例提供的另一种查询结果的排序方法的流程示意图;
图3为本发明实施例提供的一种步骤S25的流程示意图;
图4为本发明实施例提供的一种步骤S26的流程示意图;
图5为本发明实施例提供的一种查询结果的排序装置的结构示意图;
图6为本发明实施例提供的另一种查询结果的排序装置的结构示意图;
图7为本发明实施例提供的一种相关度确定模块的结构示意图;
图8为本发明实施例提供的一种排序模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面将对本申请技术方案进行详细介绍:
以下,首先对本申请实施例的应用场景进行介绍,查询结果的排序方法可以应用于搜索引擎,当用户根据某个关键词通过搜索引擎查询相关内容时,搜索引擎通常会检索到大量与该关键词相关的查询结果。由于查询结果通常数量巨大,逐个查找费时费力,因此,可以通过确定用户的兴趣特征来推测用户的目标查询结果,并以此为依据对查询结果进行排序,进而可以使用户更加容易找到目标查询结果,提高用户体验。
在发明的涉及的实施例中,查询结果的排序方法可以应用于查询结果的排序装置,查询结果的排序装置的主体可以通过计算机程序实现,例如软件应用等,或者,还可以通过集成有相关计算机程序的实体装置实现,例如,该装置可以为计算机、手机、平板电脑、个人数字助理(PersonalDigital Assistant,简称PDA)等电子设备,再或者,还可以通过存储有相关计算机程序的存储介质实现。
图1为本发明实施例提供的一种查询结果的排序方法的流程示意图。
请参照图1,查询结果的排序方法,包括:
S11:获取用户输入的关键词。
在实际应用中,用户输入端关键词可以是是词语,例如:苹果、天气,可以是短句,例如:上海的天气、高铁车次,也可以是句子,例如:今天的高铁车次。
S12:确定关键词对应的多个查询结果。
查询结果,可以是根据关键词查询出的相关信息,其可以是文档、图片或网址链接等。
在实际应用中,根据一个关键词查询出的查询结果通常为多个,因此,需要对查询结果进行排序,从而使得用户可以从排序较前的查询结果中获取可用信息。
S13:将关键词和多个查询结果作为查询模型的输入,获取查询模型输出的用户的短期兴趣特征和长期兴趣特征;查询模型是以用户历史输入的多个历史关键词,以及,多个历史关键词对应的历史查询结果训练建立的。
在实际应用中,当训练查询模型时,可以从查询结果中选出最优查询结果作为样本。最优查询结果,可以是与用户的查询目的最接近的查询结果。具体的,最优查询结果可以通过对用户的行为进行分析来确定。例如:当用户打开一个查询结果并且驻留超过30s时,可以将其确定为最优查询结果;或者,可以将用户查询时打开的最后一个查询结果作为最优查询结果。
兴趣特征,可以理解为用户的查询偏好,即,用户进行查询时常常关注的领域。
结合实际情况举例来说,当查询的关键词为“APPLE”时,如果用户是一名健康饮食专家,那么与水果苹果相关的查询结果最有可能契合用户需求;而用户如果是一名热爱电子产品的人,那么与苹果手机相关的查询结果则更有可能满足用户。因此针对不同用户,应该建立不同的兴趣特征来刻画用户的特点,以此来返回更加符合用户需求的查询结果排序。
短期兴趣特征,可以理解为用户短期的查询偏好。在某段时间内,用户可能会进行一系列的查询,通常来说,用户首先会输入一个关键词,再在接下来的查询中逐渐优化查询的关键词来得到自己想要的结果。在此过程中,动态查询模型可以收集用户输入的关键词和最优查询结果,形成一个用户的短期兴趣特征。
可选的,用户输入的关键词的时刻位于第一查询时间段;
查询模型,包括:第一递归神经网络层、第二递归神经网络层和注意力层;
第一递归神经网络层用于根据第一查询时间段内用户输入的关键词和关键词对应的查询结果,确定第一查询时间段对应的短期兴趣节点向量,以及将所有时域对应的短期兴趣节点向量的集合作为短期兴趣特征进行输出,第一查询时间段为查询过程中的任一时域;
第二递归网络层用于根据短期兴趣特征,确定初始长期兴趣特征;
注意力层用于对初始长期兴趣特征进行赋权,得到长期兴趣特征,并输出长期兴趣特征。
其中,查询模型的建立过程就是用户兴趣特征的确定过程。在此过程中由于时间跨度较大,普通的递归神经网络的记忆效果会大幅减弱,因此,第一递归神经网络层和第二递归神经网络层可以采用递归神经网络中的门控周期性单元神经网络(Gated RecurrentUnit,简称GRU)。GRU是长期记忆神经网络(Long Short-Term Memory,简称LSTM)的一种变体。具体的,GRU将LSTM中的遗忘门,输入门,输出门简化成更新门与重置门,二者都能够防止梯度消失。GRU相比于普通LSTM,具有收敛速度更快、容易训练的特点。
查询时间段,可以采用时域(session)来划分,session可以是一个终端用户与交互系统进行通信的时间间隔,通常指从注册进入系统到注销退出系统之间所经过的时间。
在实际应用中,可以将用户每个session中查询的关键词以及该关键词对应的优先查询结果作为输入,分别通过第一递归神经网络层来刻画用户短期兴趣。
具体的,可以采用如下公式:
其中,为第m个session第n次查询的短期兴趣节点向量,qm,n为第m个session第n次查询输入的关键词,dm,n为第m个session第n次查询输入的查询结果,/>为第m个session第n-1次查询的短期兴趣节点向量。其中,可以用上标1表示第一递归神经网络层。
f1函数的计算公式如下:
rn为重置门,zn为更新门,二者共同决定从前一短期兴趣节点和当前输入之中选取哪些信息传入下一短期兴趣节点。σ()是S生长曲线(sigmoid)函数。Wr,Wz,Wc,Vr,Vz,Vc是我们需要在训练过程中不断调整的参数。
在第m个session中,我们用最后的短期兴趣节点向量作为该session的表示,即第m个session的短期兴趣向量向量,在后文中,用/>表示。并且,当前查询的短期兴趣特征Sm可以所有时域对应的短期兴趣节点向量的集合进行表示。
在实际应用中,从用户整个查询历史来看,有一些兴趣特点是不会随着时间而经常发生改变的,例如,某用户的查询历史中包含“java语言编译”“java语言程序语法”“java语言报错机制”等,该用户很可能是一名程序员,即使很长时间以后用户查询“java书籍”,我们也可以推测该用户的真实意图是寻找java程序设计的书籍而不是与爪哇岛相关的内容。因此,可以通过第二递归神经网络层来学习用户长期的兴趣,以短期兴趣节点向量作为输入,最终得到第m个session的长期兴趣节点向量,公式如下:
其中,最终为用户在第m个查询的长期兴趣向量,
f2函数的计算公式如下:
rm为重置门,zm为更新门,二者共同决定从前一短期兴趣节点和当前输入之中选取哪些信息传入下一短期兴趣节点。σ()是S生长曲线(sigmoid)函数。Wr,Wz,Wc,Vr,Vz,Vc是我们需要在训练过程中不断调整的参数。
并且,当前查询的长期兴趣特征Lu可以所有时域对应的长期兴趣节点向量的集合进行表示。
在实际应用中,不同的兴趣对不同新查询的影响力是不相同的。当一个用户的新查询与他之前的某些查询相关时,这些历史查询对个性化当前新查询的作用应该远远大于那些和当前查询无关的历史查询。因此,与当前查询相关的历史查询上的用户行为在进行用户兴趣建模时,所占权重应该高于其他查询。在此基础上,可以在动态查询模型引入注意力层。
在实际应用中,可以将长期兴趣特征Lu和关键词q作为注意力层的输入,确定出每个session的长期兴趣节点向量的权重。其权重计算公式如下:
其中,αi为权重,是一个多层感知器(MLP),用来评估用户兴趣与当前查询的相似性,使用tanh()作为激活函数。
基于当前查询的长期兴趣特征Lu的线性组合计算得到,公式如下:
经过注意力层,可以给与当前查询主题更相关的用户兴趣向量赋予了更高的权重,同时降低了不相关兴趣特征对当前个性化排序的负面影响,使得个性化搜索算法的稳定性进一步提高,从而在一定程度上解决查询需求的随机性问题。
S14:根据短期兴趣特征和长期兴趣特征,对多个查询结果进行排序。
在实际应用中,当确定本次查询的短期兴趣特征和长期兴趣特征后,可以确定每个查询结果对应的短期兴趣相似性得分、长期兴趣相似性得分,并以此为依据对查询结果进行排序。
S15:输出排序后的查询结果。
本实施例提供的查询结果的排序方法,通过将用户输入的关键词和根据关键词确定的查询结果输入已训练的动态查询模型中,使得动态查询模型输出当前查询的短期兴趣特征和长期兴趣特征,并以此对查询结果进行排列,从而降低了用户因为短期兴趣变更造成的影响,提高了查询结果的排序准确性。
图2为本发明实施例提供的另一种查询结果的排序方法的流程示意图。
请参照图2,查询结果的排序方法,还包括:
S21:获取用户输入的关键词。
S22:确定关键词对应的多个查询结果。
S23:将关键词和多个查询结果作为查询模型的输入,获取查询模型输出的用户的短期兴趣特征和长期兴趣特征;查询模型是以用户历史输入的多个历史关键词,以及,多个历史关键词对应的历史查询结果训练建立的。
步骤S21至步骤S23的技术名词、技术效果、技术特征,以及可选实施方式,可参照图1所示的步骤S11至S13理解,对于重复的内容,在此不再累述。
S24:获取用户的历史查询信息,历史查询信息为用户在历史查询中的操作信息。
S25:根据历史查询信息,分别确定多个查询结果对应的查询相关度得分。
在实际应用中,最终文档得分包括两个方面:相似性得分与相关度得分。相似性得分指查询结果与兴趣特征的相关度,而相关度得分指查询结果与查询关键词之间的相关度。
因此,还可以从用户的上网信息中获取用户的历史查询信息,并通过分析用户在历史查询中的操作行为确定本次查询的相关度得分。在确定查询结果的排序信息时,不但考虑相似性得分的影响,而且考虑相关度得分的影响。
S26:根据短期兴趣特征和长期兴趣特征,对多个查询结果进行排序。
S27:输出排序后的查询结果。
步骤S26-S27的技术名词、技术效果、技术特征,以及可选实施方式,可参照图1所示的步骤S14-S15理解,对于重复的内容,在此不再累述。
图3为本发明实施例提供的一种步骤S25的流程示意图。
请参照图3,步骤S25,包括:
S31:根据历史查询信息,确定每个查询结果对应的点击次数、点击位置和点击熵。
在实际应用中,相关度得分主要用查询结果与查询关键词之间的点击特征来描述,包括三部分:点击位置、点击次数和点击熵。点击位置特征指对于某个查询,被点击查询结果的排名越靠前,则二者相关度越高。点击次数特征包括查询结果的历史点击的总次数,以及当前查询的用户对查询结果的点击次数。点击熵则是用来衡量相似性潜在产生的收益大小的指标,众所周知,有一些查询在不同用户之间差异很小,此时相似性往往会没有作用甚至会产生副作用,因此引入点击熵来确定相似性得分与原始排序得分之间的比例关系。点击熵的计算公式如下:
ClickEntropy(q)=∑p∈Pages(q)-P(p|q)log2P(p|q);
ClickEntropy(q)指查询q的点击熵,Pages(q)指查询q的结果页集合,P(p|q)指第p页点击数占该查询全部点击数的比例,计算公式如下:
S32:根据每个查询结果对应的点击次数、点击位置和点击熵,确定每个查询结果对应的相关度得分。
在实际应用中,当确定多个查询结果分别对应的点击次数、点击位置和点击熵后,可以上述三种点击特征综合成一个特征向量,通过多层感知器F,并使用tanh()作为激活函数,得到文档与查询之间的相关度得分,具体的,相关度的计算公式如下:
RScore(di|q)=tanh(F)。
图4为本发明实施例提供的一种步骤S26的流程示意图。
请参照图4,步骤S26,还包括:
S41:根据短期兴趣特征,确定每个查询结果对应的短期兴趣相似性得分。
S42:根据长期兴趣特征,确定每个查询结果对应的长期兴趣相似性得分。
在实际应用中,相似性得分可以利用上述方法生成的长期或短期兴趣特征,通过计算文档和兴趣特征向量的相似度计算得分。以长期兴趣特征Lu为例,其计算公式如下:
PScore(di|Xk)=Sim(XkM1,diM2)
M1,M2是用来将Xk,,di转化成相同维度空间中的矩阵。Sim是相似度计算函数。本模型中采用余弦相似度来刻画二者之间的关系。
S43:根据每个查询结果对应的短期兴趣相似性得分、每个查询结果对应的长期兴趣相似性得分和每个查询结果对应的相关度得分,对多个查询结果进行排序。
在实际应用中,可以将短期兴趣相似性得分、长期兴趣相似性得分和查询相关度得分进行相加,进而确定查询结果对应的最终得分。并按照最终得分由大到小的顺序对查询结果进行排序。
可选的,在另一种可实施方式中,还可以采用LambdaRank排序算法训练模型进行排序。在pairwise的基础上,根据交换查询结果对的顺序后,最终结果MAP的变化,为每个查询结果对增加相应的权重,例如:某查询结果对(a1,a2)在交换位置后,排序的MAP变化值为a,而另一查询结果对(b1,b2)交换位置后MAP变化值为b,a>b,则可说明a1与a2之间的差异大于b1与b2之间的差异,根据这个特点,对差异较大的查询结果对赋予较大的权重,反之赋予较小的权重,可以使最终排序结果的平均准确度更高。因此我们选取LambdaRank作为我们的训练方法来训练出合适的参数。我们选取最优查询结果di和最差查询结果dj作为一对数据来训练模型,损失函数为预测值与实际值之间的交叉熵,定义如下:
Loss(LambdaRank)=ΔLoss(RankNet);
其中pij表示文档di比dj更相关的预测概率,表示实际概率。是通过logistic函数计算而得,公式如下:
最后再通过AdamOptimizer优化器逐步优化模型,对最终得到的分数排序后即为个性化排序结果。
本实施例提供的查询结果的排序方法,通过将用户输入的关键词和根据关键词确定的查询结果输入已训练的动态查询模型中,使得动态查询模型输出当前查询的短期兴趣特征和长期兴趣特征,并以此对查询结果进行排列,从而降低了用户因为短期兴趣变更造成的影响,提高了查询结果的排序准确性。
图5为本发明实施例提供的一种查询结果的排序装置的结构示意图。
请参照图5,查询结果的排序装置,包括:
第一获取模块51,用于获取用户输入的关键词。
查询模块52,用于确定关键词对应的多个查询结果。
特征确定模块53,用于将关键词和多个查询结果作为查询模型的输入,获取查询模型输出的用户的短期兴趣特征和长期兴趣特征;查询模型是以用户历史输入的多个历史关键词,以及,多个历史关键词对应的历史查询结果训练建立的。
排序模块54,用于根据短期兴趣特征和长期兴趣特征,对多个查询结果进行排序。
输出模块55,用于输出排序后的查询结果。
其中,用户输入的关键词的时刻位于第一查询时间段;
查询模型,包括:第一递归神经网络层、第二递归神经网络层和注意力层;
第一递归神经网络层用于根据第一查询时间段内用户输入的关键词和关键词对应的查询结果,确定第一查询时间段对应的短期兴趣节点向量,以及将所有时域对应的短期兴趣节点向量的集合作为短期兴趣特征进行输出,第一查询时间段为查询过程中的任一时域;
第二递归网络层用于根据短期兴趣特征,确定初始长期兴趣特征;
注意力层用于对初始长期兴趣特征进行赋权,得到长期兴趣特征,并输出长期兴趣特征。
本实施例提供的查询结果的排序装置,通过将用户输入的关键词和根据关键词确定的查询结果输入已训练的动态查询模型中,使得动态查询模型输出当前查询的短期兴趣特征和长期兴趣特征,并以此对查询结果进行排列,从而降低了用户因为短期兴趣变更造成的影响,提高了查询结果的排序准确性。
图6为本发明实施例提供的另一种查询结果的排序装置的结构示意图。
请参照图6,在任一实施例的基础上,查询结果的排序装置,还包括:
第二获取模块64,用于获取用户的历史查询信息,历史查询信息为用户在历史查询中的操作信息。
相关度确定模块65,用于根据历史查询信息,分别确定每个查询结果对应的查询相关度得分。
图7为本发明实施例提供的一种相关度确定模块的结构示意图。
请参照图7,相关度确定模块,包括:
相关参数确定单元71,用于根据历史查询信息,确定每个查询结果对应的点击次数、点击位置和点击熵。
相关性得分单元72,用于根据每个查询结果对应的点击次数、点击位置和点击熵,确定每个查询结果对应的相关度得分。
图8为本发明实施例提供的一种排序模块的结构示意图。
请参照图8,排序模块,包括:
短期相似性得分单元81,用于根据短期兴趣特征,确定每个查询结果对应的短期兴趣相似性得分。
长期相似性得分单元82,用于根据长期兴趣特征,确定每个查询结果对应的长期兴趣相似性得分。
重排单元83,用于根据每个查询结果对应的短期兴趣相似性得分、每个查询结果对应的长期兴趣相似性得分和每个查询结果对应的相关度得分,对多个查询结果进行排序。
本实施例提供的查询结果的排序方法,通过将用户输入的关键词和根据关键词确定的查询结果输入已训练的动态查询模型中,使得动态查询模型输出当前查询的短期兴趣特征和长期兴趣特征,并以此对查询结果进行排列,从而降低了用户因为短期兴趣变更造成的影响,提高了查询结果的排序准确性。
本发明的还提供一种电子设备,包括:存储器与处理器;
存储器,用于存储处理器的可执行指令;
处理器配置为经由执行可执行指令来执行图2-图4所涉及的查询结果的排序方法。
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application SpecificIntegrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。
本发明还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现图1-图4的查询结果的排序方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种查询结果的排序方法,其特征在于,包括:
获取用户输入的关键词;
确定所述关键词对应的多个查询结果;
将所述关键词和所述多个查询结果作为查询模型的输入,获取所述查询模型输出的所述用户的短期兴趣特征和长期兴趣特征;所述查询模型是以所述用户历史输入的多个历史关键词,以及,所述多个历史关键词对应的历史查询结果训练建立的;
根据所述短期兴趣特征和所述长期兴趣特征,对所述多个查询结果进行排序;
输出排序后的查询结果;
其中,所述用户输入的关键词的时刻位于第一查询时间段;
所述查询模型,包括:第一递归神经网络层、第二递归神经网络层和注意力层;
所述第一递归神经网络层用于根据第一查询时间段内所述用户输入的关键词和所述关键词对应的查询结果,确定所述第一查询时间段对应的短期兴趣节点向量,以及将所有时域对应的短期兴趣节点向量的集合作为所述短期兴趣特征进行输出,所述第一查询时间段为查询过程中的任一时域;
所述第二递归神经网络层用于根据所述短期兴趣特征,确定初始长期兴趣特征;
所述注意力层用于对所述初始长期兴趣特征进行赋权,得到所述长期兴趣特征,并输出所述长期兴趣特征。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述短期兴趣特征和所述长期兴趣特征,对所述多个查询结果进行排序前,还包括:
获取用户的历史查询信息,所述历史查询信息为用户在历史查询中的操作信息;
根据所述历史查询信息,分别确定每个所述查询结果对应的查询相关度得分。
3.根据权利要求2所述的方法,其特征在于,所述根据所述历史查询信息,分别确定每个所述查询结果对应的查询相关度得分,包括:
根据所述历史查询信息,确定每个所述查询结果对应的点击次数、点击位置和点击熵;
根据每个所述查询结果对应的点击次数、点击位置和点击熵,确定每个所述查询结果对应的相关度得分。
4.根据权利要求3所述的方法,其特征在于,所述根据所述短期兴趣特征和所述长期兴趣特征,对所述多个查询结果进行排序,包括:
根据所述短期兴趣特征,确定每个所述查询结果对应的短期兴趣相似性得分;
根据所述长期兴趣特征,确定每个所述查询结果对应的长期兴趣相似性得分;
根据每个所述查询结果对应的短期兴趣相似性得分、每个所述查询结果对应的长期兴趣相似性得分和每个所述查询结果对应的相关度得分,对所述多个查询结果进行排序。
5.一种查询结果的排序装置,其特征在于,包括:
第一获取模块,用于获取用户输入的关键词;
查询模块,用于确定所述关键词对应的多个查询结果;
特征确定模块,用于将所述关键词和所述多个查询结果作为查询模型的输入,获取所述查询模型输出的所述用户的短期兴趣特征和长期兴趣特征;所述查询模型是以所述用户历史输入的多个历史关键词,以及,所述多个历史关键词对应的历史查询结果训练建立的;
排序模块,用于根据所述短期兴趣特征和所述长期兴趣特征,对所述多个查询结果进行排序;
输出模块,用于输出排序后的查询结果;
其中,所述用户输入的关键词的时刻位于第一查询时间段;
所述查询模型,包括:第一递归神经网络层、第二递归神经网络层和注意力层;
所述第一递归神经网络层用于根据第一查询时间段内所述用户输入的关键词和所述关键词对应的查询结果,确定所述第一查询时间段对应的短期兴趣节点向量,以及将所有时域对应的短期兴趣节点向量的集合作为所述短期兴趣特征进行输出,所述第一查询时间段为查询过程中的任一时域;
所述第二递归神经网络层用于根据所述短期兴趣特征,确定初始长期兴趣特征;
所述注意力层用于对所述初始长期兴趣特征进行赋权,得到所述长期兴趣特征,并输出所述长期兴趣特征。
6.根据权利要求5所述的装置,其特征在于,还包括:
第二获取模块,用于获取用户的历史查询信息,所述历史查询信息为用户在历史查询中的操作信息;
相关度确定模块,用于根据所述历史查询信息,分别确定每个所述查询结果对应的查询相关度得分。
7.一种电子设备,其特征在于,包括:存储器与处理器;
所述存储器,用于存储所述处理器的可执行指令;
所述处理器配置为经由执行所述可执行指令来执行权利要求1-4任一所述的方法。
8.一种存储介质,其上存储有计算机程序,其特征在于,包括:该程序被处理器执行时实现权利要求1-4任一所述的方法。
CN201910030272.9A 2019-01-14 2019-01-14 查询结果的排序方法、装置、电子设备以及存储介质 Active CN111435378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910030272.9A CN111435378B (zh) 2019-01-14 2019-01-14 查询结果的排序方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910030272.9A CN111435378B (zh) 2019-01-14 2019-01-14 查询结果的排序方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111435378A CN111435378A (zh) 2020-07-21
CN111435378B true CN111435378B (zh) 2023-09-05

Family

ID=71579932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910030272.9A Active CN111435378B (zh) 2019-01-14 2019-01-14 查询结果的排序方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111435378B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182387B (zh) * 2020-09-29 2023-08-25 中国人民大学 一种时间信息增强的个性化搜索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547864A (zh) * 2016-10-24 2017-03-29 湖南科技大学 一种基于查询扩展的个性化信息检索方法
CN106844788A (zh) * 2017-03-17 2017-06-13 重庆文理学院 一种图书馆智能搜索排序方法及系统
CN108897823A (zh) * 2018-06-21 2018-11-27 山东大学 基于深度学习注意力机制的个性化商品检索方法及装置
CN109032375A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 候选文本排序方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671679B2 (en) * 2014-12-30 2020-06-02 Oath Inc. Method and system for enhanced content recommendation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547864A (zh) * 2016-10-24 2017-03-29 湖南科技大学 一种基于查询扩展的个性化信息检索方法
CN106844788A (zh) * 2017-03-17 2017-06-13 重庆文理学院 一种图书馆智能搜索排序方法及系统
CN108897823A (zh) * 2018-06-21 2018-11-27 山东大学 基于深度学习注意力机制的个性化商品检索方法及装置
CN109032375A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 候选文本排序方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111435378A (zh) 2020-07-21

Similar Documents

Publication Publication Date Title
CN109740126B (zh) 文本匹配方法、装置及存储介质、计算机设备
RU2632143C1 (ru) Способ обучения модуля ранжирования с использованием обучающей выборки с зашумленными ярлыками
US20060195406A1 (en) System and method for learning ranking functions on data
CN110659742B (zh) 获取用户行为序列的序列表示向量的方法和装置
CN111310023B (zh) 基于记忆网络的个性化搜索方法及系统
CN112182387B (zh) 一种时间信息增强的个性化搜索方法
CN108182186B (zh) 一种基于随机森林算法的网页排序方法
CN111125538B (zh) 一个利用实体信息增强个性化检索效果的搜索方法
US11734322B2 (en) Enhanced intent matching using keyword-based word mover's distance
CN114169869B (zh) 一种基于注意力机制的岗位推荐方法及装置
CN112487283A (zh) 训练模型的方法、装置、电子设备及可读存储介质
Wang et al. Search engine optimization based on algorithm of BP neural networks
Nadee Modelling user profiles for recommender systems
Du et al. POLAR++: active one-shot personalized article recommendation
CN111435378B (zh) 查询结果的排序方法、装置、电子设备以及存储介质
CN109977292A (zh) 搜索方法、装置、计算设备和计算机可读存储介质
Luo et al. Adaptive attention-aware gated recurrent unit for sequential recommendation
Banaei et al. Web page rank estimation in search engine based on SEO parameters using machine learning techniques
CN114048386B (zh) 一种基于深度学习的融合个性化和多样化的搜索方法
CN115293812A (zh) 一种基于长短期兴趣的电商平台会话感知推荐预测方法
US11822544B1 (en) Retrieval of frequency asked questions using attentive matching
CN116226320A (zh) 一种预测下文信息的方法、装置、电子设备及存储介质
Jindal et al. Efficient web navigation prediction using hybrid models based on multiple evidence combinations
CN114528469A (zh) 推荐方法、装置、电子设备、存储介质
Lu et al. Improving web search relevance with semantic features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant