CN116680481A - 搜索排序方法、装置、设备、存储介质及计算机程序产品 - Google Patents

搜索排序方法、装置、设备、存储介质及计算机程序产品 Download PDF

Info

Publication number
CN116680481A
CN116680481A CN202310970938.5A CN202310970938A CN116680481A CN 116680481 A CN116680481 A CN 116680481A CN 202310970938 A CN202310970938 A CN 202310970938A CN 116680481 A CN116680481 A CN 116680481A
Authority
CN
China
Prior art keywords
search result
sample
search
features
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310970938.5A
Other languages
English (en)
Other versions
CN116680481B (zh
Inventor
谈圳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310970938.5A priority Critical patent/CN116680481B/zh
Publication of CN116680481A publication Critical patent/CN116680481A/zh
Application granted granted Critical
Publication of CN116680481B publication Critical patent/CN116680481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种搜索排序方法、装置、设备、存储介质及计算机程序产品,至少应用于信息搜索领域和搜索引擎,其中,方法包括:对目标搜索词和每一候选搜索结果进行特征提取,得到搜索词特征和每一候选搜索结果的候选搜索结果特征;并基于预估分数对目标搜索词与每一候选搜索结果进行交互特征提取,得到目标搜索词与每一候选搜索结果之间的交互特征;对搜索词特征、候选搜索结果特征和交互特征进行特征融合,得到融合特征;基于融合特征进行评测分值映射,得到候选搜索结果的评测分值;基于每一候选搜索结果的评测分值,对多个候选搜索结果进行排序,得到搜索结果序列。通过本申请,能够提高排序的精度,提高信息搜索结果推荐的准确性。

Description

搜索排序方法、装置、设备、存储介质及计算机程序产品
技术领域
本申请实施例涉及互联网领域,涉及但不限于一种搜索排序方法、装置、设备、存储介质及计算机程序产品。
背景技术
在搜索应用领域中,查询输入的搜索词和搜索内容的相关性计算以及排序的性能直接影响搜索性能,如搜索结果的准确性。因此,查询输入的搜索词与搜索内容的搜索排序方法的改进,是本领域技术人员一直探索的问题。
相关技术中,常见的搜索排序方法包括:基于传统特征拟合的训练方法、基于pointwise的搜索排序方法、基于查询输入与搜索内容文本语义相关性的训练方法、基于语义先验特征和用户交互行为后验特征融合的排序方法、基于用户交互行为作为排序依据的方法等。
但是,相关技术中的这些方法均存在特征信息融合不充分、排序精度差的问题。
发明内容
本申请实施例提供一种搜索排序方法、装置、设备、存储介质及计算机程序产品,至少能够应用于信息搜索领域和搜索引擎中,通过充分融合候选搜索结果的特征信息,从而提高排序的精度,提高信息搜索结果推荐的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种搜索排序方法,包括:获取目标搜索词、与所述目标搜索词对应的多个候选搜索结果以及每一所述候选搜索结果的预估分数;对所述目标搜索词和每一所述候选搜索结果进行特征提取,得到搜索词特征和每一所述候选搜索结果的候选搜索结果特征;并基于所述预估分数对所述目标搜索词与每一所述候选搜索结果进行交互特征提取,得到所述目标搜索词与每一所述候选搜索结果之间的交互特征;所述交互特征用于表征所述目标搜索词与每一所述候选搜索结果之间的相关性;所述候选搜索结果特征包括与目标对象行为不相关的先验特征;针对每一所述候选搜索结果,对所述搜索词特征、所述候选搜索结果特征和所述交互特征进行特征融合,得到融合特征;基于所述融合特征进行评测分值映射,得到所述候选搜索结果的评测分值;基于每一所述候选搜索结果的评测分值,对所述多个候选搜索结果进行排序,得到搜索结果序列。
本申请实施例提供一种搜索排序装置,所述装置包括:获取模块,用于获取目标搜索词、与所述目标搜索词对应的多个候选搜索结果以及每一所述候选搜索结果的预估分数;特征提取模块,用于对所述目标搜索词和每一所述候选搜索结果进行特征提取,得到搜索词特征和每一所述候选搜索结果的候选搜索结果特征;并基于所述预估分数对所述目标搜索词与每一所述候选搜索结果进行交互特征提取,得到所述目标搜索词与每一所述候选搜索结果之间的交互特征;所述交互特征用于表征所述目标搜索词与每一所述候选搜索结果之间的相关性;所述候选搜索结果特征包括与目标对象行为不相关的先验特征;特征融合模块,用于针对每一所述候选搜索结果,对所述搜索词特征、所述候选搜索结果特征和所述交互特征进行特征融合,得到融合特征;评测分值映射模块,用于基于所述融合特征进行评测分值映射,得到所述候选搜索结果的评测分值;排序模块,用于基于每一所述候选搜索结果的评测分值,对所述多个候选搜索结果进行排序,得到搜索结果序列。
在一些实施例中,所述搜索词特征包括所述目标搜索词的搜索频次特征和所述目标搜索词的目标搜索词特征;所述特征融合模块还用于:针对每一所述候选搜索结果,对所述搜索频次特征和所述目标搜索词特征进行拼接,得到拼接特征;对所述目标搜索词特征、所述候选搜索结果特征和所述交互特征进行特征融合,得到高阶融合特征;其中,所述拼接特征和所述高阶融合特征构成所述融合特征。
在一些实施例中,所述评测分值映射模块还用于:基于所述拼接特征对所述高阶融合特征进行注意力计算,得到所述候选搜索结果的注意力建模向量;基于所述候选搜索结果的注意力建模向量确定所述候选搜索结果的评测分值。
在一些实施例中,所述评测分值映射模块还用于:基于所述拼接特征和所述高阶融合特征,确定权重矩阵;所述权重矩阵用于表征与所述目标搜索词在预设历史时间段内的历史搜索频次正相关的权重值;基于所述权重矩阵对所述高阶融合特征进行加权计算,得到所述候选搜索结果的注意力建模向量。
在一些实施例中,所述评测分值映射模块还用于:对所述候选搜索结果的注意力建模向量进行多次全连接处理,得到所述候选搜索结果的评测分值。
在一些实施例中,所述装置还包括:区间确定模块,用于确定所述评测分值的取值区间;区间分割模块,用于对所述取值区间进行分割,形成多个子区间;子区间确定模块,用于从所述多个子区间中,确定每一所述候选搜索结果的评测分值所在的目标子区间;二次评测分值确定模块,用于基于每一所述候选搜索结果的所述搜索词特征、所述候选搜索结果特征、所述交互特征、所述预估分数和所述评测分值,确定每一所述候选搜索结果的二次评测分值;其中,所述二次评测分值属于所述目标子区间;重排序模块,用于基于每一所述候选搜索结果的二次评测分值,对所述多个候选搜索结果进行重新排序,得到更新后的搜索结果序列。
在一些实施例中,所述二次评测分值确定模块还用于:确定所述搜索词特征的搜索词权重、所述候选搜索结果特征的候选搜索结果权重、所述交互特征的交互权重、所述预估分数的预估权重和所述评测分值的评测权重;基于所述搜索词权重、所述候选搜索结果权重、所述交互权重、所述预估权重和所述评测权重,分别对所述搜索词特征、所述候选搜索结果特征、所述交互特征、所述预估分数和所述评测分值进行加权计算,得到加权后的搜索词特征、加权后的候选搜索结果特征、加权后的交互特征、加权后的预估分数和加权后的评测分值;对所述加权后的搜索词特征、所述加权后的候选搜索结果特征、所述加权后的交互特征、所述加权后的预估分数和所述加权后的评测分值进行特征融合,得到加权融合特征;基于所述加权融合特征进行评测分值映射,得到每一所述候选搜索结果的二次评测分值。
在一些实施例中,所述二次评测分值确定模块还用于:对搜索对象进行个性化特征提取,得到所述搜索对象的对象特征信息;基于所述对象特征信息,确定所述搜索词特征的搜索词权重、所述候选搜索结果特征的候选搜索结果权重、所述交互特征的交互权重、所述预估分数的预估权重和所述评测分值的评测权重,其中,所述搜索词权重、所述候选搜索结果权重、所述交互权重、所述预估权重和所述评测权重之和等于1。
在一些实施例中,获取模块还用于:将所述目标搜索词和每一所述候选搜索结果输入至第一预测模型中,通过所述第一预测模型预测每一所述候选搜索结果的第一维度预估分数;所述第一预测模型是基于人工标注相关性特征后得到的样本数据进行训练得到的预估模型;将所述目标搜索词和每一所述候选搜索结果输入至第二预测模型中,通过所述第二预测模型预测每一所述候选搜索结果的第二维度预估分数;所述第二预测模型是以目标对象针对每一所述候选搜索结果的交互数据为样本数据进行训练得到的预估模型;对所述第一维度预估分数和所述第二维度预估分数分别进行归一化处理,得到第一维度归一化预估分数和第二维度归一化预估分数;将每一所述候选搜索结果的所述第一维度归一化预估分数和所述第二维度归一化预估分数之和,确定为每一所述候选搜索结果的预估分数。
在一些实施例中,所述装置还包括:模型训练模块,用于通过预先训练的评测分值预测模型预测每一所述候选搜索结果的评测分值;所述评测分值预测模型通过以下步骤进行训练:将样本数据输入至所述评测分值预测模型中;所述样本数据包括样本搜索词、与所述样本搜索词对应的多个样本搜索结果、每一所述样本搜索结果的样本预估分数和每一所述样本搜索结果的样本标签;通过所述评测分值预测模型的特征提取层,对所述样本搜索词和每一所述样本搜索结果进行特征提取,得到样本词特征和每一所述样本搜索结果的样本搜索结果特征;并基于所述样本预估分数对所述样本搜索词与每一所述样本搜索结果进行交互特征提取,得到所述样本搜索词与每一所述样本搜索结果之间的样本交互特征;所述样本交互特征用于表征所述样本搜索词与每一所述样本搜索结果之间的样本相关性;所述样本词特征包括所述样本搜索词的样本搜索频次特征和所述样本搜索词的样本搜索词特征;通过所述评测分值预测模型的多层感知机,针对每一所述样本搜索结果,对所述样本搜索频次特征和所述样本搜索词特征进行拼接,得到样本拼接特征;通过所述评测分值预测模型的特征交叉模块,对所述样本搜索词特征、所述样本搜索结果特征和所述样本交互特征进行特征融合,得到样本高阶融合特征;通过所述评测分值预测模型的注意力计算模块,基于所述样本拼接特征对所述样本高阶融合特征进行注意力计算,得到所述样本搜索结果的样本注意力建模向量;通过所述评测分值预测模型的全连接模块,对每一所述样本搜索结果的样本注意力建模向量进行多次全连接处理,得到每一所述样本搜索结果的样本评测分值;基于每一所述样本搜索结果的样本标签,对所述样本搜索结果的样本评测分值进行损失计算,得到损失结果;基于所述损失结果,对所述评测分值预测模型中的模型参数进行修正,得到训练后的评测分值预测模型。
在一些实施例中,所述模型训练模块还用于:从所述多个样本搜索结果中获取第一样本搜索结果和第二样本搜索结果;所述第一样本搜索结果和所述第二样本搜索结果是所述多个样本搜索结果中任意的两个具有不同样本标签的样本搜索结果;交换所述第一样本搜索结果和所述第二样本搜索结果在全部样本搜索结果中的搜索位置;确定交换所述第一样本搜索结果和所述第二样本搜索结果的所述搜索位置之后形成的归一化折损累计增益;基于所述第一样本搜索结果的评测分值、所述第二样本搜索结果的评测分值和所述归一化折损累计增益,确定所述损失结果。
在一些实施例中,所述多个样本搜索结果中包括由多对第一样本搜索结果和第二样本搜索结果构成的不同搜索位置的样本搜索结果对;所述模型训练模块还用于:针对每一所述样本搜索结果对,基于所述第一样本搜索结果的评测分值、所述第二样本搜索结果的评测分值和所述归一化折损累计增益,确定所述样本搜索结果对的模型更新梯度值;对全部样本搜索结果对的模型更新梯度值求均值,得到用于对所述评测分值预测模型进行梯度更新的所述损失结果。
在一些实施例中,所述模型训练模块还用于:确定对所述第一样本搜索结果和所述第二样本搜索结果进行所述搜索位置交换后的搜索引擎质量指标值;确定所述第一样本搜索结果和所述第二样本搜索结果在预设理想状态下的理想态搜索引擎质量指标值;基于所述理想态搜索引擎质量指标值,对所述搜索引擎质量指标值进行归一化处理,得到所述归一化折损累计增益。
本申请实施例提供一种电子设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现上述的搜索排序方法。
本申请实施例提供一种计算机程序产品,该计算机程序产品包括可执行指令,可执行指令存储在计算机可读存储介质中;其中,电子设备的处理器从计算机可读存储介质中读取可执行指令,并执行可执行指令时,实现上述的搜索排序方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现上述的搜索排序方法。
本申请实施例具有以下有益效果:通过对目标搜索词和每一候选搜索结果进行特征提取,以及,基于每一候选搜索结果的预估分数对目标搜索词与每一候选搜索结果进行交互特征提取;然后,针对每一候选搜索结果,对搜索词特征、候选搜索结果特征和交互特征进行特征融合,得到融合特征;基于融合特征进行评测分值映射,得到候选搜索结果的评测分值;最后,基于每一候选搜索结果的评测分值,对多个候选搜索结果进行排序,得到搜索结果序列。如此,由于用于进行评测分值映射的融合特征中融合了搜索词特征、候选搜索结果特征和交互特征,且交互特征是能够表征目标搜索词与每一候选搜索结果之间的相关性的特征、候选搜索结果特征包括与目标对象行为不相关的先验特征,也就是说,融合特征中融合了目标对象的先验特征以及相关性特征,因此,融合特征中充分的融合了候选搜索结果的各项特征信息,从而基于该融合特征能够准确的确定出每一候选搜索结果的评测分值,进而基于测分值能够提高排序的精度,以提高信息搜索结果推荐的准确性。
附图说明
图1是本申请实施例提供的搜索排序系统的一个可选的架构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3是本申请实施例提供的搜索排序方法的一个可选的流程示意图;
图4是本申请实施例提供的搜索排序方法的另一个可选的流程示意图;
图5是本申请实施例提供的进行注意力计算的实现过程示意图;
图6是本申请实施例提供的确定二次评测分值的实现过程示意图;
图7是本申请实施例提供的评测分值预测模型的训练方法的流程示意图;
图8是本申请实施例提供的进行损失计算的实现过程示意图;
图9是本申请实施例提供的在相关性维度下对某个qd对进行人工标注的示意图;
图10是本申请实施例提供的排序模型的网络结构示意图;
图11是采用本申请实施例的方法进行GSB人工测评的结果界面图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在描述本申请实施例的搜索排序方法之前,首先对本申请实施例中涉及的专业术语进行说明:
(1)query:指用户查询词;doc:指搜索引擎返回的内容,可能是网页链接、新闻内容等。query-doc:即(query,doc)组成的元组,比如某个query下搜索引擎返回的某个doc,query-doc一般简称qd或qd对。
(2)样本标签(label):指建模的学习目标,通常二分类任务的label是0或1;listwise的label是能够标识大小的连续整形,如:4、3、2、1。
(3)列表法(listwise)和单点法(pointwise):是两种学习排序(L2R,Learning toRank)的方法,listwise和pointwise分别把排序问题当成一个列表、一个点或一个文档的问题,使用不同的损失函数来优化排序结果。Listwise方法直接优化排序列表的指标,如归一化折损累计增益(NDCG,Normalized Discounted Cumulative Gain),考虑了文档之间的依赖性和位置信息,更符合排序的目标。另一种方法是Pointwise,该方法把每个文档的相关性作为一个分类或回归问题来处理,不考虑文档之间的相对顺序和位置信息,可能会过多强调那些不重要的文档。所以两者的主要区别是:pointwise方法仅考虑单个query和doc的关系,而Listwise方法考虑整个query和doc列表的关系。
(4)注意力机制attention:可以让一个序列中的每个元素与其他元素进行交互,从而得到一个新的表示,这个表示能够捕捉序列中的全局信息和依赖关系。attention的作用是:a)提高模型的拟合能力,通过线性变换和加权求和,可以学习不同的特征空间。b)实现并行计算,通过矩阵乘法,可以同时处理整个序列,而不需要像循环神经网络(RNN,Recurrent Neural Network)那样按顺序计算。c)减少计算复杂度,通过点积和缩放,可以有效地计算相似度和注意力权重,而不需要像卷积神经网络(CNN,Convolutional NeuralNetworks)那样使用大量的参数和卷积层。
(5)先验特征/先验信号、后验特征/后验信号:先验特征和后验特征是在贝叶斯计算中使用的概念,分别表示先验分布和后验分布的特征表示。在搜索场景中先验特征和后验特征通常指的是:a)先验特征是在搜索排序模型中使用的一些基于先验知识或假设的特征,例如查询词的长度、文档的长度、查询词和文档的文本相似度、语义相关性等。b)后验特征是在搜索排序模型中使用的一些基于后验数据或反馈的特征,例如用户的行为数据、用户满意度评分、用户的偏好、点击通过率(CTR,Click Through Rate)预估分、时长预估分等。
(6)长冷搜索词:是指那些每个月只有少量搜索次数的搜索词。在搜索建模场景里,长冷搜索词的特点是:a)长冷搜索词占据了搜索需求曲线的尾部,长冷搜索词的数量非常庞大,但是每个长冷搜索词的搜索量非常低。b)长冷搜索词往往反映了用户的个性化和多样化的需求,长冷搜索词比较难以被预测和理解,也比较难以被搜索引擎匹配到合适的结果。c)长冷搜索词对于提高搜索引擎的用户满意度和收益有重要的作用,因为长冷搜索词可以捕捉到用户的细分市场和潜在需求,从而提供更精准和更相关的结果。
(7)NDCG:是一种衡量排序质量的指标,常用于信息检索问题,例如评估搜索引擎算法的有效性,根据搜索词的相关性对搜索结果进行排序;NDCG的基本思想是:a)高相关性的文档比低相关性的文档更有用,应该排在更靠前的位置。b)文档的有用性或收益随着排名的降低而递减,通常使用对数函数来衰减。c)累积收益是所有结果中收益值的总和,折扣累积收益是考虑了排名位置的累积收益。d)归一化折扣累积收益是把折扣累积收益除以理想情况下的折扣累积收益,使得NDCG值在0到1之间,越接近1表示排序越好。
相关技术中的搜索排序方法以及存在的问题包括:基于传统特征拟合的训练方法,需要手动设计大量的特征,人工成本较高。基于pointwise的搜索排序方法,不能做样本的比较,因此不太适合训练排序的模型。基于查询输入与搜索内容文本语义相关性的训练方法,仅考虑先验信号,缺少用户反馈的刻画导致排序精度差,排序效果鲁棒性差。基于语义先验特征和用户交互行为后验特征融合的排序方法,缺少高效的神经网络结构设计,导致先验特征、后验特征融合不充分,排序精度差。基于用户交互行为作为排序依据的方法,排序建模目标是用户在该query-doc下是否存在正向行为(点击或转化等),该方法会引入用户的行为日志中的噪声导致排序精度差。
基于相关技术中的搜索排序方法所存在的上述至少一个问题,本申请实施例提供一种搜索排序方法,通过将候选搜索结果包括的多个目标的预估分数输入训练后的评测分值预测模型,得到每一候选搜索结果的评测分值,然后基于每一所述候选搜索结果的评测分值进行排序,得到更新的排序结果。其中,评测分值预测模型是采用本申请实施例提供的模型训练方法训练得到的。在模型训练过程中,通过人工标注方式产生理想样本标签,该样本标签可以解决传统样本的位置偏差、样式偏差和噪声等问题,即通过人工标注产生理想样本。同时,在训练阶段设计了注意力网络结构,更高效的融合先验/后验信号,从而优化排序效果,尤其是长冷搜索词的排序效果。另外,训练过程使用listwise损失函数,提高排序精度。
其中,本申请实施例提供的搜索排序方法中,首先,获取目标搜索词、与目标搜索词对应的多个候选搜索结果以及每一候选搜索结果的预估分数;对目标搜索词和每一候选搜索结果进行特征提取,得到搜索词特征和每一候选搜索结果的候选搜索结果特征;并基于预估分数对目标搜索词与每一候选搜索结果进行交互特征提取,得到目标搜索词与每一候选搜索结果之间的交互特征;交互特征用于表征目标搜索词与每一候选搜索结果之间的相关性;候选搜索结果特征包括与目标对象行为不相关的先验特征;然后,针对每一候选搜索结果,对搜索词特征、候选搜索结果特征和交互特征进行特征融合,得到融合特征;再然后,基于融合特征进行评测分值映射,得到候选搜索结果的评测分值;最后,基于每一候选搜索结果的评测分值,对多个候选搜索结果进行排序,得到搜索结果序列。如此,由于融合特征中充分的融合了候选搜索结果的各项特征信息,从而基于该融合特征能够准确的确定出每一候选搜索结果的评测分值,进而基于测分值能够提高排序的精度,以提高信息搜索结果推荐的准确性。
这里,首先说明本申请实施例的搜索排序设备的示例性应用,该搜索排序设备是用于实现搜索排序方法的电子设备。在一种实现方式中,本申请实施例提供的搜索排序设备(即电子设备)可以实施为终端,也可以实施为服务器。在一种实现方式中,本申请实施例提供的搜索排序设备可以实施为笔记本电脑,平板电脑,台式计算机,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备,智能机器人,智能家电和智能车载设备等任意的具备信息搜索功能的终端;在另一种实现方式中,本申请实施例提供的搜索排序设备还可以实施为服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。下面,将说明搜索排序设备实施为服务器时的示例性应用。
参见图1,图1是本申请实施例提供的搜索排序系统的一个可选的架构示意图,为实现支撑任意一个信息搜索应用(可以是一任意的搜索引擎),通过信息搜索应用为用户的信息搜索请求提供更加准确的候选搜索结果,并且按照用户的个性化需求,对搜索到的多个候选搜索结果进行准确的排序并显示给用户。本申请实施例的终端上至少安装有该信息搜索应用。搜索排序系统10中至少包括终端100、网络200和服务器300,其中服务器300是信息搜索应用的服务器。服务器300可以构成本申请实施例的搜索排序设备,即通过服务器300实现本申请实施例的搜索排序方法。终端100通过网络200连接服务器300,网络200可以是广域网或者局域网,又或者是二者的组合。
在进行信息搜索时,用户通过终端100上运行的信息搜索应用输入目标搜索词,终端100将目标搜索词封装至信息搜索请求中,并通过网络200将信息搜索请求发送给服务器300。服务器300在接收到信息搜索请求之后,响应于信息搜索请求,在预设信息库中获取与目标搜索词匹配的候选搜索结果。在实现的过程中,可以计算预设信息库中的每一候选搜索结果与目标搜索词之间的预估分数,将预估分数大于分数阈值的多个候选搜索结果确定为与目标搜索词对应的多个候选搜索结果。
在得到多个候选搜索结果之后,服务器300对目标搜索词和每一候选搜索结果进行特征提取,得到搜索词特征和每一候选搜索结果的候选搜索结果特征;并基于预估分数对目标搜索词与每一候选搜索结果进行交互特征提取,得到目标搜索词与每一候选搜索结果之间的交互特征;这里的交互特征用于表征目标搜索词与每一候选搜索结果之间的相关性;候选搜索结果特征包括与目标对象行为不相关的先验特征;然后,针对每一候选搜索结果,对搜索词特征、候选搜索结果特征和交互特征进行特征融合,得到融合特征;再然后,基于融合特征进行评测分值映射,得到候选搜索结果的评测分值;最后,基于每一候选搜索结果的评测分值,对多个候选搜索结果进行排序,得到搜索结果序列。在得到搜索结果序列之后,服务器300将搜索结果序列返回给终端100,终端100按照搜索结果序列中的候选搜索结果的顺序,在当前界面上显示多个候选搜索结果。
在一些实施例中,在得到多个候选搜索结果之后,服务器300也可以将多个候选搜索结果发送给终端100,由终端100采用本申请实施例提供的搜索排序方法,对多个候选搜索结果进行评测分值的计算,最终由终端100基于每一候选搜索结果的评测分值,对多个候选搜索结果进行排序,得到搜索结果序列。在得到搜索结果序列之后,终端100按照搜索结果序列中的候选搜索结果的顺序,在当前界面上显示多个候选搜索结果。
本申请实施例所提供的搜索排序方法还可以基于云平台并通过云技术来实现,例如,上述服务器300可以是云端服务器。通过云端服务器对目标搜索词和每一候选搜索结果进行特征提取,并基于预估分数对目标搜索词与每一候选搜索结果进行交互特征提取,或者,通过云端服务器对搜索词特征、候选搜索结果特征和交互特征进行特征融合,或者,通过云端服务器基于融合特征进行评测分值映射,或者,通过云端服务器基于每一候选搜索结果的评测分值,对多个候选搜索结果进行排序等。
在一些实施例中,还可以具有云端存储器,可以将预设信息库中的全部候选搜索结果存储至云端存储器中,也可以将与目标搜索词对应的多个候选搜索结果存储至云端存储器中。这样,在接收到终端发送的信息搜索请求时,则可以从云端存储器中直接确定与目标搜索词对应的多个候选搜索结果,以实现快速的信息搜索,从而提高后续搜索排序的效率。
这里需要说明的是,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,其可以通过云计算来实现。
图2是本申请实施例提供的电子设备的结构示意图,图2所示的电子设备可以是搜索排序设备,搜索排序设备包括:至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。搜索排序设备中的各个组件通过总线系统340耦合在一起。可理解,总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统340。
处理器310可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331,以及一个或多个输入装置332。
存储器350可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中,存储器350能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统351,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;网络通信模块352,用于经由一个或多个(有线或无线)网络接口320到达其他计算设备,示例性的网络接口320包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,UniversalSerial Bus)等;输入处理模块353,用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可采用软件方式实现,图2示出了存储在存储器350中的一种搜索排序装置354,该搜索排序装置354可以是电子设备中的搜索排序装置,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块3541、特征提取模块3542、特征融合模块3543、评测分值映射模块3544和排序模块3545,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的搜索排序方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
本申请各实施例提供的搜索排序方法可以由电子设备来执行,其中,该电子设备可以是服务器也可以是终端,即本申请各实施例的搜索排序方法可以通过服务器来执行,也可以通过终端来执行,或者也可以通过服务器与终端之间交互执行。
图3是本申请实施例提供的搜索排序方法的一个可选的流程示意图,下面将结合图3示出的步骤进行说明,如图3所示,以搜索排序方法的执行主体为服务器为例进行说明,方法包括以下步骤S101至步骤S105:
步骤S101,获取目标搜索词、与目标搜索词对应的多个候选搜索结果以及每一候选搜索结果的预估分数。
这里,目标搜索词是指输入至搜索引擎或者信息搜索应用中的搜索词,目标搜索词可以具有至少一个,信息搜索应用可以在预设信息库中检索与该目标搜索词对应的多个候选搜索结果。
在检索的过程中,可以采用任意一种维度下的检索方式进行检索,例如,可以确定目标搜索词与预设信息库中的候选搜索结果之间的相关性的大小,得到相关度,将相关度大于相关度阈值的候选搜索结果筛选出来。这里在确定目标搜索词与候选搜索结果之间的相关度时,可以采用任意一种相关度确定模型来实现,例如,可以采用基于用户的搜索、点击、浏览等交互数据进行数据标注后生成的样本数据训练的模型来实现,也可以采用基于人工标注文本语义相关度后生成的样本数据训练的模型来实现。也就是说,相关度确定模型可以是基于单一维度的标注数据进行模型训练后得到的模型。
预估分数是指采用相关度确定模型对目标搜索词与候选搜索结果之间的相关度进行计算后得到的分数。预估分数越高,表明目标搜索词与候选搜索结果之间的相关度可能会更高。
本申请实施例中,基于每一候选搜索结果的预估分数,可以对多个候选搜索结果进行初始排序,形成初始的搜索结果序列。然后,通过本申请实施例后续的步骤,对初始的搜索结果序列进行更新,从而得到更加准确的更新后的搜索结果序列。
步骤S102,对目标搜索词和每一候选搜索结果进行特征提取,得到搜索词特征和每一候选搜索结果的候选搜索结果特征;并基于预估分数对目标搜索词与每一候选搜索结果进行交互特征提取,得到目标搜索词与每一候选搜索结果之间的交互特征。
本申请实施例中,搜索词特征可以是文本形式的特征信息,可以提供一词向量表。对目标搜索词进行特征提取,可以是通过查询词向量表,即可查询到目标搜索词对应的向量元素。在一些实施例中,可以采用word2vec、GloVe等自然语言处理(NLP,NaturalLanguage Processing)中常用的词向量技术计算得到目标搜索词的向量值,从而得到搜索词特征。
对于每一候选搜索结果,如果候选搜索结果是长文本,可以先对候选搜索结果进行文本划分或者分词处理,得到多个分词,然后查询词向量表,得到每一分词对应的向量元素。在得到候选搜索结果中的每一分词的向量元素之后,将多个向量元素进行汇总,得到该候选搜索结果的候选搜索结果特征,其中,候选搜索结果特征为一矩阵形式的特征,候选搜索结果特征中包括每一分词对应的向量元素。
这里需要解释的是,词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP,Natural Language Processing)中的一组语言建模和特征学习技术的统称,其中来自词汇表(即词向量表)的单词或短语被映射到实数的向量。从概念上讲,词向量涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络、单词共生矩阵的降维、概率模型、可解释的知识库方法和术语的显式表示以及单词出现的背景。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。
交互特征用于表征目标搜索词与每一候选搜索结果之间的相关性;候选搜索结果特征包括与目标对象行为不相关的先验特征。这里,先验特征是与目标对象行为不相关的特征,例如,可以是预先获取的候选搜索结果的时效性、权威性、内容质量、访问便捷性等特征。本申请实施例中,可以通过对目标搜索词与每一候选搜索结果之间的相关性进行提取,得到交互特征,例如,可以提取目标搜索词与每一候选搜索结果之间的相似度、历史交互概率等信息得到交互特征。
步骤S103,针对每一候选搜索结果,对搜索词特征、候选搜索结果特征和交互特征进行特征融合,得到融合特征。
这里,特征融合是指对搜索词特征、候选搜索结果特征和交互特征进行特征拼接,形成一个更高阶的特征,即融合特征,该融合特征是能够反映搜索词特征、候选搜索结果特征和交互特征的高阶特征。
在一些实施例中,融合特征以向量的形式表示,搜索词特征、候选搜索结果特征和交互特征也以向量的形式表示,融合特征的维度等于搜索词特征、候选搜索结果特征和交互特征的维度之和。
步骤S104,基于融合特征进行评测分值映射,得到候选搜索结果的评测分值。
本申请实施例中,评测分值用于表征目标搜索词与候选搜索结果之间的相关性,评测分值与预估分数之间的区别在于,评测分值是考虑了更多维度的信息之后进行估计的相关性分值,而预估分时只是考虑了一个维度的信息之后进行估计的相关性分值。因此,相比于预估分数,评测分值能够更加准确的反应出目标搜索词与候选搜索结果之间的相关性。
步骤S105,基于每一候选搜索结果的评测分值,对多个候选搜索结果进行排序,得到搜索结果序列。
这里,可以按照评测分值由大到小的顺序,对多个候选搜索结果进行排序,得到搜索结果序列。也可以基于评测分值,对初始的搜索结果序列进行更新,得到更新后的搜索结果序列。
本申请实施例提供的搜索排序方法,通过对目标搜索词和每一候选搜索结果进行特征提取,以及,基于每一候选搜索结果的预估分数对目标搜索词与每一候选搜索结果进行交互特征提取;然后,针对每一候选搜索结果,对搜索词特征、候选搜索结果特征和交互特征进行特征融合,得到融合特征;基于融合特征进行评测分值映射,得到候选搜索结果的评测分值;最后,基于每一候选搜索结果的评测分值,对多个候选搜索结果进行排序,得到搜索结果序列。如此,由于用于进行评测分值映射的融合特征中融合了搜索词特征、候选搜索结果特征和交互特征,且交互特征是能够表征目标搜索词与每一候选搜索结果之间的相关性的特征、候选搜索结果特征包括与目标对象行为不相关的先验特征,也就是说,融合特征中融合了目标对象的先验特征以及相关性特征,因此,融合特征中充分的融合了候选搜索结果的各项特征信息,从而基于该融合特征能够准确的确定出每一候选搜索结果的评测分值,进而基于测分值能够提高排序的精度,以提高信息搜索结果推荐的准确性。
在一些实施例中,搜索排序系统中至少包括终端和服务器,终端上至少安装有该信息搜索应用,可以通过信息搜索应用为用户的信息搜索请求提供更加准确的候选搜索结果,并且按照用户的个性化需求,对搜索到的多个候选搜索结果进行准确的排序并显示给用户。服务器是信息搜索应用的服务器。
图4是本申请实施例提供的搜索排序方法的另一个可选的流程示意图,如图4所示,方法包括以下步骤S201至步骤S217:
步骤S201,终端接收用户的输入操作。
输入操作用于输入目标搜索词。例如,可以在信息搜索应用的输入框中输入目标搜索词。
步骤S202,终端响应于用户的输入操作,将目标搜索词封装至信息搜索请求中。
步骤S203,终端将信息搜索请求发送给服务器。
步骤S204,服务器响应于信息搜索请求,从预设信息库中确定与目标搜索词对应的多个候选搜索结果,以及,每一候选搜索结果的预估分数。
在一些实施例中,可以通过预先训练的分数预测模型来确定每一候选搜索结果的预估分数。例如,可以提供由两个维度的样本数据训练得到的分数预测模型来分别预测每一候选搜索结果的预估分值,最后对两个分数预测模型预测的预估分值进行综合,即可得到最终的每一候选搜索结果的预估分数。
这里以两个分数预测模型分别为第一预测模型和第二预测模型为例进行说明,其中,第一预测模型是基于人工标注相关性特征后得到的样本数据进行训练得到的预估模型;第二预测模型是以目标对象针对每一所述候选搜索结果的交互数据为样本数据进行训练得到的预估模型。
在确定预估分数时,可以将目标搜索词和每一候选搜索结果输入至第一预测模型中,通过第一预测模型预测每一候选搜索结果的第一维度预估分数;以及,将目标搜索词和每一候选搜索结果输入至第二预测模型中,通过第二预测模型预测每一候选搜索结果的第二维度预估分数;然后,对第一维度预估分数和第二维度预估分数分别进行归一化处理,得到第一维度归一化预估分数和第二维度归一化预估分数;最后,将每一候选搜索结果的第一维度归一化预估分数和第二维度归一化预估分数之和,确定为每一候选搜索结果的预估分数。
步骤S205,服务器对目标搜索词和每一候选搜索结果进行特征提取,得到搜索词特征和每一候选搜索结果的候选搜索结果特征;并基于预估分数对目标搜索词与每一候选搜索结果进行交互特征提取,得到目标搜索词与每一所述候选搜索结果之间的交互特征。
交互特征用于表征目标搜索词与每一候选搜索结果之间的相关性;候选搜索结果特征包括与目标对象行为不相关的先验特征。
在一些实施例中,搜索词特征可以包括目标搜索词的搜索频次特征和目标搜索词的目标搜索词特征。搜索频次特征是指与该目标搜索词在预设历史时间段内的搜索频次相关的特征,例如,可以是用户对目标搜索词在一周、一个月、三个月内的搜索频次;目标搜索词特征是与目标搜索词相关的特征,例如,可以是查询词向量表后确定的与目标搜索词对应的特征向量。
步骤S206,针对每一候选搜索结果,服务器对搜索频次特征和目标搜索词特征进行拼接,得到拼接特征。
步骤S207,服务器对目标搜索词特征、候选搜索结果特征和交互特征进行特征融合,得到高阶融合特征。
这里,特征融合可以是将目标搜索词特征、候选搜索结果特征和交互特征进行拼接,得到高阶融合特征,高阶融合特征的维度等于目标搜索词特征、候选搜索结果特征和交互特征的维度之和。拼接特征和高阶融合特征构成上述融合特征。
步骤S208,服务器基于拼接特征对高阶融合特征进行注意力计算,得到候选搜索结果的注意力建模向量。
在一些实施例中,参见图5,图5示出了步骤S208中进行注意力计算的过程还可以通过以下步骤S2081至步骤S2082实现:
步骤S2081,基于拼接特征和高阶融合特征,确定权重矩阵;权重矩阵用于表征与目标搜索词在预设历史时间段内的历史搜索频次正相关的权重值。
这里,如果目标搜索词在预设历史时间段内的历史搜索频次越高,则权重矩阵中的权重值越大。也就是说,该权重矩阵可以理解为根据目标搜索词的历史搜索频次,模型应当给哪些特征赋予更大的权重。
步骤S2082,基于权重矩阵对高阶融合特征进行加权计算,得到候选搜索结果的注意力建模向量。
本申请实施例中,通过目标搜索词的搜索频次等信息让模型自动判断哪些特征更重要,例如,高频目标搜索词更加置信目标对象行为等后验特征,长冷的目标搜索词更置信相关性等先验特征,如此能够针对不同目标搜索词进行准确的特征信息提取和融合。
步骤S209,服务器基于候选搜索结果的注意力建模向量确定候选搜索结果的评测分值。
这里,可以对候选搜索结果的注意力建模向量进行多次全连接处理,从而得到候选搜索结果的评测分值。
在一种可选的实现方式中,在得到评测分值之后,可以执行以下步骤S210:
步骤S210,服务器基于每一候选搜索结果的评测分值,对多个候选搜索结果进行排序,得到搜索结果序列。
在另一种可选的实现方式中,在得到评测分值之后,可以执行以下步骤S211至步骤S215:
步骤S211,服务器确定评测分值的取值区间。
这里,评测分值的取值区间为预设值,可以根据评测分值预测模型预先设置,例如,可以设置评测分值的取值区间为0到1的区间[0,1],或者,可以设置评测分值的取值区间为-1到1的区间[-1,1]。
步骤S212,服务器对取值区间进行分割,形成多个子区间。
这里,可以对取值区间进行等比例划分,得到多个子区间。例如,可以将0到1的取值区间[0,1]等比例划分成5个子区间[0,0.2)、[0.2,0.4)、[0.4,0.6)、[0.6,0.8)、[0.8,1]。
步骤S213,服务器从多个子区间中,确定每一候选搜索结果的评测分值所在的目标子区间。
由于通过上述步骤,已经计算出每一候选搜索结果的评测分值,因此,可以确定每一候选搜索结果的评测分值落在哪一子区间内,该子区间即相应候选搜索结果的目标子区间。
步骤S214,服务器基于每一候选搜索结果的搜索词特征、候选搜索结果特征、交互特征、预估分数和评测分值,确定每一候选搜索结果的二次评测分值;其中,二次评测分值属于目标子区间。
在一些实施例中,参见图6,图6示出了步骤S214中二次评测分值的确定过程还可以通过以下步骤S2141至步骤S2144实现:
步骤S2141,确定搜索词特征的搜索词权重、候选搜索结果特征的候选搜索结果权重、交互特征的交互权重、预估分数的预估权重和评测分值的评测权重。
在一些实施例中,可以对搜索对象进行个性化特征提取,得到搜索对象的对象特征信息;然后,基于对象特征信息,确定搜索词特征的搜索词权重、候选搜索结果特征的候选搜索结果权重、交互特征的交互权重、预估分数的预估权重和评测分值的评测权重,其中,搜索词权重、候选搜索结果权重、交互权重、预估权重和评测权重之和等于1。
步骤S2142,基于搜索词权重、候选搜索结果权重、交互权重、预估权重和评测权重,分别对搜索词特征、候选搜索结果特征、交互特征、预估分数和评测分值进行加权计算,得到加权后的搜索词特征、加权后的候选搜索结果特征、加权后的交互特征、加权后的预估分数和加权后的评测分值。
步骤S2143,对加权后的搜索词特征、加权后的候选搜索结果特征、加权后的交互特征、加权后的预估分数和加权后的评测分值进行特征融合,得到加权融合特征。
步骤S2144,基于加权融合特征进行评测分值映射,得到每一候选搜索结果的二次评测分值。
在一些实施例中,可以在确定出每一候选搜索结果的评测分值之后,确定具有相同评测分值的多个候选搜索结果,然后采用本申请实施例提供的二次评测的过程,对具有相同评测分值的多个候选搜索结果在更高维度上进行评测分值计算,得到能够区分具有相同评测分值的多个候选搜索结果的二次评测分值,以实现对具有相同评测分值的候选搜索结果之间的区分。
步骤S215,服务器基于每一候选搜索结果的二次评测分值,对多个候选搜索结果进行重新排序,得到更新后的搜索结果序列。
步骤S216,服务器将搜索结果序列(或者更新后的搜索结果序列)发送给终端。
步骤S217,终端按照搜索结果序列中的候选搜索结果的顺序,在当前界面上显示多个候选搜索结果。
本申请实施例提供的搜索排序方法,在基于用户不同维度的信息计算出评测分值之后,还可以进一步对评测分值进行细化,从而能够为具有相同评测分值的多个候选搜索结果计算出由区分的二次评测分值,基于二次评测分值对具有相同评测分值的多个候选搜索结果也能进行准确的区分和排序,提高搜索结果序列的排序准确性。
在一些实施例中,上述评测分值还可以采用预先训练的评测分值预测模型来进行预测,也就是说,可以通过预先训练的评测分值预测模型预测每一候选搜索结果的评测分值。基于此,本申请实施例再提供一种评测分值预测模型的训练方法,图7是本申请实施例提供的评测分值预测模型的训练方法的流程示意图,评测分值预测模型的训练方法可以通过模型训练模块来执行。其中,模型训练模块可以是搜索排序设备(即电子设备)中的模块,即模型训练模块可以是服务器也可以是终端;或者,也可以是独立于搜索排序设备的另一设备,即模型训练模块是区别于上述用于实现搜索排序方法的服务器和终端之外的其他电子设备。如图7所示,可以通过循环迭代以下步骤S301至步骤S308,对评测分值预测模型进行训练,直至评测分值预测模型满足预设收敛条件达到收敛为止:
步骤S301,将样本数据输入至评测分值预测模型中。
样本数据包括样本搜索词、与样本搜索词对应的多个样本搜索结果、每一样本搜索结果的样本预估分数和每一样本搜索结果的样本标签。
本申请实施例的评测分值预测模型训练方法,可以解决以下问题:(1)对于用户反馈排序会有偏差,比如位置偏差、样式偏差。以及,大多数浏览态的卡片,比如,天气卡、股票卡、视频自动播放这些很难获取用户点击的情况;(2)通过先验的相关性做排序会造成时效性、权威性的融合精度不高的情况,则需要通过人工标注产生理想样本来训练模型。
步骤S302,通过评测分值预测模型的特征提取层,对样本搜索词和每一样本搜索结果进行特征提取,得到样本词特征和每一样本搜索结果的样本搜索结果特征;并基于样本预估分数对样本搜索词与每一样本搜索结果进行交互特征提取,得到样本搜索词与每一样本搜索结果之间的样本交互特征。
样本交互特征用于表征样本搜索词与每一样本搜索结果之间的样本相关性;样本词特征包括样本搜索词的样本搜索频次特征和样本搜索词的样本搜索词特征。
步骤S303,通过评测分值预测模型的多层感知机(MLP,Multilayer Perceptron),针对每一样本搜索结果,对样本搜索频次特征和样本搜索词特征进行拼接(concatenate),得到样本拼接特征。
步骤S304,通过评测分值预测模型的特征交叉模块,对样本搜索词特征、样本搜索结果特征和样本交互特征进行特征融合,得到样本高阶融合特征。
步骤S305,通过评测分值预测模型的注意力计算模块,基于样本拼接特征对样本高阶融合特征进行注意力计算,得到样本搜索结果的样本注意力建模向量。
步骤S306,通过评测分值预测模型的全连接模块,对每一样本搜索结果的样本注意力建模向量进行多次全连接处理,得到每一样本搜索结果的样本评测分值。
步骤S307,基于每一样本搜索结果的样本标签,对样本搜索结果的样本评测分值进行损失计算,得到损失结果。
在一些实施例中,参见图8,图8示出了步骤S307中进行损失计算的过程可以通过以下步骤S3071至步骤S3074实现:
步骤S3071,从多个样本搜索结果中获取第一样本搜索结果和第二样本搜索结果。
第一样本搜索结果和第二样本搜索结果是多个样本搜索结果中任意的两个具有不同样本标签的样本搜索结果。
步骤S3072,交换第一样本搜索结果和第二样本搜索结果在全部样本搜索结果中的搜索位置。
步骤S3073,确定交换第一样本搜索结果和第二样本搜索结果的搜索位置之后形成的归一化折损累计增益。
这里,归一化折损累计增益是一种衡量排序质量的指标,常用于信息检索问题,例如评估搜索引擎算法的有效性,根据搜索词的相关性对搜索结果进行排序。
在一些实施例中,归一化折损累计增益可以通过以下方式确定:首先,确定对第一样本搜索结果和第二样本搜索结果进行搜索位置交换后的搜索引擎质量指标值;然后,确定第一样本搜索结果和第二样本搜索结果在预设理想状态下的理想态搜索引擎质量指标值;最后,基于理想态搜索引擎质量指标值,对搜索引擎质量指标值进行归一化处理,得到归一化折损累计增益。
步骤S3074,基于第一样本搜索结果的评测分值、第二样本搜索结果的评测分值和归一化折损累计增益,确定损失结果。
在一些实施例中,多个样本搜索结果中包括由多对第一样本搜索结果和第二样本搜索结果构成的不同搜索位置的样本搜索结果对。基于第一样本搜索结果的评测分值、第二样本搜索结果的评测分值和归一化折损累计增益,确定损失结果,可以通过以下方式实现:首先,针对每一样本搜索结果对,基于第一样本搜索结果的评测分值、第二样本搜索结果的评测分值和归一化折损累计增益,确定样本搜索结果对的模型更新梯度值;然后,对全部样本搜索结果对的模型更新梯度值求均值,得到用于对评测分值预测模型进行梯度更新的损失结果。
步骤S308,基于损失结果,对评测分值预测模型中的模型参数进行修正,得到训练后的评测分值预测模型。
本申请实施例中,可以通过循环迭代以上步骤S301至步骤S308,实现对评测分值预测模型的训练,直至评测分值预测模型的损失函数收敛为止,停止对评测分值预测模型的训练。
在一些实施例中,还可以通过提供具有一定数量的样本数据,在每一次循环迭代时,均采用样本数据中的部分数量的样本子数据进行一次循环迭代训练,当全部样本子数据均用于对评测分值预测模型进行训练完成之后,停止对评测分值预测模型的训练,此时的训练后的评测分值预测模型即为训练好的评测分值预测模型。
在另一些实施例中,还可以预先设置循环迭代的次数阈值,在采用样本数据对评测分值预测模型循环迭代训练过程中,当循环迭代的次数达到该次数阈值时,停止对评测分值预测模型的训练,此时的训练后的评测分值预测模型即为训练好的评测分值预测模型。
在又一些实施例中,还可以预设设置循环迭代训练的总时长阈值,在采用样本数据对评测分值预测模型循环迭代训练的过程中,记录循环迭代训练所经历的训练时长,当训练时长达到该总时长阈值时,停止对评测分值预测模型的训练,此时的训练后的评测分值预测模型即为训练好的评测分值预测模型。
在一些实施例中,还可以提供一排序模型,该排序模型中包括评测分值预测模型和排序层,通过排序模型中的评测分值预测模型预测每一候选搜索结果的评测分值,然后,通过排序模型中的排序层基于每一候选搜索结果的评测分值,对多个候选搜索结果进行排序,得到搜索结果序列。在对排序模型进行训练时,可以采用与上述评测分值预测模型相同的过程进行训练,也就是说,在训练的过程中,仅训练排序模型中的评测分值预测模型即可。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例提供一种搜索排序方法,通过在样本、模型、训练方式这三个环节进行改进,来解决排序精度差的问题,尤其是长冷搜索词下排序精度差的问题,具体包括:通过人工标注样本,降低样本中噪声数据导致的排序精度差问题,例如,使用人工标注的数据作为建模目标,替换传统基于目标对象行为的建模目标,从而减少因学习目标的噪声数据导致排序精度差问题;通过listwise方式训练模型,使训练过程更精细化,提升排序效果;通过设计注意力网络结构,更高效融合先验特征和后验特征,从而提升长冷搜索词排序效果。
本申请实施例提供了一种通用的搜索排序建模方法和排序方法,可以应用在各种软件(或场景)的搜索排序环节。例如,各种互联网大搜的排序环节、各种互联网APP搜索业务的排序环节、各种非互联网业务的排序环节。
这里,对本申请实施例的不同建模方案进行说明:
方案一(本申请实施例中计算预估分数的相关方案):建模目标:人工标注相关性目标。即通过人工标记query与doc是否在文本/语义相关性维度匹配,相关时将建模目标打标为1,不相关打标为0。训练方式:通过pointwise方法训练,让模型学到能区分0和1的能力。
方案二(本申请实施例中计算预估分数的相关方案):建模目标:根据线上目标对象行为做训练目标,即对目标对象点击/转化的数据打标为1,其他曝光未点击等负向行为打标为0。训练方式:通过pointwise方法训练,让模型学到能区分0和1的能力。
方案三(本申请实施例中计算评测分值的相关方案):建模目标:人工标注理想态目标。对某个qd对人工标注为0~3的整数。给query和doc打标签时候综合考虑6个维度(前两个方案只会考虑单一维度):相关性、目标对象行为、时效性、权威性、doc的内容质量、访问便捷性,将6个维度最终融合成0-3的分数。
下面对6个维度举例说明:
(1)相关性:与方案一相同,考虑query-doc在文本相关性、语义相关性上是否匹配。比如,query=人名XX,doc1=XX的简介,doc2=明星B的电视剧,那么doc1明显比doc2更相关。如图9所示,是在相关性维度下,对某个qd对人工标注为0~3的情况举例。
(2)目标对象行为:与方案二相同,这里的目标对象可以是用户,考虑用户在搜query时候,是否会点击/转化该doc,通常基于大规模目标对象行为统计/预估出来的CTR、转化率(CVR,Conversion Rate)。比如,100个人搜索query=人名XX,有80%人点击了doc1,只有5%的人点击了doc2,则明显doc1的目标对象行为更好。
(3)时效性:考虑当前doc是否满足query的时效性需求,比如,query=某地天气,doc1返回当天的天气情况,doc2返回一个月前的天气状况,则doc1明显优于doc2。
(4)权威性:考虑当前doc是否为官方报道或者自媒体的官方账号。举例,query=某峰会,doc1来自某官方账号,doc2来自一个普通自媒体解说,则doc1优于doc2。
(5)Doc内容质量:即同样query下,doc的封面图或者视频等相比,是否高清、是否语句更顺畅。
(6)访问便捷性:不需要点击就可以满足query需求的doc更好,比如,query=某地天气,doc1直接把近一周天气走势用卡片呈现出来,doc2需要点击标题进入到网页链接才能看到具体天气走势。则doc1优于doc2。
训练方式:通过listwise方式训练,即让模型学到能区分0、1、2、3数据的能力;其中,方案一、方案二的标签范围是0、1,方案一和方案二不能解决同样是打分等于1的doc彼此之间的排序问题。本申请实施例的0~3的标签可以让模型学的更充分。再者,本申请实施例在网络结构上引入注意力模块,让模型自动学习上述6个维度的重要性,使得建模精度更高。
本申请实施例中,可以将候选搜索结果包括的多个目标的预估分数输入更新的排序模型(包括上述评测分值预测模型),得到搜索结果序列。其中搜索结果序列是采用本申请实施例中的排序模型的训练方法训练得到的。
由于传统的搜索排序多数是以用户的正向行为作为建模目标,比如用户的点击或购买;这会从建模目标上就引入噪声数据,比如只有少量用户搜索的query,其对应的搜索内容点击情况也并不置信,会有更大可能是误点击;该情况进一步推广,搜索量越大的query在排序时候越应该考虑用户的点击情况(后验特征),因为海量用户已帮助筛选有用doc了;搜索量小的query更应该以query-doc文本相关性、语义相关性(先验特征)排序;当然更合理的情况是,让模型根据query搜索量自动判断先验特征、后验特征重要度做doc排序。下面详细的从模型的离线训练->模型的线上打分描述本申请实施例的方案。
首先,对于样本标签(label)获取,正如前文所述,query的点击置信度随着query搜索频次是变化的,点击作为训练目标会引入噪声,所以本申请实施例通过人工标注的方式获得建模目标,解决传统样本的噪声/偏差问题,即使用理想样本训练目标。具体来说:label可以是将query与其返回的doc组成query-doc对交给人工做0~3分的打标,分数越高表示该doc越能满足对应query的搜索需求。即样本的label 0,1,2,3/>。人工打分时候主要考虑:相关性维度、时效性维度、权威性维度、doc内容质量维度、访问便捷性维度等。
对于模型训练时排序模型的输入(样本数据)和输出:排序模型的样本数据包括四部分:query侧特征(QueryFeature)、doc侧特征(DocFeature)、query-doc交互特征(CrossFeature)、label。其中,query侧特征包括:query的分词结果、query意图、query扩展词等;doc侧特征包括:doc标题的分词结果、doc发布时间、doc时鲜性、doc类型、作者等;query-doc交互特征:在当前query下,该doc历史点击次数、query-doc相关性、query-doc预估点击率等;label:即通过人工标注产生的0-3的值。模型输出:一条样本会产生一个浮点数作为qd得分(即评测分值)。
下面对排序模型的网络结构进行说明:如图10所示,排序模型的网络结构主要包括4部分:输入层1001(即特征提取层)、特征交叉模块1002(包括多层感知机MLP)、注意力计算模块1003和输出模块1004(即全连接模块)。
输入层1001:包括但不限于图10中的端到端AutoDis层,目的是连续特征离散化,以便深度模型更方便建模。特征交叉模块1002:包括但不限于图10中的第p阶AutoInt层(Order AutoInt Layer),目的是将各个特征相互融合产生高阶特征。这里的各个特征包括图10中的用于生成可学习的参数矩阵Q的query的搜索量和在该query下doc的曝光量特征(qv和exam特征)、query侧特征、doc侧特征、query-doc交互特征等。注意力计算模块1003:包括但不限于图10中的上下文注意力层(Context Attention Layer),目的是通过query频次等信息让模型自动判断哪些特征更重要,例如上文提到的“高频query更置信目标对象行为等后验特征,长冷query更置信相关性等先验特征”。
这里主要使用到了attention技术,attention是一种注意力机制,attention技术可以计算一个序列中的每个元素与其他元素的相关性,从而得到一个新的表示。attention技术可以表示为以下公式(1):
(1)。
其中,Q、K、V都是可学习的参数矩阵,attention能够捕捉到全局信息,经过这个模块的输出结果,是通过输入结果两两运算得出了权重,再对输入进行加权求和得到输出结果。除了捕捉全局信息,还能并行计算。在本申请实施例中,将query的搜索频次表示为Q矩阵(即上述拼接特征),将经过特征交叉模块得到的向量表示为K和V矩阵(即上述高阶融合特征),Q和K经过矩阵相乘后做softmax得到权重矩阵,该权重矩阵可以理解为根据query的历史搜索频次,模型应当给哪些特征赋予更大的权重;最后将权重向量点乘到特征交叉后的向量V上完成注意力建模。表示K向量的维度。
输出模块1004:即图10中的3MLP层,将注意力计算模块1003得到的向量通过3层全连接后得到最终的模型打分值(即评测分值)。
本申请实施例中,在模型训练过程中,可以使用listwise方式训练排序模型,包括但不限于使用Lambda Loss作为损失函数,损失函数可以表示为以下公式(2):
(2)。
这里,是排序模型更新需要的梯度(即模型更新梯度值);/>和/>分别是/>的模型打分,/>是通常取值为1的参数,/>是/>和/>交换排序位置后产生的NDCG增量。
关于NDCG首先要说明下DCG和IDCG:即搜索引擎质量指标值(DCG,DiscountedCumulative Gain)提出在搜索结果列表的较靠后的位置上出现匹配度较高的文档时,应该对评测得分施加惩罚。惩罚比例与文档所在位置的对数值相关。给定一个结果列表的排序位置p,DCG 可定义为以下公式(3):
(3)。
这里,表示当前i位置文档的匹配度,理想态搜索引擎质量指标值(IDCG,IdealDiscounted Cumulative Gain)就是当前结果在最理想情况下的DCG。比如排序结果:A=[3,2,3,1,2],理想结果应该是:/> =[3,3,2,2,1],计算/>的DCG即为IDCG。NDCG就是当前结果的DCG用IDCG进行归一化,用于表示当前结果接近最理想的结果的程度,NDCG可以通过以下公式(4)进行归一化计算:
(4)。
如前文描述,在NDCG概念里,高匹配性的文档比低匹配性的文档更有用,应该排在更靠前的位置,对本申请实施例而言,高匹配度表现在人工标注的label有更高的得分。即损失函数是针对整个排序效果做的优化,使得整个排序模型再优化的过程中更有针对性。
在对排序模型进行训练之后,可以将候选搜索结果包括的多个目标(即多个候选搜索结果)的预估分数输入至训练后的排序模型,得到搜索结果序列。其中排序模型是采用本申请中的排序模型的训练方法训练得到的。
本申请实施例还使用某信息搜索引擎中的真实搜索query,对本申请实施例的搜索排序方法做了GSB(Good/Same/Bad)人工测评,其中,query分成两个维度:100个热门搜索词和100个随机采样搜索词。如图11所示,是采用本申请实施例的方法进行GSB人工测评的结果界面图,可以看出,在热门搜索词下,本申请实施例的方案效果显著优于线上基线,收益率17%;在随机搜索词下,本申请实施例的方案效果显著优于线上基线,收益率18%。
可以理解的是,在本申请实施例中,涉及到用户信息的内容,例如,目标对象行为、目标搜索词、搜索结果序列等信息,如果涉及与用户信息或企业信息相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,或者对这些信息进行模糊化处理,以消除这些信息与用户之间的对应关系;且相关数据收集处理在实例应用时应该严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
下面继续说明本申请实施例提供的搜索排序装置354实施为软件模块的示例性结构,在一些实施例中,如图2所示,搜索排序装置354包括:获取模块3541,用于获取目标搜索词、与所述目标搜索词对应的多个候选搜索结果以及每一所述候选搜索结果的预估分数;特征提取模块3542,用于对所述目标搜索词和每一所述候选搜索结果进行特征提取,得到搜索词特征和每一所述候选搜索结果的候选搜索结果特征;并基于所述预估分数对所述目标搜索词与每一所述候选搜索结果进行交互特征提取,得到所述目标搜索词与每一所述候选搜索结果之间的交互特征;所述交互特征用于表征所述目标搜索词与每一所述候选搜索结果之间的相关性;所述候选搜索结果特征包括与目标对象行为不相关的先验特征;特征融合模块3543,用于针对每一所述候选搜索结果,对所述搜索词特征、所述候选搜索结果特征和所述交互特征进行特征融合,得到融合特征;评测分值映射模块3544,用于基于所述融合特征进行评测分值映射,得到所述候选搜索结果的评测分值;排序模块3545,用于基于每一所述候选搜索结果的评测分值,对所述多个候选搜索结果进行排序,得到搜索结果序列。
在一些实施例中,所述搜索词特征包括所述目标搜索词的搜索频次特征和所述目标搜索词的目标搜索词特征;所述特征融合模块还用于:针对每一所述候选搜索结果,对所述搜索频次特征和所述目标搜索词特征进行拼接,得到拼接特征;对所述目标搜索词特征、所述候选搜索结果特征和所述交互特征进行特征融合,得到高阶融合特征;其中,所述拼接特征和所述高阶融合特征构成所述融合特征。
在一些实施例中,所述评测分值映射模块还用于:基于所述拼接特征对所述高阶融合特征进行注意力计算,得到所述候选搜索结果的注意力建模向量;基于所述候选搜索结果的注意力建模向量确定所述候选搜索结果的评测分值。
在一些实施例中,所述评测分值映射模块还用于:基于所述拼接特征和所述高阶融合特征,确定权重矩阵;所述权重矩阵用于表征与所述目标搜索词在预设历史时间段内的历史搜索频次正相关的权重值;基于所述权重矩阵对所述高阶融合特征进行加权计算,得到所述候选搜索结果的注意力建模向量。
在一些实施例中,所述评测分值映射模块还用于:对所述候选搜索结果的注意力建模向量进行多次全连接处理,得到所述候选搜索结果的评测分值。
在一些实施例中,所述装置还包括:区间确定模块,用于确定所述评测分值的取值区间;区间分割模块,用于对所述取值区间进行分割,形成多个子区间;子区间确定模块,用于从所述多个子区间中,确定每一所述候选搜索结果的评测分值所在的目标子区间;二次评测分值确定模块,用于基于每一所述候选搜索结果的所述搜索词特征、所述候选搜索结果特征、所述交互特征、所述预估分数和所述评测分值,确定每一所述候选搜索结果的二次评测分值;其中,所述二次评测分值属于所述目标子区间;重排序模块,用于基于每一所述候选搜索结果的二次评测分值,对所述多个候选搜索结果进行重新排序,得到更新后的搜索结果序列。
在一些实施例中,所述二次评测分值确定模块还用于:确定所述搜索词特征的搜索词权重、所述候选搜索结果特征的候选搜索结果权重、所述交互特征的交互权重、所述预估分数的预估权重和所述评测分值的评测权重;基于所述搜索词权重、所述候选搜索结果权重、所述交互权重、所述预估权重和所述评测权重,分别对所述搜索词特征、所述候选搜索结果特征、所述交互特征、所述预估分数和所述评测分值进行加权计算,得到加权后的搜索词特征、加权后的候选搜索结果特征、加权后的交互特征、加权后的预估分数和加权后的评测分值;对所述加权后的搜索词特征、所述加权后的候选搜索结果特征、所述加权后的交互特征、所述加权后的预估分数和所述加权后的评测分值进行特征融合,得到加权融合特征;基于所述加权融合特征进行评测分值映射,得到每一所述候选搜索结果的二次评测分值。
在一些实施例中,所述二次评测分值确定模块还用于:对搜索对象进行个性化特征提取,得到所述搜索对象的对象特征信息;基于所述对象特征信息,确定所述搜索词特征的搜索词权重、所述候选搜索结果特征的候选搜索结果权重、所述交互特征的交互权重、所述预估分数的预估权重和所述评测分值的评测权重,其中,所述搜索词权重、所述候选搜索结果权重、所述交互权重、所述预估权重和所述评测权重之和等于1。
在一些实施例中,获取模块还用于:将所述目标搜索词和每一所述候选搜索结果输入至第一预测模型中,通过所述第一预测模型预测每一所述候选搜索结果的第一维度预估分数;所述第一预测模型是基于人工标注相关性特征后得到的样本数据进行训练得到的预估模型;将所述目标搜索词和每一所述候选搜索结果输入至第二预测模型中,通过所述第二预测模型预测每一所述候选搜索结果的第二维度预估分数;所述第二预测模型是以目标对象针对每一所述候选搜索结果的交互数据为样本数据进行训练得到的预估模型;对所述第一维度预估分数和所述第二维度预估分数分别进行归一化处理,得到第一维度归一化预估分数和第二维度归一化预估分数;将每一所述候选搜索结果的所述第一维度归一化预估分数和所述第二维度归一化预估分数之和,确定为每一所述候选搜索结果的预估分数。
在一些实施例中,所述装置还包括:模型训练模块,用于通过预先训练的评测分值预测模型预测每一所述候选搜索结果的评测分值;所述评测分值预测模型通过以下步骤进行训练:将样本数据输入至所述评测分值预测模型中;所述样本数据包括样本搜索词、与所述样本搜索词对应的多个样本搜索结果、每一所述样本搜索结果的样本预估分数和每一所述样本搜索结果的样本标签;通过所述评测分值预测模型的特征提取层,对所述样本搜索词和每一所述样本搜索结果进行特征提取,得到样本词特征和每一所述样本搜索结果的样本搜索结果特征;并基于所述样本预估分数对所述样本搜索词与每一所述样本搜索结果进行交互特征提取,得到所述样本搜索词与每一所述样本搜索结果之间的样本交互特征;所述样本交互特征用于表征所述样本搜索词与每一所述样本搜索结果之间的样本相关性;所述样本词特征包括所述样本搜索词的样本搜索频次特征和所述样本搜索词的样本搜索词特征;通过所述评测分值预测模型的多层感知机,针对每一所述样本搜索结果,对所述样本搜索频次特征和所述样本搜索词特征进行拼接,得到样本拼接特征;通过所述评测分值预测模型的特征交叉模块,对所述样本搜索词特征、所述样本搜索结果特征和所述样本交互特征进行特征融合,得到样本高阶融合特征;通过所述评测分值预测模型的注意力计算模块,基于所述样本拼接特征对所述样本高阶融合特征进行注意力计算,得到所述样本搜索结果的样本注意力建模向量;通过所述评测分值预测模型的全连接模块,对每一所述样本搜索结果的样本注意力建模向量进行多次全连接处理,得到每一所述样本搜索结果的样本评测分值;基于每一所述样本搜索结果的样本标签,对所述样本搜索结果的样本评测分值进行损失计算,得到损失结果;基于所述损失结果,对所述评测分值预测模型中的模型参数进行修正,得到训练后的评测分值预测模型。
在一些实施例中,所述模型训练模块还用于:从所述多个样本搜索结果中获取第一样本搜索结果和第二样本搜索结果;所述第一样本搜索结果和所述第二样本搜索结果是所述多个样本搜索结果中任意的两个具有不同样本标签的样本搜索结果;交换所述第一样本搜索结果和所述第二样本搜索结果在全部样本搜索结果中的搜索位置;确定交换所述第一样本搜索结果和所述第二样本搜索结果的所述搜索位置之后形成的归一化折损累计增益;基于所述第一样本搜索结果的评测分值、所述第二样本搜索结果的评测分值和所述归一化折损累计增益,确定所述损失结果。
在一些实施例中,所述多个样本搜索结果中包括由多对第一样本搜索结果和第二样本搜索结果构成的不同搜索位置的样本搜索结果对;所述模型训练模块还用于:针对每一所述样本搜索结果对,基于所述第一样本搜索结果的评测分值、所述第二样本搜索结果的评测分值和所述归一化折损累计增益,确定所述样本搜索结果对的模型更新梯度值;对全部样本搜索结果对的模型更新梯度值求均值,得到用于对所述评测分值预测模型进行梯度更新的所述损失结果。
在一些实施例中,所述模型训练模块还用于:确定对所述第一样本搜索结果和所述第二样本搜索结果进行所述搜索位置交换后的搜索引擎质量指标值;确定所述第一样本搜索结果和所述第二样本搜索结果在预设理想状态下的理想态搜索引擎质量指标值;基于所述理想态搜索引擎质量指标值,对所述搜索引擎质量指标值进行归一化处理,得到所述归一化折损累计增益。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括可执行指令,该可执行指令是一种计算机指令;该可执行指令存储在计算机可读存储介质中。当电子设备的处理器从计算机可读存储介质读取该可执行指令,处理器执行该可执行指令时,使得该电子设备执行本申请实施例上述的方法。
本申请实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3示出的方法。
在一些实施例中,存储介质可以是计算机可读存储介质,例如,铁电存储器(FRAM,Ferromagnetic Random Access Memory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM,Compact Disk-Read Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (17)

1.一种搜索排序方法,其特征在于,所述方法包括:
获取目标搜索词、与所述目标搜索词对应的多个候选搜索结果以及每一所述候选搜索结果的预估分数;
对所述目标搜索词和每一所述候选搜索结果进行特征提取,得到搜索词特征和每一所述候选搜索结果的候选搜索结果特征;并基于所述预估分数对所述目标搜索词与每一所述候选搜索结果进行交互特征提取,得到所述目标搜索词与每一所述候选搜索结果之间的交互特征;所述交互特征用于表征所述目标搜索词与每一所述候选搜索结果之间的相关性;所述候选搜索结果特征包括与目标对象行为不相关的先验特征;
针对每一所述候选搜索结果,对所述搜索词特征、所述候选搜索结果特征和所述交互特征进行特征融合,得到融合特征;
基于所述融合特征进行评测分值映射,得到所述候选搜索结果的评测分值;
基于每一所述候选搜索结果的评测分值,对所述多个候选搜索结果进行排序,得到搜索结果序列。
2.根据权利要求1所述的方法,其特征在于,所述搜索词特征包括所述目标搜索词的搜索频次特征和所述目标搜索词的目标搜索词特征;
所述针对每一所述候选搜索结果,对所述搜索词特征、所述候选搜索结果特征和所述交互特征进行特征融合,得到融合特征,包括:
针对每一所述候选搜索结果,对所述搜索频次特征和所述目标搜索词特征进行拼接,得到拼接特征;
对所述目标搜索词特征、所述候选搜索结果特征和所述交互特征进行特征融合,得到高阶融合特征;其中,所述拼接特征和所述高阶融合特征构成所述融合特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述融合特征进行评测分值映射,得到所述候选搜索结果的评测分值,包括:
基于所述拼接特征对所述高阶融合特征进行注意力计算,得到所述候选搜索结果的注意力建模向量;
基于所述候选搜索结果的注意力建模向量确定所述候选搜索结果的评测分值。
4.根据权利要求3所述的方法,其特征在于,所述基于所述拼接特征对所述高阶融合特征进行注意力计算,得到所述候选搜索结果的注意力建模向量,包括:
基于所述拼接特征和所述高阶融合特征,确定权重矩阵;所述权重矩阵用于表征与所述目标搜索词在预设历史时间段内的历史搜索频次正相关的权重值;
基于所述权重矩阵对所述高阶融合特征进行加权计算,得到所述候选搜索结果的注意力建模向量。
5.根据权利要求3所述的方法,其特征在于,所述基于所述候选搜索结果的注意力建模向量确定所述候选搜索结果的评测分值,包括:
对所述候选搜索结果的注意力建模向量进行多次全连接处理,得到所述候选搜索结果的评测分值。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述评测分值的取值区间;
对所述取值区间进行分割,形成多个子区间;
从所述多个子区间中,确定每一所述候选搜索结果的评测分值所在的目标子区间;
基于每一所述候选搜索结果的所述搜索词特征、所述候选搜索结果特征、所述交互特征、所述预估分数和所述评测分值,确定每一所述候选搜索结果的二次评测分值;其中,所述二次评测分值属于所述目标子区间;
基于每一所述候选搜索结果的二次评测分值,对所述多个候选搜索结果进行重新排序,得到更新后的搜索结果序列。
7.根据权利要求6所述的方法,其特征在于,所述基于每一所述候选搜索结果的所述搜索词特征、所述候选搜索结果特征、所述交互特征、所述预估分数和所述评测分值,确定每一所述候选搜索结果的二次评测分值,包括:
确定所述搜索词特征的搜索词权重、所述候选搜索结果特征的候选搜索结果权重、所述交互特征的交互权重、所述预估分数的预估权重和所述评测分值的评测权重;
基于所述搜索词权重、所述候选搜索结果权重、所述交互权重、所述预估权重和所述评测权重,分别对所述搜索词特征、所述候选搜索结果特征、所述交互特征、所述预估分数和所述评测分值进行加权计算,得到加权后的搜索词特征、加权后的候选搜索结果特征、加权后的交互特征、加权后的预估分数和加权后的评测分值;
对所述加权后的搜索词特征、所述加权后的候选搜索结果特征、所述加权后的交互特征、所述加权后的预估分数和所述加权后的评测分值进行特征融合,得到加权融合特征;
基于所述加权融合特征进行评测分值映射,得到每一所述候选搜索结果的二次评测分值。
8.根据权利要求7所述的方法,其特征在于,所述确定所述搜索词特征的搜索词权重、所述候选搜索结果特征的候选搜索结果权重、所述交互特征的交互权重、所述预估分数的预估权重和所述评测分值的评测权重,包括:
对搜索对象进行个性化特征提取,得到所述搜索对象的对象特征信息;
基于所述对象特征信息,确定所述搜索词特征的搜索词权重、所述候选搜索结果特征的候选搜索结果权重、所述交互特征的交互权重、所述预估分数的预估权重和所述评测分值的评测权重,其中,所述搜索词权重、所述候选搜索结果权重、所述交互权重、所述预估权重和所述评测权重之和等于1。
9.根据权利要求1所述的方法,其特征在于,获取每一所述候选搜索结果的预估分数,包括:
将所述目标搜索词和每一所述候选搜索结果输入至第一预测模型中,通过所述第一预测模型预测每一所述候选搜索结果的第一维度预估分数;所述第一预测模型是基于人工标注相关性特征后得到的样本数据进行训练得到的预估模型;
将所述目标搜索词和每一所述候选搜索结果输入至第二预测模型中,通过所述第二预测模型预测每一所述候选搜索结果的第二维度预估分数;所述第二预测模型是以目标对象针对每一所述候选搜索结果的交互数据为样本数据进行训练得到的预估模型;
对所述第一维度预估分数和所述第二维度预估分数分别进行归一化处理,得到第一维度归一化预估分数和第二维度归一化预估分数;
将每一所述候选搜索结果的所述第一维度归一化预估分数和所述第二维度归一化预估分数之和,确定为每一所述候选搜索结果的预估分数。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述方法还包括:
通过预先训练的评测分值预测模型预测每一所述候选搜索结果的评测分值;
所述评测分值预测模型通过以下步骤进行训练:
将样本数据输入至所述评测分值预测模型中;所述样本数据包括样本搜索词、与所述样本搜索词对应的多个样本搜索结果、每一所述样本搜索结果的样本预估分数和每一所述样本搜索结果的样本标签;
通过所述评测分值预测模型的特征提取层,对所述样本搜索词和每一所述样本搜索结果进行特征提取,得到样本词特征和每一所述样本搜索结果的样本搜索结果特征;并基于所述样本预估分数对所述样本搜索词与每一所述样本搜索结果进行交互特征提取,得到所述样本搜索词与每一所述样本搜索结果之间的样本交互特征;所述样本交互特征用于表征所述样本搜索词与每一所述样本搜索结果之间的样本相关性;所述样本词特征包括所述样本搜索词的样本搜索频次特征和所述样本搜索词的样本搜索词特征;
通过所述评测分值预测模型的多层感知机,针对每一所述样本搜索结果,对所述样本搜索频次特征和所述样本搜索词特征进行拼接,得到样本拼接特征;
通过所述评测分值预测模型的特征交叉模块,对所述样本搜索词特征、所述样本搜索结果特征和所述样本交互特征进行特征融合,得到样本高阶融合特征;
通过所述评测分值预测模型的注意力计算模块,基于所述样本拼接特征对所述样本高阶融合特征进行注意力计算,得到所述样本搜索结果的样本注意力建模向量;
通过所述评测分值预测模型的全连接模块,对每一所述样本搜索结果的样本注意力建模向量进行多次全连接处理,得到每一所述样本搜索结果的样本评测分值;
基于每一所述样本搜索结果的样本标签,对所述样本搜索结果的样本评测分值进行损失计算,得到损失结果;
基于所述损失结果,对所述评测分值预测模型中的模型参数进行修正,得到训练后的评测分值预测模型。
11.根据权利要求10所述的方法,其特征在于,所述基于每一所述样本搜索结果的样本标签,对所述样本搜索结果的评测分值进行损失计算,得到损失结果,包括:
从所述多个样本搜索结果中获取第一样本搜索结果和第二样本搜索结果;所述第一样本搜索结果和所述第二样本搜索结果是所述多个样本搜索结果中任意的两个具有不同样本标签的样本搜索结果;
交换所述第一样本搜索结果和所述第二样本搜索结果在全部样本搜索结果中的搜索位置;
确定交换所述第一样本搜索结果和所述第二样本搜索结果的所述搜索位置之后形成的归一化折损累计增益;
基于所述第一样本搜索结果的评测分值、所述第二样本搜索结果的评测分值和所述归一化折损累计增益,确定所述损失结果。
12.根据权利要求11所述的方法,其特征在于,所述多个样本搜索结果中包括由多对第一样本搜索结果和第二样本搜索结果构成的不同搜索位置的样本搜索结果对;
所述基于所述第一样本搜索结果的评测分值、所述第二样本搜索结果的评测分值和所述归一化折损累计增益,确定所述损失结果,包括:
针对每一所述样本搜索结果对,基于所述第一样本搜索结果的评测分值、所述第二样本搜索结果的评测分值和所述归一化折损累计增益,确定所述样本搜索结果对的模型更新梯度值;
对全部样本搜索结果对的模型更新梯度值求均值,得到用于对所述评测分值预测模型进行梯度更新的所述损失结果。
13.根据权利要求11所述的方法,其特征在于,所述确定交换所述第一样本搜索结果和所述第二样本搜索结果的所述搜索位置之后形成的归一化折损累计增益,包括:
确定对所述第一样本搜索结果和所述第二样本搜索结果进行所述搜索位置交换后的搜索引擎质量指标值;
确定所述第一样本搜索结果和所述第二样本搜索结果在预设理想状态下的理想态搜索引擎质量指标值;
基于所述理想态搜索引擎质量指标值,对所述搜索引擎质量指标值进行归一化处理,得到所述归一化折损累计增益。
14.一种搜索排序装置,其特征在于,所述装置包括:
获取模块,用于获取目标搜索词、与所述目标搜索词对应的多个候选搜索结果以及每一所述候选搜索结果的预估分数;
特征提取模块,用于对所述目标搜索词和每一所述候选搜索结果进行特征提取,得到搜索词特征和每一所述候选搜索结果的候选搜索结果特征;并基于所述预估分数对所述目标搜索词与每一所述候选搜索结果进行交互特征提取,得到所述目标搜索词与每一所述候选搜索结果之间的交互特征;所述交互特征用于表征所述目标搜索词与每一所述候选搜索结果之间的相关性;所述候选搜索结果特征包括与目标对象行为不相关的先验特征;
特征融合模块,用于针对每一所述候选搜索结果,对所述搜索词特征、所述候选搜索结果特征和所述交互特征进行特征融合,得到融合特征;
评测分值映射模块,用于基于所述融合特征进行评测分值映射,得到所述候选搜索结果的评测分值;
排序模块,用于基于每一所述候选搜索结果的评测分值,对所述多个候选搜索结果进行排序,得到搜索结果序列。
15.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至13任一项所述的搜索排序方法。
16.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现权利要求1至13任一项所述的搜索排序方法。
17.一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括可执行指令,所述可执行指令存储在计算机可读存储介质中;
当电子设备的处理器从所述计算机可读存储介质读取所述可执行指令,并执行所述可执行指令时,实现权利要求1至13任一项所述的搜索排序方法。
CN202310970938.5A 2023-08-03 2023-08-03 搜索排序方法、装置、设备、存储介质及计算机程序产品 Active CN116680481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310970938.5A CN116680481B (zh) 2023-08-03 2023-08-03 搜索排序方法、装置、设备、存储介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310970938.5A CN116680481B (zh) 2023-08-03 2023-08-03 搜索排序方法、装置、设备、存储介质及计算机程序产品

Publications (2)

Publication Number Publication Date
CN116680481A true CN116680481A (zh) 2023-09-01
CN116680481B CN116680481B (zh) 2024-01-12

Family

ID=87781329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310970938.5A Active CN116680481B (zh) 2023-08-03 2023-08-03 搜索排序方法、装置、设备、存储介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN116680481B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911913A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 一种交互结果的预测方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006043158A1 (de) * 2006-09-14 2008-03-27 Michael Pirro Verfahren zum Ermitteln von Elementen eines einer Suchanfrage zugeordneten Suchergebnisses in einer Reihenfolge und Suchmaschine
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
CN103268326A (zh) * 2013-05-02 2013-08-28 百度在线网络技术(北京)有限公司 一种个性化的跨语言检索方法及装置
CN108932320A (zh) * 2018-06-27 2018-12-04 广州优视网络科技有限公司 文章搜索方法、装置及电子设备
US20190018900A1 (en) * 2017-07-14 2019-01-17 Alibaba Group Holding Limited Method and Apparatus for Displaying Search Results
CN112507196A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 融合排序模型的训练方法、搜索排序方法、装置和设备
CN112784141A (zh) * 2019-10-23 2021-05-11 腾讯科技(深圳)有限公司 搜索结果质量确定方法、装置、存储介质和计算机设备
CN113868533A (zh) * 2021-09-30 2021-12-31 北京达佳互联信息技术有限公司 应用搜索方法、装置、电子设备及存储介质
CN114625986A (zh) * 2022-02-11 2022-06-14 腾讯科技(深圳)有限公司 对搜索结果进行排序的方法、装置、设备及存储介质
CN114722086A (zh) * 2022-04-08 2022-07-08 北京奇艺世纪科技有限公司 一种搜索重排模型的确定方法及装置
CN115858919A (zh) * 2022-11-21 2023-03-28 陕西师范大学 基于项目领域知识和用户评论的学习资源推荐方法及系统
CN116049528A (zh) * 2023-01-09 2023-05-02 竹间智能科技(上海)有限公司 搜索系统的评估方法、装置、电子设备及可读存储介质
US20230195818A1 (en) * 2020-05-26 2023-06-22 Beijing Bytedance Network Technology Co., Ltd. Search triggering method and apparatus, electronic device and storage medium
CN116383340A (zh) * 2023-02-01 2023-07-04 北京百度网讯科技有限公司 信息搜索方法、装置、电子设备和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006043158A1 (de) * 2006-09-14 2008-03-27 Michael Pirro Verfahren zum Ermitteln von Elementen eines einer Suchanfrage zugeordneten Suchergebnisses in einer Reihenfolge und Suchmaschine
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
CN103268326A (zh) * 2013-05-02 2013-08-28 百度在线网络技术(北京)有限公司 一种个性化的跨语言检索方法及装置
US20190018900A1 (en) * 2017-07-14 2019-01-17 Alibaba Group Holding Limited Method and Apparatus for Displaying Search Results
CN108932320A (zh) * 2018-06-27 2018-12-04 广州优视网络科技有限公司 文章搜索方法、装置及电子设备
CN112784141A (zh) * 2019-10-23 2021-05-11 腾讯科技(深圳)有限公司 搜索结果质量确定方法、装置、存储介质和计算机设备
US20230195818A1 (en) * 2020-05-26 2023-06-22 Beijing Bytedance Network Technology Co., Ltd. Search triggering method and apparatus, electronic device and storage medium
CN112507196A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 融合排序模型的训练方法、搜索排序方法、装置和设备
CN113868533A (zh) * 2021-09-30 2021-12-31 北京达佳互联信息技术有限公司 应用搜索方法、装置、电子设备及存储介质
CN114625986A (zh) * 2022-02-11 2022-06-14 腾讯科技(深圳)有限公司 对搜索结果进行排序的方法、装置、设备及存储介质
CN114722086A (zh) * 2022-04-08 2022-07-08 北京奇艺世纪科技有限公司 一种搜索重排模型的确定方法及装置
CN115858919A (zh) * 2022-11-21 2023-03-28 陕西师范大学 基于项目领域知识和用户评论的学习资源推荐方法及系统
CN116049528A (zh) * 2023-01-09 2023-05-02 竹间智能科技(上海)有限公司 搜索系统的评估方法、装置、电子设备及可读存储介质
CN116383340A (zh) * 2023-02-01 2023-07-04 北京百度网讯科技有限公司 信息搜索方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴丹;唐源;: "搜索引擎结果页面(SERP)研究述评", 情报学报, no. 02 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911913A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 一种交互结果的预测方法及装置
CN116911913B (zh) * 2023-09-12 2024-02-20 深圳须弥云图空间科技有限公司 一种交互结果的预测方法及装置

Also Published As

Publication number Publication date
CN116680481B (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
US11983269B2 (en) Deep neural network system for similarity-based graph representations
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111444428A (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN113392651B (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
CN110110233B (zh) 信息处理方法、装置、介质和计算设备
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
US20220366295A1 (en) Pre-search content recommendations
CN112508609A (zh) 人群扩量的预测方法、装置、设备及存储介质
CN113239173B (zh) 问答数据的处理方法、装置、存储介质与电子设备
CN116680481B (zh) 搜索排序方法、装置、设备、存储介质及计算机程序产品
CN117609479B (zh) 一种模型处理方法、装置、设备、介质及产品
CN111831902A (zh) 推荐理由筛选方法、装置、电子设备
CN112784157A (zh) 行为预测模型的训练方法、行为预测方法及装置、设备
CN116452263A (zh) 一种信息推荐方法、装置、设备及存储介质、程序产品
CN114595323B (zh) 画像构建、推荐、模型训练方法、装置、设备及存储介质
CN115048586A (zh) 一种融合多特征的新闻推荐方法及系统
CN116910357A (zh) 一种数据处理方法及相关装置
CN116701444A (zh) 信息检索方法、智能问答方法和风险防控方法
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质
CN116484085A (zh) 一种信息投放方法、装置、设备及存储介质、程序产品
CN113688633A (zh) 一种提纲确定方法及装置
CN117151247B (zh) 机器学习任务建模的方法、装置、计算机设备和存储介质
WO2024113641A1 (zh) 视频推荐方法、装置、电子设备、计算机可读存储介质及计算机程序产品
TANVIR Design and Implementation of an Efficient Web Crawling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40092369

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant