CN111061954A - 搜索结果排序方法、装置及存储介质 - Google Patents

搜索结果排序方法、装置及存储介质 Download PDF

Info

Publication number
CN111061954A
CN111061954A CN201911319353.7A CN201911319353A CN111061954A CN 111061954 A CN111061954 A CN 111061954A CN 201911319353 A CN201911319353 A CN 201911319353A CN 111061954 A CN111061954 A CN 111061954A
Authority
CN
China
Prior art keywords
search
sample data
search results
positive
positive sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911319353.7A
Other languages
English (en)
Other versions
CN111061954B (zh
Inventor
尹吉澧
周蓝珺
潘树燊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201911319353.7A priority Critical patent/CN111061954B/zh
Publication of CN111061954A publication Critical patent/CN111061954A/zh
Application granted granted Critical
Publication of CN111061954B publication Critical patent/CN111061954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种搜索结果排序方法、装置及存储介质,属于数据处理领域。所述方法包括:基于多个正样本数据和多个负样本数据进行训练,得到评估模型;确定搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,基于搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,通过评估模型,确定多个搜索结果中每个搜索结果与搜索关键词的相关度,基于与搜索关键词的相关度,对多个搜索结果进行排序。本申请通过结合搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征来评估搜索结果与搜索关键词的相关度,能够使得对相关性的评估更加准确,进而提高了排序的准确度。

Description

搜索结果排序方法、装置及存储介质
技术领域
本申请涉及数据处理领域,特别涉及一种搜索结果排序方法、装置及存储介质。
背景技术
目前,当用户想要获取一些网络资源时,可以在资源平台上输入搜索关键词进行搜索,比如,用户可以在歌曲平台上输入与歌曲相关的搜索关键词来搜索歌曲。在用户输入搜索关键词后,资源平台即可根据该搜索关键词查找相关搜索结果并展示给用户,而为了提高展示的准确度,资源平台还需要对搜索结果进行排序。
在相关技术中,资源平台可以预先根据用户每次搜索时是否浏览相关搜索结果来获取多个样本数据,每个样本数据包括一个样本搜索关键词、与该样本搜索关键词相关的多个样本搜索结果、以及每个样本搜索结果的样本标签。其中,样本标签用于指示对应样本搜索结果是否被用户浏览,比如,若样本标签为1,则表示对应样本搜索结果被用户浏览,若样本标签为0,则表示对应样本搜索结果未被浏览。然后,基于该多个样本数据对待训练评估模型进行训练,得到训练好的评估模型。之后,在用户进行搜索时,基于用户的搜索关键词,确定与该搜索关键词相关的多个搜索结果,然后基于该搜索关键词以及与该搜索关键词相关的多个搜索结果,通过评估模型,确定多个搜索结果中每个搜索结果与该搜索关键词的相关度,再基于与该待搜索关键词的相关度,对该多个搜索结果进行排序。其中,相关度用于指示搜索结果与搜索关键词的相关程度。
由上可知,相关技术中的评估模型是根据用户单次搜索时是否浏览相关搜索结果,来学习评估搜索结果与搜索关键词的相关度的,但是在用户搜索过程中,经常会存在一些干扰因素使得用户所浏览的搜索结果并不是与搜索关键词的相关度较高的搜索结果,导致评估模型的评估结果不准确,进而导致排序结果不准确。比如,资源平台中经常会存在许多标题与内容不符的网络资源,如标题党资源,在用户搜索过程中,这些标题往往会误导用户进行浏览,但是实际上这些标题对应的搜索结果与搜索关键词的相关度并不高,这些搜索结果会影响评估模型的准确度。
发明内容
本申请提供了一种搜索结果排序方法、装置及存储介质,可以解决相关技术存在的评估模型的评估结果不准确,进而导致排序结果不准确的问题。所述技术方案如下:
一方面,提供了一种搜索结果排序方法,所述方法包括:
获取多个第一正样本数据和多个第一负样本数据;
基于所述多个第一正样本数据中每个第一正样本数据包括的多个正样本搜索结果的浏览时长,将每个第一正样本数据包括的多个正样本搜索结果的第一正样本标签划分为k档,得到每个第一正样本数据包括的多个正样本搜索结果的第二正样本标签,所述k为大于1的整数;
将每个第一正样本数据包括的第一样本搜索关键词、与所述第一样本搜索关键词相关的多个正样本搜索结果、以及每个正样本搜索结果的统计特征和第二正样本标签,确定为一个第二正样本数据,得到多个第二正样本数据;
对于所述多个第一负样本数据中的参考第一负样本数据,基于与所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长,以及所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长,确定所述参考第一负样本数据对应的采样比例,所述参考第一负样本数据为所述多个第一负样本数据中的任一个;
按照所述参考第一负样本数据对应的采样比例,对所述参考第一负样本数据包括的多个负样本搜索结果进行采样;
基于采样结果,确定所述参考第一负样本数据对应的第二负样本数据;
将所述多个第二正样本数据,以及所述多个第一负样本数据分别对应的第二负样本数据,确定为多个样本数据;
基于所述多个样本数据,对待训练评估模型进行训练,得到评估模型;
确定搜索关键词、与所述搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,所述统计特征包括在历史时间段内基于所述搜索关键词进行搜索关联到的对应搜索结果的用户浏览行为特征;
基于所述搜索关键词、与所述搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,通过所述评估模型,确定所述多个搜索结果中每个搜索结果与所述搜索关键词的相关度;
基于与所述搜索关键词的相关度,对所述多个搜索结果进行排序。
可选地,每个第一正样本数据包括第一样本搜索关键词、与所述第一样本搜索关键词相关的多个正样本搜索结果、以及每个正样本搜索结果的统计特征、浏览时长和第一正样本标签,所述第一正样本标签用于指示对应正样本搜索结果被用户浏览,每个第一负样本数据包括第二样本搜索关键词、与所述第二样本搜索关键词相关的多个负样本搜索结果、以及每个负样本搜索结果的统计特征和负样本标签,所述负样本标签用于指示对应负样本搜索结果未被用户浏览。
可选地,所述确定每个搜索结果的统计特征,包括:
对于所述多个搜索结果中的任一搜索结果,从与历史搜索关键词相关的各个历史搜索结果的统计特征中,获取所述任一搜索结果的统计特征,所述历史搜索关键词为所述历史时间段内的搜索事件对应的搜索关键词。
可选地,确定每个搜索结果的统计特征之前,还包括:
统计所述历史时间段内用户搜索的历史搜索关键词,以及与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种;
基于与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种,确定与每个历史搜索关键词相关的各个历史搜索结果的统计特征。
可选地,所述统计与每个历史搜索关键词相关的各个历史搜索结果的浏览满意度,包括:
对于所述历史时间段内用户搜索的任一历史搜索关键词,确定基于所述任一历史搜索关键词进行搜索关联到的多个历史搜索结果;
确定所述多个历史搜索结果中每个历史搜索结果的浏览时长,所述浏览时长是指用户基于搜索行为浏览对应历史搜索结果的时长;
对于所述多个历史搜索结果中的任一历史搜索结果,将所述任一历史搜索结果的浏览时长与所述多个历史搜索结果的最大浏览时长之间的比值,确定为所述任一历史搜索结果的浏览满意度。
可选地,所述多个第一负样本数据与所述多个第二正样本数据一一对应,且一一对应的第二正样本数据和第一负样本数据中包括的样本搜索关键词相同,每个第一负样本数据还包括每个负样本搜索结果的搜索结果时长。
可选地,所述基于与所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长,以及所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长,确定所述参考第一负样本数据对应的采样比例,包括:
确定所述所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长的平均值,得到每个第二正样本数据的正样本平均浏览时长;
确定所述多个第二正样本数据的正样本平均浏览时长的平均值,得到正样本平均浏览时长的平均值;
确定所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长的平均值,得到负样本平均时长;
基于所述正样本平均浏览时长的平均值和负样本平均时长,确定所述参考第一负样本数据对应的采样比例。
可选地,所述基于所述正样本平均浏览时长的平均值和负样本平均时长,确定所述参考第一负样本数据对应的采样比例,包括:
基于所述正样本平均浏览时长的平均值和所述负样本平均时长,通过以下公式,确定所述参考第一负样本数据对应的采样比例:
H=α×T(x,y)×C(u,v)
其中,H为所述参考第一负样本数据对应的采样比例,α为预设参数,x为所述正样本平均浏览时长的平均值,y为所述负样本平均时长,T(x,y)为所述正样本平均浏览时长的平均值与所述负样本平均浏览时长的比值,u为正样本数目,v为负样本数目,C(u,v)为所述正样本数目和所述负样本数目的比值,所述正样本数目是指所述参考第一负样本数据对应的第二正样本数据包括的正样本搜索结果的数目,所述负样本数目是指所述参考第一负样本数据包括的负样本搜索结果的数目。
另一方面,提供了一种搜索结果排序装置,所述装置包括:
获取模块,用于获取多个第一正样本数据和多个第一负样本数据;
划分模块,用于基于所述多个第一正样本数据中每个第一正样本数据包括的多个正样本搜索结果的浏览时长,将每个第一正样本数据包括的多个正样本搜索结果的第一正样本标签划分为k档,得到每个第一正样本数据包括的多个正样本搜索结果的第二正样本标签,所述k为大于1的整数;
第一确定模块,用于将每个第一正样本数据包括的第一样本搜索关键词、与所述第一样本搜索关键词相关的多个正样本搜索结果、以及每个正样本搜索结果的统计特征和第二正样本标签,确定为一个第二正样本数据,得到多个第二正样本数据;
第二确定模块,用于对于所述多个第一负样本数据中的参考第一负样本数据,基于与所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长,以及所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长,确定所述参考第一负样本数据对应的采样比例,所述参考第一负样本数据为所述多个第一负样本数据中的任一个;
采样模块,用于按照所述参考第一负样本数据对应的采样比例,对所述参考第一负样本数据包括的多个负样本搜索结果进行采样;
第三确定模块,用于基于采样结果,确定所述参考第一负样本数据对应的第二负样本数据;
第四确定模块,用于将所述多个第二正样本数据,以及所述多个第一负样本数据分别对应的第二负样本数据,确定为多个样本数据;
训练模块,用于基于所述多个样本数据,对待训练评估模型进行训练,得到评估模型。
第五确定模块,用于确定搜索关键词、与所述搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,所述统计特征包括在历史时间段内基于所述搜索关键词进行搜索关联到的对应搜索结果的用户浏览行为特征长;
第六确定模块,用于基于所述搜索关键词、与所述搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,通过所述评估模型,确定所述多个搜索结果中每个搜索结果与所述搜索关键词的相关度;
排序模块,用于基于与所述搜索关键词的相关度,对所述多个搜索结果进行排序。
可选地,每个第一正样本数据包括第一样本搜索关键词、与所述第一样本搜索关键词相关的多个正样本搜索结果、以及每个正样本搜索结果的统计特征、浏览时长和第一正样本标签,所述第一正样本标签用于指示对应正样本搜索结果被用户浏览,每个第一负样本数据包括第二样本搜索关键词、与所述第二样本搜索关键词相关的多个负样本搜索结果、以及每个负样本搜索结果的统计特征和负样本标签,所述负样本标签用于指示对应负样本搜索结果未被用户浏览。
可选地,所述第五确定模块用于:
对于所述多个搜索结果中的任一搜索结果,从与历史搜索关键词相关的各个历史搜索结果的统计特征中,获取所述任一搜索结果的统计特征,所述历史搜索关键词为所述历史时间段内的搜索事件对应的搜索关键词。
可选地,所述装置还包括:
统计模块,统计所述历史时间段内用户搜索的历史搜索关键词,以及与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种;
第七确定模块,用于基于与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种,确定与每个历史搜索关键词相关的各个历史搜索结果的统计特征。
可选地,所述统计模块用于:
对于所述历史时间段内用户搜索的任一历史搜索关键词,确定基于所述任一历史搜索关键词进行搜索关联到的多个历史搜索结果;
确定所述多个历史搜索结果中每个历史搜索结果的浏览时长,所述浏览时长是指用户基于搜索行为浏览对应历史搜索结果的时长;
对于所述多个历史搜索结果中的任一历史搜索结果,将所述任一历史搜索结果的浏览时长与所述多个历史搜索结果的最大浏览时长之间的比值,确定为所述任一历史搜索结果的浏览满意度。
可选地,所述多个第一负样本数据与所述多个第二正样本数据一一对应,且一一对应的第二正样本数据和第一负样本数据中包括的样本搜索关键词相同,每个第一负样本数据还包括每个负样本搜索结果的搜索结果时长;
可选地,所述第二确定模块用于:
确定所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长的平均值,得到每个第二正样本数据的正样本平均浏览时长;
确定所述多个第二正样本数据的正样本平均浏览时长的平均值,得到正样本平均浏览时长的平均值;
确定所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长的平均值,得到负样本平均时长;
基于所述正样本平均浏览时长的平均值和负样本平均时长,确定所述参考第一负样本数据对应的采样比例。
可选地,所述第二确定模块用于:
基于所述正样本平均浏览时长的平均值和所述负样本平均时长,通过以下公式,确定所述参考第一负样本数据对应的采样比例:
H=α×T(x,y)×C(u,v)
其中,H为所述参考第一负样本数据对应的采样比例,α为预设参数,T为当前搜索的正样本平均浏览时长特征的平均值与当前负样本的平均时长特征的比值,其中,为当前搜索的正样本平均浏览时长的平均值,为负样本平均时长特征;C为当前搜索的正样本数目和负样本数目的比值,其中,为当前搜索的正样本数目,为当前搜索的负样本数目。
另一方面,提供了一种计算机设备,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述所述的搜索结果排序方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现上述所述的搜索结果排序方法。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的搜索结果排序方法。
本申请提供的技术方案至少可以带来以下有益效果:
本申请实施例中,可以先将正样本搜索结果按照浏览时长划分为k档,并对每档的正样本搜索结果的样本标签进行修改来得到正样本数据,然后按照搜索关键词对负样本数据进行分组,并对分组后的每组负样本搜索结果进行采样来得到负样本数据,且采样比例可以根据时长特征和当前搜索的正负样本比例进行动态调整,然后根据正样本数据和负样本数据,来训练评估模型。之后,再基于用户搜索的搜索关键词,确定该搜索关键词、与该搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,将搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,通过该评估模型,确定多个搜索结果中每个搜索结果与搜索关键词的相关度,然后基于与搜索关键词的相关度,对多个搜索结果进行排序。由于统计特征可以指示在一个历史时间段内在该搜索关键词下每个搜索结果的用户综合浏览情况,能够相对准确地反映搜索结果与搜索关键词的相关度,因此,通过将搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征通过评估模型来评估搜索结果与搜索关键词的相关度,能够使得对相关性的评估更加准确,进而提高了排序的准确性。而且,由于评估模型是基于精确生成的正负样本数据所训练出来的,能够保证训练出来的评估模型能够基于任一搜索关键词、与该搜索关键词相关的任一搜索结果、以及该搜索关键词与该搜索结果的统计特征,确定该搜索关键词与该搜索关键词的相关度,使得评估模型的评估结果更加准确。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种评估模型的训练方法的流程图;
图3是本申请实施例提供的一种搜索结果排序方法的流程图;
图4是本申请实施例提供的一种搜索结果排序装置的结构示意图;
图5是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例提供的搜索结果排序方法进行详细的解释说明之前,先对本申请实施例提供的应用场景进行介绍。
本申请实施例提供的搜索结果排序方法应用于基于用户搜索关键词,对搜索结果进行排序和展示的场景中。其中,该搜索结果可以为歌曲或视频等多媒体网络资源,当然,也可以为新闻、商品或网页等其他网络资源,本申请对此不做限定。
比如,用户在歌曲平台上输入与歌曲相关的搜索关键词时,歌曲平台可以通过本申请实施例提供的方法对歌曲搜索结果进行排序和展示。或者,用户在视频平台上输入与视频相关的搜索关键词时,视频平台可以通过本申请实施例提供的方法对视频搜索结果进行排序和展示等。当然,本申请实施例提供的搜索结果排序方法也可以应用于其他场景,本申请实施例对此不做限定。
需要说明的是,本申请中的术语“第一”和“第二”等是为了区别不同对象,而不是用于描述特定顺序。
接下来对本申请实施例提供的实施环境进行介绍。
图1是本申请实施例提供的一种实施环境的示意图,如图1所示,该实施环境包括终端10和服务器20,终端10和服务器20可以通过有线网络或无线网络进行通信。终端10可以是计算机、手机或平板电脑等设备。终端10中安装有资源软件,该资源软件用于为用户提供网络资源,该网络资源可以为多媒体网络资源,相应的,该资源软件可以为音乐软件或视频软件等。服务器20为资源软件的后台服务器,可以在用户输入搜索关键词搜索网络资源的过程中,按照本申请实施例提供的方法对用户搜索的网络资源进行排序和展示。
需要说明的是,本申请实施例提供的方法是一种基于深度学习的搜索结果排序方法,可以利用评估模型来确定每个搜索结果与搜索关键词的相关度,然后根据与搜索关键词的相关度来对搜索结果进行排序,进而为用户展示排序结果。其中,该评估模型用于确定任一搜索关键词与相关的任一搜索结果的相关度。而在利用评估模型确定搜索关键词与搜索结果的相关度之前,需要先利用样本数据进行模型训练来得到该评估模型。接下来,先对该评估模型的训练过程进行介绍。
图2是本申请实施例提供的一种评估模型的训练方法的流程图,该方法可以应用于计算机设备中,该计算机设备可以为终端或服务器,示例的,可以为上述图1所示的服务器,如图2所示,该方法包括如下步骤:
步骤201:获取多个第一正样本数据和多个第一负样本数据。
本申请实施例中,可以先获取多个第一正样本数据和多个第一负样本数据,然后基于这多个第一正样本数据和多个第一负样本数据,来确定最终用于模型训练的样本数据。
其中,每个第一正样本数据包括第一样本搜索关键词、与第一样本搜索关键词相关的多个正样本搜索结果、以及每个正样本搜索结果的统计特征、浏览时长和第一正样本标签。
第一样本搜索关键词为样本用户在样本时间段内搜索的关键词。正样本搜索结果是指与第一样本搜索关键词相关且展示给用户后被用户浏览的搜索结果。每个正样本搜索结果的统计特征用于指示在历史时间段内基于第一样本搜索关键词进行搜索关联到的对应正样本搜索结果的用户浏览行为特征。第一正样本标签用于指示对应正样本搜索结果被用户浏览,示例的,第一正样本标签为1。用户的浏览操作可以为对正样本搜索结果的点击操作、手势操作或语音操作等,示例的,正样本搜索结果是指被用户点击的搜索结果,第一正样本标签用于指示对应正样本搜索结果被用户点击。
样本时间段为事先设置的获取样本数据的时间段,历史时间段为时间设置的用于统计搜索结果的统计特征的时间段,样本时间段与历史时间段可以为同一时间段,也可以为不同时间段,本申请实施例对此不做限定。示例的,样本时间段可以为半个月、1个月或半年等,本申请实施例对此不做限定。
其中,每个第一负样本数据包括第二样本搜索关键词、与第二样本搜索关键词相关的多个负样本搜索结果、以及每个负样本搜索结果的统计特征和负样本标签。
第二样本搜索关键词为样本用户在样本时间段内搜索的关键词,与第一样本关键词可以相同,也可以不同。负样本搜索结果是指与第二样本搜索关键词相关且展示给用户后未被用户浏览的搜索结果。每个负样本搜索结果的统计特征用于指示在历史时间段内基于第二样本搜索关键词进行搜索关联到的对应负样本搜索结果的用户浏览行为特征。负样本标签用于指示对应负样本搜索结果未被用户浏览,比如未被用户点击。示例的,负样本标签为0。
其中,样本搜索关键词为样本用户在样本时间段内搜索的关键词,与样本搜索关键词相关的多个样本搜索结果可以为歌曲或视频等多媒体网络资源,还可以为新闻、商品或网页等其他网络资源。
作为一个示例,统计特征可以包括浏览次数、展现次数、浏览时长和浏览满意度中的至少一种,还可以包括与浏览行为相关的其他特征。浏览时长是指在搜索后浏览对应搜索结果的时长,若搜索结果为多媒体资源,则浏览时长可以为搜索结果的播放时长。示例的,其他特征可以通过对浏览次数、展现次数、浏览时长和浏览满意度中的至少一种进行处理得到,比如,其他特征可以为浏览次数与展现次数的比值等特征。
作为一个示例,统计特征包括点击特征和播放特征,点击特征包括点击次数和展现次数等特征,播放特征包括播放次数和播放满意度等特征。点击特征可以从点击日志中统计得到,播放特征可以从播放日志中统计得到。进一步地,在得到点击特征和播放特征之后,还可以对点击特征和播放特征进行处理,得到多维与点击和播放相关的其他特征,比如浏览次数与展现次数的比值特征。
作为一个示例,每个样本搜索结果的统计特征可以从预先统计得到的与历史搜索关键词相关的各个历史搜索结果的统计特征中获取得到。
作为一个示例,可以预先统计历史时间段内用户搜索的历史搜索关键词,以及与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种;基于与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种,确定与每个历史搜索关键词相关的各个历史搜索结果的统计特征。其中,浏览时长是指用户基于搜索行为浏览对应历史搜索结果的时长。
其中,浏览满意度用于指示用户浏览的满意程度,某个历史搜索结果的浏览满意度可以为一次搜索行为中搜索到的该历史搜索结果的浏览时长与所有历史搜索结果的最大浏览时长之间的比值。
作为一个示例,对于历史时间段内用户搜索的任一历史搜索关键词,可以确定基于任一历史搜索关键词进行搜索关联到的多个历史搜索结果,确定多个历史搜索结果中每个历史搜索结果的浏览时长,对于多个历史搜索结果中的任一历史搜索结果,将任一历史搜索结果的浏览时长与多个历史搜索结果的最大浏览时长之间的比值,确定为任一历史搜索结果的浏览满意度。
作为一个示例,可以从用户的浏览日志中,获取与历史搜索关键词相关的各个历史搜索结果的统计特征。比如,若搜索结果为歌曲或视频等多媒体资源,可以通过从用户的点击日志获取历史时间段内用户的点击行为信息,从用户的播放日志获取历史时间段内用户的播放行为信息,然后按照搜索关键词对用户的点击行为信息和播放行为信息进行统计,得到在不同搜索关键词下的搜索结果的统计特征。
进一步,在得到统计特征之后,还可以对统计特征包括的数据进行归一化和平滑处理,将处理后的统计特征作为待使用的统计特征。由于统计特征的数据分布往往为指数型分布,通过归一化处理可以将数据处理至容易统计的范围,平滑处理可以限制比值变化,防止模型过拟合。示例的,可以通过对数据进行对数变换来进行归一化处理,通过修正公式对数据进行平滑处理。比如,修正公式为威尔逊置信区间。
作为一个示例,对于第一正样本数据和第一负样本数据中的任一样本数据,该样本数据还可以包括搜索结果ID(Identity Document,身份标识号),通过搜索结果ID来指示对应的搜索结果。比如,若搜索结果为歌曲,则每个样本数据可以包括query(关键词)、歌曲ID和feature(特征)。进一步地,样本数据中的每个搜索关键词还具有对应的搜索ID,搜索ID用于唯一指示一次搜索行为,即每次搜索时都会有唯一的搜索ID。
作为一个示例,可以先对样本时间段内的搜索行为进行统计,得到多个搜索记录。其中,每个搜索记录包括搜索号、搜素关键词和与该搜索关键词相关的搜索结果。然后,根据用户是否浏览对应搜索结果,为搜索记录中的搜索结果赋予样本标签。其中,若用户浏览了对应搜索结果,则赋予正样本标签,若未浏览,则赋予负样本标签。例如,若搜索结果为歌曲,则每条搜索记录可以包含sid(sort id,搜索号)、query、歌曲ID和label(样本标签)。之后,根据与历史搜索关键词相关的各个历史搜索结果的统计特征,将搜索结果与特征通过query ID关联起来,使得每条搜索记录包括label、sid、feature、query和歌曲ID五种信息。
步骤202:基于多个第一正样本数据和多个第一负样本数据,确定多个样本数据。
其中,多个样本数据是指用于模型训练的最终样本数据。作为一个示例,基于多个第一正样本数据和多个第一负样本数据,确定多个样本数据可以包括以下两种实现方式:
第一种实现方式:将多个第一正样本数据和多个第一负样本数据确定为多个样本数据。
第二种实现方式:先基于多个第一正样本数据中每个第一正样本数据包括的多个正样本搜索结果的浏览时长,将每个第一正样本数据包括的多个正样本搜索结果的第一正样本标签划分为k档,得到每个第一正样本数据包括的多个正样本搜索结果的第二正样本标签,k为大于1的整数。然后,将每个第一正样本数据包括的第一样本搜索关键词、与第一样本搜索关键词相关的多个正样本搜索结果、以及每个正样本搜索结果的统计特征和第二正样本标签,确定为一个第二正样本数据,得到多个第二正样本数据。将多个第二正样本数据和多个第一负样本数据,确定为多个样本数据。
示例的,第一正样本标签为1,第二正样本标签的值域为1~k。
也即是,可以将正样本搜索结果按照浏览时长等量区间划分为k档,进而按照划分结果对正样本标签进行修改,等量区间划分是指按照浏览时长划分的同时也要保证每个区间的正样本搜索结果的数量大致相同。比如,将浏览时长为1-10秒的正样本搜索结果划分为1档,将浏览时长为11-20秒的正样本搜索结果划分为2档,将浏览时长为21-30秒的正样本搜索结果划分为3档;然后,将处于2档的正样本搜索结果的第一正样本标签从1修改为2,将处于3档的正样本搜索结果的第一正样本标签修改为3。
作为一个示例,假设搜索结果为歌曲,则可以提取用户在每次搜索过程中多个搜索结果的播放时长信息,使得每条搜索记录包括sid、query、歌曲ID和播放时长四种信息,将播放时长信息和搜索结果通过sid和query-id关联起来,使得每条搜索记录包括label、sid、特征feature、query、playtime(播放时长)和歌曲ID六种信息。然后,对正样本搜索结果的样本标签进行修改。比如,将正样本搜索结果按照播放时长等量划分为k档,保证每一档的正样本数量差不多,并对每档的正样本搜索结果的样本标签进行修改。
作为一个示例,基于多个第二正样本数据和多个第一负样本数据,确定多个样本数据包括以下两种实现方式:
第一种实现方式:将多个第二正样本数据和多个第一负样本数据,确定为多个样本数据。
第二种实现方式:若多个第一负样本数据与多个第二正样本数据一一对应,且一一对应的第二正样本数据和第一负样本数据中包括的样本搜索关键词相同,每个第一负样本数据还包括每个负样本搜索结果的搜索结果时长,则可以对多个第一负样本数据进行采样,得到多个第二负样本数据,将多个第二正样本数据和多个第二负样本数据确定为多个样本数据。
示例的,对于多个第一负样本数据中的参考第一负样本数据,基于与多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长,以及参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长,确定参考第一负样本数据对应的采样比例;按照参考第一负样本数据对应的采样比例,对参考第一负样本数据包括的多个负样本搜索结果进行采样,基于采样结果,确定参考第一负样本数据对应的第二负样本数据;将多个第二正样本数据,以及多个第一负样本数据分别对应的第二负样本数据,确定为多个样本数据。其中,参考第一负样本数据为多个第一负样本数据中的任一个。
作为一个示例,基于与多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长,以及参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长,确定参考第一负样本数据对应的采样比例的操作包括:确定多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长的平均值,得到每个第二正样本数据的正样本平均浏览时长;确定所述多个第二正样本数据的正样本平均浏览时长的平均值,得到正样本平均浏览时长的平均值;确定参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长的平均值,得到负样本平均时长;基于正样本平均浏览时长的平均值和负样本平均时长,确定参考第一负样本数据对应的采样比例。
其中,搜索结果时长是指搜索结果对应的多媒体资源的资源时长,比如,若搜素结果为歌曲,则搜索结果时长为歌曲时长,若搜索结果为视频,则搜索结果时长为视频时长。
作为一个示例,可以基于正样本平均浏览时长的平均值和负样本平均时长,通过以下公式(1),确定参考第一负样本数据对应的采样比例:
H=α×T(x,y)×C(u,v) (1)
其中,H为所述参考第一负样本数据对应的采样比例,α为预设参数,x为所述正样本平均浏览时长的平均值,y为所述负样本平均时长,T(x,y)为所述正样本平均浏览时长的平均值与所述负样本平均浏览时长的比值,u为正样本数目,v为负样本数目,C(u,v)为所述正样本数目和所述负样本数目的比值,所述正样本数目是指所述参考第一负样本数据对应的第二正样本数据包括的正样本搜索结果的数目,所述负样本数目是指所述参考第一负样本数据包括的负样本搜索结果的数目。
其中,公式(1)中的α用于对浏览特征进行优化,比如,浏览特征包含着是否浏览以及浏览时长两个特征,本申请实施例可以通过调整预设参数的值来调整他们的权重值。预设参数大,则是否浏览特征的权值就较大;预设参数小,则浏览时长特征的权值较大。预设参数可以事先设置,例如,可以设置为2。
由上可知,本申请实施例中,可以按照搜索关键词对第一负样本数据进行分组,并对分组后的每组负样本搜索结果进行采样,而且,采样比例可以根据平均时长特征和当前搜索的正负样本比例进行动态调整。
步骤203:基于多个样本数据,对待训练评估模型进行训练,得到评估模型。
其中,训练完成的评估模型用于确定任一搜索关键词与相关的任一搜索结果的相关度。
其中,待训练评估模型和训练好的评估模型可以为一种支持分布式的树型梯度提升模型,比如xgboost(eXtreme Gradient Boosting,极端梯度提升)模型,也可以为深度学习模型,比如CNN(Convolutional Neural Networks,卷积神经网络)模型、RNN(RecurrentNeural Networks,循环神经网络)模型或SegNet(Semantic Segmentation,语义分割神经网络)等,本申请实施例对此不作限定。
另外,若评估模型为xgboost模型,则还可以通过对xgboost模型中的模型参数进行修改,使得该xgboost模型具有排序功能。例如,可以将xgboost模型中的目标参数设置为排序参数,目标参数为objective参数,排序参数为pointwise(单文档方法)、pairwise(文档对方法)或listwise(文档列表方法)。示例的,将xgboost模型中的objective参数设为objective=“rank:pairwise”。
作为一个示例,在训练待训练评估模型时,每一条训练搜索记录包括label、sid和feature三种信息,其中,label为第二正样本标签和第一负样本标签,label的值域为0~k。
若评估模型为xgboost模型,则评估模型的输出为树状模型,第一棵树的第一个特征的权重值往往是比较大的,该综合特征为可以为浏览时长特征,使得待训练评估模型输出的数据的准确度更高。
在一些实施例中,可以将多个样本数据作为待训练评估模型的输入,通过待训练评估模型输出每个样本数据的预测相关度,将每个样本数据的预测相关度与真实相关度进行比较,基于比较结果,采用随机梯度下降法对待训练评估模型中的模型参数进行调整,得到该评估模型。
本申请实施例中,可以获取多个第一正样本数据和第一负样本数据,基于多个第一正样本数据和第一正样本数据,确定用于模型训练的多个样本数据,然后基于多个样本数据,对待训练评估模型进行训练,保证训练出来的评估模型能够基于任一搜索关键词、与该搜索关键词相关的任一搜索结果、以及该搜索关键词与该搜索结果的统计特征,确定该搜索关键词与该搜索关键词的相关度,使得评估模型的评估结果更加准确。
需要说明的是,在对评估模型训练完成之后,即可利用该评估模型确定多个搜索结果中每个搜索结果与所述搜索关键词的相关度,然后根据搜索结果与搜索关键词的相关度进行排序,将排序结果展示给用户。接下来,对本申请实施例提供的搜索结果排序过程进行详细介绍。
图3是本申请实施例提供的一种搜索结果排序方法的流程图,该方法可以应用于上述图1所示的服务器中。请参考图3,该方法包括如下步骤。
步骤301:确定搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,统计特征包括在历史时间段内基于搜索关键词进行搜索关联到的对应搜索结果的用户浏览行为特征。
其中,搜索关键词为用户所输入的关键词。与搜索关键词相关的多个搜索结果可以为多媒体网络资源,比如歌曲或视频等,当然也可以为新闻、商品或网页等其他网络资源。在用户进行搜索时,可以基于用户的搜索关键词,从资源数据库中确定与该搜索关键词相关的多个搜索结果。
其中,统计特征可以包括浏览次数、展现次数、浏览时长和浏览满意度中的至少一种,还可以包括与浏览行为相关的其他特征。浏览时长是指在搜索后浏览对应搜索结果的时长,若搜索结果为多媒体资源,则浏览时长可以为搜索结果的播放时长。示例的,其他特征可以通过对浏览次数、展现次数、浏览时长和浏览满意度中的至少一种进行处理得到,比如,其他特征可以为浏览次数与展现次数的比值等特征。
对于多个搜索结果中的任一搜索结果,可以从与历史搜索关键词相关的各个历史搜索结果的统计特征中,获取任一搜索结果的统计特征。其中,历史搜索关键词为历史时间段内的搜索事件对应的搜索关键词。与历史搜索关键词相关的各个历史搜索结果的统计特征可以通过对历史时间段内的用户浏览日志进行统计得到。
作为一个示例,可以预先统计历史时间段内用户搜索的历史搜索关键词,以及与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种,然后基于与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种,确定与每个历史搜索关键词相关的各个历史搜索结果的统计特征。
其中,浏览满意度用于指示用户浏览的满意程度,某个历史搜索结果的浏览满意度可以为一次搜索行为中搜索到的该历史搜索结果的浏览时长与所有历史搜索结果的最大浏览时长之间的比值。
作为一个示例,对于历史时间段内用户搜索的任一历史搜索关键词,确定基于任一历史搜索关键词进行搜索关联到的多个历史搜索结果,确定多个历史搜索结果中每个历史搜索结果的浏览时长,浏览时长是指用户基于搜索行为浏览对应历史搜索结果的时长,对于多个历史搜索结果中的任一历史搜索结果,将任一历史搜索结果的浏览时长与多个历史搜索结果的最大浏览时长之间的比值,确定为任一历史搜索结果的浏览满意度。
步骤302:基于搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,通过评估模型,确定多个搜索结果中每个搜索结果与搜索关键词的相关度。
其中,该评估模型是根据多个样本数据训练得到,用于确定任一搜索关键词与相关的任一搜索结果的相关度。每个样本数据包括样本搜索关键词、与样本搜索关键词相关的多个样本搜索结果、以及每个样本搜索结果的统计特征和样本标签。具体的模型训练过程可以参考上述图2实施例,本申请实施例在此不再赘述。
作为一个示例,可以将搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征输入评估模型,通过该评估模型确定每个搜索结果与搜索关键词的相关度。也即是,该评估模型的输入为搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,输出为每个搜索结果与该搜索关键词的相关度。
例如,若搜索结果为歌曲,可以将包括query、歌曲ID和feature这三种信息的搜索记录输入到评估模型,模型预测完成后,输出相关度信息。
步骤303:基于与搜索关键词的相关度,对多个搜索结果进行排序。
在一些实施例中,可以按照基于与搜索关键词的相关度从大到小的顺序,对多个搜索结果进行排序。在其他实施例中,还可以基于搜索结果与搜索关键词的相关度,采用其他方式对搜索结果进行排序,本申请实施例对此不做限定。
另外,对多个搜索结果进行排序,还可以将排序后的搜索结果展示给用户,比如,可以从排序结果中获取排序在前的n个搜索结果,将n个搜索结果展示给用户。其中,n为正整数,n的具体取值可以事先设置,可以由计算机设备默认设置,也可以由用户设置,本申请实施例对此不做限定。例如,n可以为1、2或5等。
作为一个示例,假设搜索结果为歌曲,则当用户在歌曲平台输入与歌曲有关的搜索关键词后,歌曲平台可以按照与搜索关键词的相关度从大到小的顺序对搜索到的多首进行排序,并从排序结果中选取排序在前的n首歌曲展示给用户。
本申请实施例中,可以先将正样本搜索结果按照浏览时长划分为k档,并对每档的正样本搜索结果的样本标签进行修改来得到正样本数据,然后按照搜索关键词对负样本数据进行分组,并对分组后的每组负样本搜索结果进行采样来得到负样本数据,且采样比例可以根据时长特征和当前搜索的正负样本比例进行动态调整,然后根据正样本数据和负样本数据,来训练评估模型。之后,再基于用户搜索的搜索关键词,确定该搜索关键词、与该搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,将搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,通过该评估模型,确定多个搜索结果中每个搜索结果与搜索关键词的相关度,然后基于与搜索关键词的相关度,对多个搜索结果进行排序。由于统计特征可以指示在一个历史时间段内在该搜索关键词下每个搜索结果的用户综合浏览情况,能够相对准确地反映搜索结果与搜索关键词的相关度,因此,通过将搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征通过评估模型来评估搜索结果与搜索关键词的相关度,能够使得对相关性的评估更加准确,进而提高了排序的准确性。而且,由于评估模型是基于精确生成的正负样本数据所训练出来的,能够保证训练出来的评估模型能够基于任一搜索关键词、与该搜索关键词相关的任一搜索结果、以及该搜索关键词与该搜索结果的统计特征,确定该搜索关键词与该搜索关键词的相关度,使得评估模型的评估结果更加准确。
图4是本申请实施例提供的一种搜索结果排序装置的结构示意图,该搜索结果排序装置可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部,计算机设备可以为终端或服务器,比如为图1所示的服务器。请参考图4,该装置包括:获取模块401、划分模块402、第一确定模块403、第二确定模块404、采样模块405、第三确定模块406、第四确定模块407、训练模块408、第五确定模块409、第六确定模块4010和排序模块4011。
获取模块401,用于获取多个第一正样本数据和多个第一负样本数据;
划分模块402,用于基于所述多个第一正样本数据中每个第一正样本数据包括的多个正样本搜索结果的浏览时长,将每个第一正样本数据包括的多个正样本搜索结果的第一正样本标签划分为k档,得到每个第一正样本数据包括的多个正样本搜索结果的第二正样本标签,所述k为大于1的整数;
第一确定模块403,用于将每个第一正样本数据包括的第一样本搜索关键词、与所述第一样本搜索关键词相关的多个正样本搜索结果、以及每个正样本搜索结果的统计特征和第二正样本标签,确定为一个第二正样本数据,得到多个第二正样本数据;
第二确定模块404,用于对于所述多个第一负样本数据中的参考第一负样本数据,基于与所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长,以及所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长,确定所述参考第一负样本数据对应的采样比例,所述参考第一负样本数据为所述多个第一负样本数据中的任一个;
采样模块405,用于按照所述参考第一负样本数据对应的采样比例,对所述参考第一负样本数据包括的多个负样本搜索结果进行采样;
第三确定模块406,用于基于采样结果,确定所述参考第一负样本数据对应的第二负样本数据;
第四确定模块407,用于将所述多个第二正样本数据,以及所述多个第一负样本数据分别对应的第二负样本数据,确定为多个样本数据;
训练模块408,用于基于所述样本数据,对待训练评估模型进行训练,得到评估模型;
第五确定模块409,用于确定搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,统计特征包括在历史时间段内基于搜索关键词进行搜索关联到的对应搜索结果的用户浏览行为特征;
第六确定模块4010,用于基于搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,通过所述评估模型,确定多个搜索结果中每个搜索结果与搜索关键词的相关度;
排序模块4011,用于基于与搜索关键词的相关度,对多个搜索结果进行排序。
可选地,每个第一正样本数据包括第一样本搜索关键词、与所述第一样本搜索关键词相关的多个正样本搜索结果、以及每个正样本搜索结果的统计特征、浏览时长和第一正样本标签,所述第一正样本标签用于指示对应正样本搜索结果被用户浏览,每个第一负样本数据包括第二样本搜索关键词、与所述第二样本搜索关键词相关的多个负样本搜索结果、以及每个负样本搜索结果的统计特征和负样本标签,所述负样本标签用于指示对应负样本搜索结果未被用户浏览。可选地,该第五确定模块409用于:
对于所述多个搜索结果中的任一搜索结果,从与历史搜索关键词相关的各个历史搜索结果的统计特征中,获取所述任一搜索结果的统计特征,所述历史搜索关键词为所述历史时间段内的搜索事件对应的搜索关键词。
可选地,所述装置还包括:
统计模块,统计所述历史时间段内用户搜索的历史搜索关键词,以及与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种;
第七确定模块,用于基于与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种,确定与每个历史搜索关键词相关的各个历史搜索结果的统计特征。
可选地,所述统计模块用于:
对于所述历史时间段内用户搜索的任一历史搜索关键词,确定基于所述任一历史搜索关键词进行搜索关联到的多个历史搜索结果;
确定所述多个历史搜索结果中每个历史搜索结果的浏览时长,所述浏览时长是指用户基于搜索行为浏览对应历史搜索结果的时长;
对于所述多个历史搜索结果中的任一历史搜索结果,将所述任一历史搜索结果的浏览时长与所述多个历史搜索结果的最大浏览时长之间的比值,确定为所述任一历史搜索结果的浏览满意度。
可选地,所述多个第一负样本数据与所述多个第二正样本数据一一对应,且一一对应的第二正样本数据和第一负样本数据中包括的样本搜索关键词相同,每个第一负样本数据还包括每个负样本搜索结果的搜索结果时长。
可选地,所述第二确定模块用于:
确定所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长的平均值,得到每个第二正样本数据的正样本平均浏览时长;
确定所述多个第二正样本数据的正样本平均浏览时长的平均值,得到正样本平均浏览时长的平均值;
确定所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长的平均值,得到负样本平均时长;
基于所述正样本平均浏览时长的平均值和负样本平均时长,确定所述参考第一负样本数据对应的采样比例。
可选地,所述第二确定模块用于:
基于所述正样本平均浏览时长的平均值和所述负样本平均时长,通过以下公式,确定所述参考第一负样本数据对应的采样比例:
H=α×T×C
其中,H为所述参考第一负样本数据对应的采样比例,α为预设参数,x为所述正样本平均浏览时长的平均值,y为所述负样本平均时长,T(x,y)为所述正样本平均浏览时长的平均值与所述负样本平均浏览时长的比值,u为正样本数目,v为负样本数目,C(u,v)为所述正样本数目和所述负样本数目的比值,所述正样本数目是指所述参考第一负样本数据对应的第二正样本数据包括的正样本搜索结果的数目,所述负样本数目是指所述参考第一负样本数据包括的负样本搜索结果的数目。
本申请实施例中,可以先将正样本搜索结果按照浏览时长划分为k档,并对每档的正样本搜索结果的样本标签进行修改来得到正样本数据,然后按照搜索关键词对负样本数据进行分组,并对分组后的每组负样本搜索结果进行采样来得到负样本数据,且采样比例可以根据时长特征和当前搜索的正负样本比例进行动态调整,然后根据正样本数据和负样本数据,来训练评估模型。之后,再基于用户搜索的搜索关键词,确定该搜索关键词、与该搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,将搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,通过该评估模型,确定多个搜索结果中每个搜索结果与搜索关键词的相关度,然后基于与搜索关键词的相关度,对多个搜索结果进行排序。由于统计特征可以指示在一个历史时间段内在该搜索关键词下每个搜索结果的用户综合浏览情况,能够相对准确地反映搜索结果与搜索关键词的相关度,因此,通过将搜索关键词、与搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征通过评估模型来评估搜索结果与搜索关键词的相关度,能够使得对相关性的评估更加准确,进而提高了排序的准确性。而且,由于评估模型是基于精确生成的正负样本数据所训练出来的,能够保证训练出来的评估模型能够基于任一搜索关键词、与该搜索关键词相关的任一搜索结果、以及该搜索关键词与该搜索结果的统计特征,确定该搜索关键词与该搜索关键词的相关度,使得评估模型的评估结果更加准确。
需要说明的是:上述实施例提供的搜索结果排序装置在对搜索结果进行排序时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的搜索结果排序装置与搜索结果排序方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本申请实施例提供的一种计算机设备500的结构示意图,该计算机设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)501和一个或一个以上的存储器502,其中,所述存储器502中存储有至少一条指令,所述至少一条指令由所述处理器501加载并执行以实现上述各个方法实施例提供的搜索结果排序方法。当然,该计算机设备500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备500还可以包括其他用于实现设备功能的部件,在此不做赘述。
在一些实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述实施例中搜索结果排序方法。例如,所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
值得注意的是,本申请提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。
也即是,在一些实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的搜索结果排序方法。
以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种搜索结果排序方法,其特征在于,所述方法包括:
获取多个第一正样本数据和多个第一负样本数据;
基于所述多个第一正样本数据中每个第一正样本数据包括的多个正样本搜索结果的浏览时长,将每个第一正样本数据包括的多个正样本搜索结果的第一正样本标签划分为k档,得到每个第一正样本数据包括的多个正样本搜索结果的第二正样本标签,所述k为大于1的整数;
将每个第一正样本数据包括的第一样本搜索关键词、与所述第一样本搜索关键词相关的多个正样本搜索结果、以及每个正样本搜索结果的统计特征和第二正样本标签,确定为一个第二正样本数据,得到多个第二正样本数据;
对于所述多个第一负样本数据中的参考第一负样本数据,基于与所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长,以及所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长,确定所述参考第一负样本数据对应的采样比例,所述参考第一负样本数据为所述多个第一负样本数据中的任一个;
按照所述参考第一负样本数据对应的采样比例,对所述参考第一负样本数据包括的多个负样本搜索结果进行采样;
基于采样结果,确定所述参考第一负样本数据对应的第二负样本数据;
将所述多个第二正样本数据,以及所述多个第一负样本数据分别对应的第二负样本数据,确定为多个样本数据;
基于所述多个样本数据,对待训练评估模型进行训练,得到评估模型;
确定搜索关键词、与所述搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,所述统计特征包括在历史时间段内基于所述搜索关键词进行搜索关联到的对应搜索结果的用户浏览行为特征;
基于所述搜索关键词、与所述搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,通过所述评估模型,确定所述多个搜索结果中每个搜索结果与所述搜索关键词的相关度;
基于与所述搜索关键词的相关度,对所述多个搜索结果进行排序。
2.如权利要求1所述的方法,其特征在于,所述确定每个搜索结果的统计特征,包括:
对于所述多个搜索结果中的任一搜索结果,从与历史搜索关键词相关的各个历史搜索结果的统计特征中,获取所述任一搜索结果的统计特征,所述历史搜索关键词为所述历史时间段内的搜索事件对应的搜索关键词。
3.如权利要求2所述的方法,其特征在于,确定每个搜索结果的统计特征之前,还包括:
统计所述历史时间段内用户搜索的历史搜索关键词,以及与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种;
基于与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种,确定与每个历史搜索关键词相关的各个历史搜索结果的统计特征。
4.如权利要求3所述的方法,其特征在于,所述统计与每个历史搜索关键词相关的各个历史搜索结果的浏览满意度,包括:
对于所述历史时间段内用户搜索的任一历史搜索关键词,确定基于所述任一历史搜索关键词进行搜索关联到的多个历史搜索结果;
确定所述多个历史搜索结果中每个历史搜索结果的浏览时长,所述浏览时长是指用户基于搜索行为浏览对应历史搜索结果的时长;
对于所述多个历史搜索结果中的任一历史搜索结果,将所述任一历史搜索结果的浏览时长与所述多个历史搜索结果的最大浏览时长之间的比值,确定为所述任一历史搜索结果的浏览满意度。
5.如权利要求1所述的方法,其特征在于,所述基于与所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长,以及所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长,确定所述参考第一负样本数据对应的采样比例,包括:
确定所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长的平均值,得到每个第二正样本数据的正样本平均浏览时长;
确定所述多个第二正样本数据的正样本平均浏览时长的平均值,得到正样本平均浏览时长的平均值;
确定所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长的平均值,得到负样本平均时长;
基于所述正样本平均浏览时长的平均值和负样本平均时长,确定所述参考第一负样本数据对应的采样比例。
6.如权利要求5所述的方法,其特征在于,所述基于所述正样本平均浏览时长的平均值和负样本平均时长,确定所述参考第一负样本数据对应的采样比例,包括:
基于所述正样本平均浏览时长的平均值和所述负样本平均时长,通过以下公式,确定所述参考第一负样本数据对应的采样比例:
H=α×T(x,y)×C(u,v)
其中,H为所述参考第一负样本数据对应的采样比例,α为预设参数,x为所述正样本平均浏览时长的平均值,y为所述负样本平均时长,T(x,y)为所述正样本平均浏览时长的平均值与所述负样本平均浏览时长的比值,u为正样本数目,v为负样本数目,C(u,v)为所述正样本数目和所述负样本数目的比值,所述正样本数目是指所述参考第一负样本数据对应的第二正样本数据包括的正样本搜索结果的数目,所述负样本数目是指所述参考第一负样本数据包括的负样本搜索结果的数目。
7.一种搜索结果排序装置,其特征在于,所述装置包括:
获取模块,用于获取多个第一正样本数据和多个第一负样本数据;
划分模块,用于基于所述多个第一正样本数据中每个第一正样本数据包括的多个正样本搜索结果的浏览时长,将每个第一正样本数据包括的多个正样本搜索结果的第一正样本标签划分为k档,得到每个第一正样本数据包括的多个正样本搜索结果的第二正样本标签,所述k为大于1的整数;
第一确定模块,用于将每个第一正样本数据包括的第一样本搜索关键词、与所述第一样本搜索关键词相关的多个正样本搜索结果、以及每个正样本搜索结果的统计特征和第二正样本标签,确定为一个第二正样本数据,得到多个第二正样本数据;
第二确定模块,用于对于所述多个第一负样本数据中的参考第一负样本数据,基于与所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长,以及所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长,确定所述参考第一负样本数据对应的采样比例,所述参考第一负样本数据为所述多个第一负样本数据中的任一个;
采样模块,用于按照所述参考第一负样本数据对应的采样比例,对所述参考第一负样本数据包括的多个负样本搜索结果进行采样;
第三确定模块,用于基于采样结果,确定所述参考第一负样本数据对应的第二负样本数据;
第四确定模块,用于将所述多个第二正样本数据,以及所述多个第一负样本数据分别对应的第二负样本数据,确定为多个样本数据;
训练模块,用于基于所述多个样本数据,对待训练评估模型进行训练,得到评估模型。
第五确定模块,用于确定搜索关键词、与所述搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,所述统计特征包括在历史时间段内基于所述搜索关键词进行搜索关联到的对应搜索结果的用户浏览行为特征;
第六确定模块,用于基于所述搜索关键词、与所述搜索关键词相关的多个搜索结果、以及每个搜索结果的统计特征,通过所述评估模型,确定所述多个搜索结果中每个搜索结果与所述搜索关键词的相关度;
排序模块,用于基于与所述搜索关键词的相关度,对所述多个搜索结果进行排序。
8.根据权利要求7所述的装置,其特征在于,所述第五确定模块用于:
对于所述多个搜索结果中的任一搜索结果,从与历史搜索关键词相关的各个历史搜索结果的统计特征中,获取所述任一搜索结果的统计特征,所述历史搜索关键词为所述历史时间段内的搜索事件对应的搜索关键词。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
统计模块,统计所述历史时间段内用户搜索的历史搜索关键词,以及与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种;
第七确定模块,用于基于与每个历史搜索关键词相关的各个历史搜索结果的浏览次数、展现次数、浏览时长和浏览满意度中的至少一种,确定与每个历史搜索关键词相关的各个历史搜索结果的统计特征。
10.根据权利要求9所述的装置,其特征在于,所述统计模块用于:
对于所述历史时间段内用户搜索的任一历史搜索关键词,确定基于所述任一历史搜索关键词进行搜索关联到的多个历史搜索结果;
确定所述多个历史搜索结果中每个历史搜索结果的浏览时长,所述浏览时长是指用户基于搜索行为浏览对应历史搜索结果的时长;
对于所述多个历史搜索结果中的任一历史搜索结果,将所述任一历史搜索结果的浏览时长与所述多个历史搜索结果的最大浏览时长之间的比值,确定为所述任一历史搜索结果的浏览满意度。
11.根据权利要求7所述的装置,其特征在于,所述第二确定模块,用于:
确定所述多个第二正样本数据中每个第二正样本数据包括的多个正样本搜索结果的浏览时长的平均值,得到每个第二正样本数据的正样本平均浏览时长;
确定所述多个第二正样本数据的正样本平均浏览时长的平均值,得到正样本平均浏览时长的平均值;
确定所述参考第一负样本数据包括的多个负样本搜索结果的搜索结果时长的平均值,得到负样本平均时长;
基于所述正样本平均浏览时长的平均值和负样本平均时长,确定所述参考第一负样本数据对应的采样比例。
12.根据权利要求11所述的装置,其特征在于,所述第二确定模块用于:
基于所述正样本平均浏览时长的平均值和所述负样本平均时长,通过以下公式,确定所述参考第一负样本数据对应的采样比例:
H=α×T(x,y)×C(u,v)
其中,H为所述参考第一负样本数据对应的采样比例,α为预设参数,x为所述正样本平均浏览时长的平均值,y为所述负样本平均时长,T(x,y)为所述正样本平均浏览时长的平均值与所述负样本平均浏览时长的比值,u为正样本数目,v为负样本数目,C(u,v)为所述正样本数目和所述负样本数目的比值,所述正样本数目是指所述参考第一负样本数据对应的第二正样本数据包括的正样本搜索结果的数目,所述负样本数目是指所述参考第一负样本数据包括的负样本搜索结果的数目。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的搜索结果排序方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至6任一所述的搜索结果排序方法。
CN201911319353.7A 2019-12-19 2019-12-19 搜索结果排序方法、装置及存储介质 Active CN111061954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911319353.7A CN111061954B (zh) 2019-12-19 2019-12-19 搜索结果排序方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911319353.7A CN111061954B (zh) 2019-12-19 2019-12-19 搜索结果排序方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111061954A true CN111061954A (zh) 2020-04-24
CN111061954B CN111061954B (zh) 2022-03-15

Family

ID=70302360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911319353.7A Active CN111061954B (zh) 2019-12-19 2019-12-19 搜索结果排序方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111061954B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782950A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 样本数据集获取方法、装置、设备及存储介质
CN113392266A (zh) * 2021-08-17 2021-09-14 北京达佳互联信息技术有限公司 排序模型的训练、排序方法、装置、电子设备及存储介质
CN113609841A (zh) * 2021-06-25 2021-11-05 北京齐尔布莱特科技有限公司 一种主题词生成模型的训练方法及计算设备
CN114186682A (zh) * 2021-12-10 2022-03-15 北京达佳互联信息技术有限公司 搜索视频排序网络的训练方法、搜索视频排序方法和装置
WO2022105775A1 (zh) * 2020-11-19 2022-05-27 北京字节跳动网络技术有限公司 搜索处理方法、模型训练方法、装置、介质及设备
CN118410009A (zh) * 2024-04-23 2024-07-30 广西贯凯办公家具有限公司 一种用于档案管理的信息智能分类检索系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015081792A1 (zh) * 2013-12-03 2015-06-11 北京奇虎科技有限公司 联动性和个性化扩展搜索方法及装置、系统
CN104715063A (zh) * 2015-03-31 2015-06-17 百度在线网络技术(北京)有限公司 搜索排序方法和装置
CN106919579A (zh) * 2015-12-24 2017-07-04 腾讯科技(深圳)有限公司 一种信息处理方法及装置、设备
US20180137119A1 (en) * 2016-11-16 2018-05-17 Samsung Electronics Co., Ltd. Image management method and apparatus thereof
CN108345601A (zh) * 2017-01-23 2018-07-31 腾讯科技(深圳)有限公司 搜索结果排序方法及装置
CN108460085A (zh) * 2018-01-19 2018-08-28 北京奇艺世纪科技有限公司 一种基于用户日志的视频搜索排序训练集构建方法及装置
CN108921398A (zh) * 2018-06-14 2018-11-30 口口相传(北京)网络技术有限公司 店铺质量评价方法及装置
WO2019182828A1 (en) * 2018-03-23 2019-09-26 Home Depot International, Inc. Ranking and presenting search engine results based on category-specific ranking models

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015081792A1 (zh) * 2013-12-03 2015-06-11 北京奇虎科技有限公司 联动性和个性化扩展搜索方法及装置、系统
CN104715063A (zh) * 2015-03-31 2015-06-17 百度在线网络技术(北京)有限公司 搜索排序方法和装置
CN106919579A (zh) * 2015-12-24 2017-07-04 腾讯科技(深圳)有限公司 一种信息处理方法及装置、设备
US20180137119A1 (en) * 2016-11-16 2018-05-17 Samsung Electronics Co., Ltd. Image management method and apparatus thereof
CN108345601A (zh) * 2017-01-23 2018-07-31 腾讯科技(深圳)有限公司 搜索结果排序方法及装置
CN108460085A (zh) * 2018-01-19 2018-08-28 北京奇艺世纪科技有限公司 一种基于用户日志的视频搜索排序训练集构建方法及装置
WO2019182828A1 (en) * 2018-03-23 2019-09-26 Home Depot International, Inc. Ranking and presenting search engine results based on category-specific ranking models
CN108921398A (zh) * 2018-06-14 2018-11-30 口口相传(北京)网络技术有限公司 店铺质量评价方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李华北等: "基于语义匹配的交互式视频检索框架", 《自动化学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782950A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 样本数据集获取方法、装置、设备及存储介质
WO2022105775A1 (zh) * 2020-11-19 2022-05-27 北京字节跳动网络技术有限公司 搜索处理方法、模型训练方法、装置、介质及设备
CN113609841A (zh) * 2021-06-25 2021-11-05 北京齐尔布莱特科技有限公司 一种主题词生成模型的训练方法及计算设备
CN113392266A (zh) * 2021-08-17 2021-09-14 北京达佳互联信息技术有限公司 排序模型的训练、排序方法、装置、电子设备及存储介质
CN114186682A (zh) * 2021-12-10 2022-03-15 北京达佳互联信息技术有限公司 搜索视频排序网络的训练方法、搜索视频排序方法和装置
CN118410009A (zh) * 2024-04-23 2024-07-30 广西贯凯办公家具有限公司 一种用于档案管理的信息智能分类检索系统

Also Published As

Publication number Publication date
CN111061954B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN111061954B (zh) 搜索结果排序方法、装置及存储介质
US10846346B2 (en) Search suggestion and display environment
US10140368B2 (en) Method and apparatus for generating a recommendation page
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN110543598B (zh) 信息推荐方法、装置及终端
US8290927B2 (en) Method and apparatus for rating user generated content in search results
US8909625B1 (en) Image search
JP5984917B2 (ja) 提案される語を提供するための方法および装置
CN109271574A (zh) 一种热词推荐方法及装置
US20080005101A1 (en) Method and apparatus for determining the significance and relevance of a web page, or a portion thereof
US10503803B2 (en) Animated snippets for search results
US20070073708A1 (en) Generation of topical subjects from alert search terms
US20120002884A1 (en) Method and apparatus for managing video content
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
US8768861B2 (en) Research mission identification
CN105282565A (zh) 一种视频推荐方法和装置
EP3485394B1 (en) Contextual based image search results
CN111400586A (zh) 群组展示方法、终端、服务器、系统及存储介质
CN111259173A (zh) 一种搜索信息推荐方法及装置
CN108763369B (zh) 一种视频搜索方法和装置
JP2018504686A (ja) 検索データを処理するための方法及び装置
CN103425767B (zh) 一种提示数据的确定方法和系统
WO2015143911A1 (zh) 推送包含时效性信息的网页的方法和装置
CN111539208B (zh) 语句处理方法和装置、以及电子设备和可读存储介质
CN112417299A (zh) 一种网页推荐方法、计算机存储介质及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230510

Address after: 518000 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Patentee after: TENCENT MUSIC ENTERTAINMENT (SHENZHEN) Co.,Ltd.

Address before: 518000 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Patentee before: TENCENT MUSIC ENTERTAINMENT TECHNOLOGY (SHENZHEN) Co.,Ltd.