CN110020206B - 一种搜索结果排序方法及装置 - Google Patents

一种搜索结果排序方法及装置 Download PDF

Info

Publication number
CN110020206B
CN110020206B CN201910294469.3A CN201910294469A CN110020206B CN 110020206 B CN110020206 B CN 110020206B CN 201910294469 A CN201910294469 A CN 201910294469A CN 110020206 B CN110020206 B CN 110020206B
Authority
CN
China
Prior art keywords
click
site
webpage
search result
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910294469.3A
Other languages
English (en)
Other versions
CN110020206A (zh
Inventor
刘秋志
王蟒
陈炜鹏
许静芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201910294469.3A priority Critical patent/CN110020206B/zh
Publication of CN110020206A publication Critical patent/CN110020206A/zh
Application granted granted Critical
Publication of CN110020206B publication Critical patent/CN110020206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本申请实施例公开了一种搜索结果排序方法及装置,具体为,服务器首先接收客户端发送的搜索请求,并根据该搜索请求确定对应的搜索结果项。然后,获取每个搜索结果项对应的站点点击特征,将搜索结果项对应的站点点击特征作为一项排序指标,从而利用该搜索结果项的各项排序指标,对搜索结果项进行排序,获得搜索结果项的排序结果。由于可以认为同一站点中各网页的网页质量是类似的,因此当搜索结果项缺失足够的用户点击数据或者不存在用户点击数据时,可以利用该搜索结果项对应站点的站点点击特征进行页面质量评估,提高搜索结果排序的准确性。

Description

一种搜索结果排序方法及装置
技术领域
本申请涉及互联网技术领域,具体涉及一种搜索结果排序方法及装置。
背景技术
在搜索引擎技术中,用户输入关键词进行搜索,搜索引擎确定匹配该关键词的搜索结果项,然后对各个搜索结果项进行排序,以生成展示搜索结果项对应的页面。在对搜索结果项进行排序的过程中,需要将页面质量更好的搜索结果项排在更靠前的位置。页面质量通常可以表征在不考虑关键词相关性的前提下,页面能满足用户需求的概率。
在现有技术中,通常利用搜索结果项对应网页的点击率等点击特征来评估搜索结果项对应网页的页面质量。搜索结果项对应网页的点击率由搜索结果项对应网页的被点击次数与总显示次数确定。
但是,互联网中存在海量网页,用户的点击行为存在稀疏性问题,对于某一些网页可能不存在用户的点击行为历史数据,从而无法对页面质量进行准确评估,造成搜索结果排序不准确。
发明内容
有鉴于此,本申请实施例提供一种搜索结果排序方法及装置,以提高搜索结果排序的准确度。
为解决上述问题,本申请实施例提供的技术方案如下:
一种搜索结果排序方法,所述方法包括:
接收客户端发送的搜索请求,确定所述搜索请求对应的至少一个搜索结果项;
获取所述搜索结果项对应的站点点击特征,所述搜索结果项对应的站点点击特征是根据所述搜索结果项对应网页所属站点所包括的网页的点击特征确定的;
将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标,对至少一个所述搜索结果项进行排序。
在一种可能的实现方式中,所述获取所述搜索结果项对应的站点点击特征,包括:
针对所述搜索结果项对应网页所属站点包括的每个待计算网页,获取每个所述待计算网页的点击数据,计算每个所述待计算网页的点击特征;
根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征。
在一种可能的实现方式中,所述站点点击特征包括:站点点击率;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的点击次数以及总显示次数,计算每个所述待计算网页的点击率;
根据所述待计算网页的点击率,计算所述站点的点击率。
在一种可能的实现方式中,所述站点点击特征包括:站点末次点击率;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总显示次数,计算每个所述待计算网页的末次点击率;
根据所述待计算网页的末次点击率,计算所述站点的末次点击率。
在一种可能的实现方式中,所述站点点击特征包括:站点末次点击占比;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总点击次数,计算每个所述待计算网页的末次点击占比;
根据待计算网页的末次点击占比,计算站点的末次点击占比。
在一种可能的实现方式中,在所述根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征之前,所述方法还包括:
计算每个所述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。
在一种可能的实现方式中,所述获取所述搜索结果项对应的站点点击特征,包括:
查找预存的站点特征词典,其中,所述站点特征词典中保存有常用站点的点击特征;
若所述站点特征词典中存在所述搜索结果项对应网页所属站点,则依据所述站点特征词典查找得到所述搜索结果项对应网页所属站点的站点点击特征。
在一种可能的实现方式中,所述方法还包括:
生成新版本的站点特征词典,并对新版本的站点特征词典进行评估;
当评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典时,将预存的站点特征词典替换为所述新版本的站点特征词典。
在一种可能的实现方式中,所述对新版本的站点特征词典进行评估,包括:
利用新版本的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第一排序结果;
利用预存的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第二排序结果;
若所述第一排序结果优于所述第二排序结果,则确定评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典。
在一种可能的实现方式中,在获取所述搜索结果项对应的站点点击特征之后,所述方法还包括:
根据所述搜索结果项对应网页的网页特征,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
根据所述偏差值对所述搜索结果项对应的站点点击特征进行修正,将修正后的结果确定为所述搜索结果项对应的站点点击特征,再执行将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标的步骤。
在一种可能的实现方式中,依据预先训练的点击特征偏差预测模型,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
所述点击特征偏差预测模型的训练过程包括:
提取待训练网页的网页特征;
将所述待训练网页的网页特征与所述待训练网页对应的偏差值标签作为训练数据,所述偏差值标签为所述待训练网页的点击特征与所述待训练网页所属站点的站点点击特征之间的偏差值;
根据所述训练数据训练生成所述点击特征偏差预测模型。
一种搜索结果排序装置,所述装置包括:
接收单元,用于接收客户端发送的搜索请求,确定所述搜索请求对应的搜索结果项;
第一获取单元,用于获取所述搜索结果项对应的站点点击特征,所述搜索结果项对应的站点点击特征是根据所述搜索结果项对应网页所属站点所包括的网页的点击特征确定的;
排序单元,用于将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标,对至少一个所述搜索结果项进行排序。
在一种可能的实现方式中,所述第一获取单元,包括:
第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的点击数据,计算每个所述待计算网页的点击特征;
第二计算子单元,用于根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征。
在一种可能的实现方式中,当所述站点点击特征为站点点击率时,
所述第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的点击次数以及总显示次数,计算每个所述待计算网页的点击率;
所述第二计算子单元,用于根据所述待计算网页的点击率,计算所述站点的点击率。
在一种可能的实现方式中,当所述站点点击特征为站点末次点击率时,
所述第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总显示次数,计算每个所述待计算网页的末次点击率;
所述第二计算子单元,用于根据所述待计算网页的末次点击率,计算所述站点的末次点击率。
在一种可能的实现方式中,当所述站点点击特征为站点末次点击占比时,
所述第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总点击次数,计算每个所述待计算网页的末次点击占比;
所述第二计算子单元,用于根据所述待计算网页的末次点击占比,计算所述站点的末次点击占比。
在一种可能的实现方式中,所述第一获取单元,还包括:
第三计算子单元,用于在执行所述第一计算子单元之后,执行所述第二计算子单元之前,计算每个所述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。
在一种可能的实现方式中,所述第一获取单元,包括:
查找子单元,用于查找预存的站点特征词典,其中,所述站点特征词典中保存有常用站点的点击特征;
获取子单元,用于若所述站点特征词典中存在所述搜索结果项对应网页所属站点,则依据所述站点特征词典查找得到所述搜索结果项对应网页所属站点的站点点击特征。
在一种可能的实现方式中,所述装置还包括:
生成单元,用于生成新版本的站点特征词典;
评估单元,用于对新版本的站点特征词典进行评估;
替换单元,用于当所述评估单元的评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典时,将预存的站点特征词典替换为所述新版本的站点特征词典。
在一种可能的实现方式中,所述评估单元,包括:
第一排序子单元,用于利用新版本的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第一排序结果;
第二排序子单元,用于利用预存的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第二排序结果;
第一确定子单元,用于若所述第一排序结果优于所述第二排序结果,则确定评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,用于在执行所述第一获取单元之后,执行所述排序单元之前,根据所述搜索结果项对应网页的网页特征,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
修正单元,用于根据所述偏差值对所述搜索结果项对应的站点点击特征进行修正,将修正结果确定为所述搜索结果项对应的站点点击特征,再执行所述排序单元。
在一种可能的实现方式中,所述第二获取单元,具体用于依据预先训练的点击特征偏差预测模型,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
所述点击特征偏差预测模型的训练过程包括:
提取待训练网页的网页特征;
将所述待训练网页的网页特征与所述待训练网页对应的偏差值标签作为训练数据,所述偏差值标签为所述待训练网页的点击特征与所述待训练网页所属站点的站点点击特征之间的偏差值;
根据所述训练数据对初始模型进行训练生成点击特征偏差预测模型。
一种用于搜索结果排序的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收客户端发送的搜索请求,确定所述搜索请求对应的搜索结果项;
获取所述搜索结果项对应的站点点击特征,所述搜索结果项对应的站点点击特征是根据所述搜索结果项对应网页所属站点所包括的网页的点击特征确定的;
将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标,对至少一个所述搜索结果项进行排序。
一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述的搜索结果排序的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例中服务器首先接收客户端发送的搜索请求,并根据该搜索请求确定对应的搜索结果项。然后,获取每个搜索结果项对应的站点点击特征,将搜索结果项对应的站点点击特征作为一项排序指标,从而利用该搜索结果项的各项排序指标,对搜索结果项进行排序,获得搜索结果项的排序结果。由于可以认为同一站点中各网页的网页质量是类似的,因此当搜索结果项对应网页缺失足够的用户点击数据或者不存在用户点击数据时,可以利用该搜索结果项对应网页所属站点的点击特征进行页面质量评估,提高搜索结果排序的准确性。
附图说明
图1为本申请实施例提供的示例性应用场景的框架示意图;
图2为本申请实施例提供的一种搜索结果排序方法的流程图;
图3a为本申请实施例提供的一种计算站点点击率方法的流程图;
图3b为本申请实施例提供的一种计算站点末次点击率方法的流程图;
图3c为本申请实施例提供的一种计算站点末次点击占比方法的流程图;
图4a为本申请实施例提供的一种获取站点点击特征方法的流程图;
图4b为本申请实施例提供的一种修正站点点击特征的方法的流程图;
图5为本申请实施例提供的一种搜索结果排序的装置结构图;
图6为本申请实施例提供的另一种搜索结果排序的装置结构图;
图7为本申请实施例提供的一种服务器设备结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
发明人在对传统的搜索结果项排序方法研究中发现,传统的排序方法通常利用搜索结果项对应网页的点击特征作为排序指标来评估搜索结果项对应网页的页面质量。然而,互联网中存在大量网页,用户的点击行为存在稀疏性,会使得一些网页可能不存在用户的点击行为历史数据,导致无法获取该页面的点击特征,无法对该页面质量进行准确评估,造成搜索结果排序不准确。
基于此,本申请实施例提供了一种搜索结果排序方法,当接收到客户端发送的搜索请求时,根据该搜索请求确定对应的搜索结果项。获取每个搜索结果项对应的站点点击特征,由于该站点点击特征是由该搜索结果项对应网页所属站点所包括的多个网页的点击特征确定,可以反映站点内网页的页面质量。再将每个搜索结果项对应的站点点击特征添加为搜索结果项的一项排序指标,然后根据每个搜索结果项的各项排序指标对搜索结果页面进行排序,从而避免一些网页因不存在用户的点击行为历史数据而无法对页面质量进行评估,提高搜索结果排序的准确性。
参见图1,该图为本申请实施例提供的示例性应用场景的框架示意图。其中,本申请实施例提供的搜索结果排序方法可以应用于服务器20中。
实际应用时,服务器20获取客户端10发送的搜索请求,并根据搜索请求确定对应的搜索结果页。然后,获取搜索结果页中每个搜索结果项对应的站点点击特征,并将每个搜索结果项对应的站点点击特征作为一项排序指标,并根据每个搜索结果项的多项排序指标对搜索结果项进行排序。
本领域技术人员可以理解,图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。
需要注意的是,客户端10可以承载于终端,该终端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如,Wi-Fi、LAN、蜂窝、同轴电缆等)相互交互的任何用户设备,包括但不限于:现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本申请的实施方式在此方面不受任何限制。还需要注意的是,本申请实施例中服务器20可以是现有的、正在研发的或将来研发的、能够向用户提供搜索服务的设备的一个示例。本申请的实施方式在此方面不受任何限制。
为便于理解本申请提供的搜索结果排序方法,下面将结合附图对该方法进行说明。
参见图2,该图为本申请实施例提供的一种搜索结果排序方法的流程图,如图2所示,该方法可以包括:
S201:接收客户端发送的搜索请求,确定所述搜索请求对应的至少一个搜索结果项。
本实施例中,当用户需要进行搜索时,可以通过客户端向服务器发送搜索请求,搜索请求中携带有查询语句,该查询语句可以包括一个或多个关键词。服务器接收到搜索请求后,根据查询语句确定对应的至少一个搜索结果项。
例如,用户想要查询2019年个人所得税上缴标准,则通过客户端可以输入查询语句“19年个人所得税”。客户端将携带该查询语句的搜索请求发送给服务器,由服务器根据搜索请求确定出与关键词相关的至少一个搜索结果项。
S202:获取搜索结果项对应的站点点击特征,搜索结果项对应的站点点击特征是根据搜索结果项对应网页所属站点所包括的网页的点击特征确定的。
本实施例中,当服务器确定出与搜索请求对应的至少一个搜索结果项时,分别获取每个搜索结果项对应的站点点击特征。其中,每个搜索结果项对应的站点点击特征是根据搜索结果项对应网页所属站点所包括的网页的点击特征确定的。
在具体实现时,搜索结果项对应的站点点击特征可以是由搜索结果项对应网页所属站点所包括的所有网页的点击特征确定,也可以由搜索结果项对应网页所属站点所包括的部分网页的点击特征确定,本实施例在此不做限定。其中,搜索结果项对应网页所属站点可以通过搜索结果项对应网页的URL(Uniform Resource Locator,统一资源定位符)的根目录确定,当搜索结果项对应网页的URL为http://A.B.C/.../...时,则A.B.C即为URL的根目录,也就是搜索结果项对应网页所属的站点。即http://A.B.C/下所有网页的集合被称为名字为A.B.C的一个站点,例如,搜索结果项对应网页的URL为http://news.sogou.com/...,则news.sogou.com为搜索结果项对应网页所属的站点。
在本实施例中,网页的点击特征可以包括点击率、末次点击率或者末次点击占比;其中,点击率是指网页被点击的次数与被显示次数之比;末次点击占比表示网页的末次点击次数与总点击次数之比;末次点击率表示网页的末次点击次数与总显示次数之比。则站点点击特征可以包括站点点击率、站点末次点击率或者站点末次点击占比。
在实际应用中,服务器还可以预先计算常用站点的站点点击特征并保存至词典中,当确定出搜索请求对应的搜索结果项后,确定每个搜索结果项对应的站点,并查找词典,确定词典中是否已经存储有该站点的站点点击特征。服务器也可以实时计算搜索结果项对应的站点点击特征。具体的,所述获取所述搜索结果项对应的站点点击特征,包括:查找预存的站点特征词典,其中,所述站点特征词典中保存有常用站点的点击特征;若所述站点特征词典中存在所述搜索结果项对应网页所属站点,则依据所述站点特征词典查找得到所述搜索结果项对应网页所属站点的站点点击特征。
可以理解的是,无论是预先存储常用站点的站点点击特征,还是实时计算搜索结果项对应站点的站点点击特征,均需对站点点击特征进行计算。其中,关于计算站点点击特征的具体实现,以及如何获取搜索结果项对应的站点点击特征的具体实现将在后续实施例进行说明。S203:将搜索结果项对应的站点点击特征添加为搜索结果项的一项排序指标,对至少一个搜索结果项进行排序。
本实施例中,当获取每个搜索结果项对应的站点点击特征后,将该搜索结果项对应的站点点击特征添加为该搜索结果项的一项排序指标,然后对搜索结果项进行排序,以得到所有搜索结果项的排序结果。
在具体实现时,可以将搜索结果项对应的站点末次点击率作为一项排序指标,并可以结合搜索结果项所包括的各项排序指标,对每个搜索结果项进行综合排序,以得到可以反映搜索结果质量的排序结果。其中,其它排序指标可以为搜索结果权威度、知名度以及内容质量等等。
通过上述实施例可知,本申请实施例中服务器首先接收客户端发送的搜索请求,并根据该搜索请求确定对应的搜索结果项。然后,获取每个搜索结果项对应的站点点击特征,将搜索结果项对应的站点点击特征作为一项排序指标,利用该搜索结果项的各项排序指标,对搜索结果项进行排序,获得搜索结果项的排序结果。由于可以认为同一站点中各网页的网页质量是类似的,因此当搜索结果项对应网页缺失足够的用户点击数据或者不存在用户点击数据时,可以利用该搜索结果项对应网页所属站点的站点点击特征进行页面质量评估,提高搜索结果排序的准确性。
基于上述实施例可知,在具体实现时,既可以根据搜索结果实时计算每个搜索结果项对应网页所属站点的站点点击特征;也可以预先计算出常用站点的站点点击特征,将其存储在词典中,在进行搜索查询时,可以根据搜索结果项对应网页所属站点在词典中进行查找,如果词典中存在搜索结果项对应网页所属站点的站点点击特征,则直接获取;如果词典中不存在,则计算搜索结果项对应网页所属站点的站点点击特征。
在本申请实施例一种可能的实现方式中,提供了一种获取站点点击特征的方式,具体为,针对搜索结果项对应网页所属站点包括的每个待计算网页,获取每个待计算网页的点击数据,计算每个待计算网页的点击特征;根据站点包括的待计算网页的点击特征,计算站点的点击特征。其中,待计算网页可以是站点包括的所有页面,也可以仅仅是关键网页。在具体实现时,关键网页可以根据实际情况确定,例如,将站点中被点击数量较多的网页确定为关键网页,本实施例在此不做限定。
为便于理解计算站点点击特征的具体实现方式,下面将结合附图进行说明。
需要说明的是,由于站点点击特征可以包括站点点击率、站点末次点击率或站点末次点击比等,为便于理解每个站点点击特征的计算实现,下面将分别进行说明。
参见图3a,该图为本申请实施例提供的一种计算站点点击率方法的流程图,如图3a所示,该方法可以包括:
S301a:针对站点包括的每个待计算网页,获取每个待计算网页的点击次数以及总显示次数,计算每个待计算网页的点击率。
本实施例中,针对任意一个站点,根据站点所包括的每个待计算网页的点击次数以及总显示次数,计算每个待计算网页的点击率。其中,待计算网页的点击率为该网页的点击次数与总显示次数之比。网页的点击次数是指该一定时间段内该网页在搜索结果页中被点击的次数;网页的总显示次数是指一定时间段内该网页在搜索结果页中被显示的总次数;其中搜索结果页可以指执行搜索查询得到的展示搜索结果项的页面。
S302a:根据待计算网页的点击率,计算站点的点击率。
本实施例中,当确定站点所包括的每个待计算网页的点击率后,根据该站点所包括的所有待计算网页的点击率获得该站点的点击率。
在具体实现时,当站点所包括的待计算网页为该站点的所有网页时,则利用该站点所有网页的点击率确定该站点的站点点击率。当站点所包括的待计算网页为该站点的部分关键网页,则利用所有关键网页的点击率确定该站点的站点点击率。
在实际应用时,可以根据公式(1)计算获得站点点击率:
Figure BDA0002026020520000101
其中,x表示一个站点点击率,ui为一站点所包括的第i个待计算网页的点击率,N为计算该站点点击率所需的待计算网页数量。
在实际应用中,服务器针对于每个站点,均可以利用公式(1)计算获得站点点击率。
另外,为确保计算获得的站点点击率更加可信,在根据所述站点包括的待计算网页的点击特征,计算站点的点击特征之前,还可以包括:计算每述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。即在本实施例中,当获得站点所包括的每个待计算网页的点击率之后,还可以基于置信区间算法对每个待计算网页的点击率进行修正,再利用修正后的网页的点击率计算网页对应的站点点击率。
具体为,即在执行S301a与S302a之间,还可以包括:计算每个待计算网页的点击率的置信区间下界值,将每个待计算网页的点击率的置信区间下界值作为该待计算网页的点击率。其中,置信区间下界值可以为威尔逊置信区间下界值。
也就是,当获得用于计算站点点击率所需的每个待计算网页的点击率后,可以利用威尔逊置信区间算法计算获得每个待计算网页的点击率的置信区间下限值,将该置信区间下限值作为该待计算网页的点击率,以计算站点点击率。其中,威尔逊置信区间算法为比较成熟的算法,本实施例在此不再赘述。
参见图3b,该图为本申请实施例提供的一种站点末次点击率计算方法的流程图,如图3b所示,该方法可以包括:
S301b:针对站点包括的每个待计算网页,获取每个待计算网页的末次点击次数以及总显示次数,计算每个待计算网页的末次点击率。
本实施例中,针对任意一个站点,根据站点所包括的每个待计算网页的末次点击次数以及总显示次数,计算每个待计算网页的末次点击率。其中,待计算网页的末次点击率为该网页的末次点击次数与总显示次数之比。网页的末次点击次数是指一定时间段内该网页在搜索结果页中被末次点击的次数,末次点击为该网页在被点击之后,在搜索结果页中其他网页均未被点击;网页的总显示次数为一定时间段内该网页在搜索结果页中被显示的总次数;其中搜索结果页可以指执行搜索查询得到的展示搜索结果项的页面。
S302b:根据待计算网页的末次点击率,计算站点的末次点击率。
本实施例中,当确定站点所包括的每个待计算网页的末次点击率后,根据站点所包括的所有待计算网页的末次点击率确定该站点的末次点击率。
在具体实现时,当站点所包括的待计算网页为该站点的所有网页时,则利用该站点包括的所有网页的末次点击率确定该站点的站点末次点击率。当站点所包括的待计算网页为该站点的部分关键网页,则利用所有关键网页的末次点击率确定该站点的站点末次点击率。
在实际应用时,可以根据公式(2)计算获得站点末次点击率:
Figure BDA0002026020520000111
其中,y表示一个站点末次点击率,vi为一站点所包括的第i个待计算网页的末次点击率,N为计算该站点末次点击率所需的待计算网页数量。
在实际应用中,服务器针对于每个站点,均可以利用公式(2)计算获得站点末次点击率。
另外,为确保计算获得的站点末次点击率更加可信,在根据所述站点包括的待计算网页的点击特征,计算站点的点击特征之前,还可以包括:计算每述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。即在本实施例中,当获得站点所包括的每个待计算网页的末次点击率之后,还可以基于置信区间算法对每个待计算网页的末次点击率进行修正,再利用修正后的网页的末次点击率计算网页对应的站点末次点击率。
具体为,即在执行S301b与S302b之间,还可以包括:计算每个待计算网页的末次点击率的置信区间下界值,将每个待计算网页的末次点击率的置信区间下界值作为该待计算网页的末次点击率。其中,置信区间下界值可以为威尔逊置信区间下界值。
也就是,当获得用于计算站点末次点击率所需的每个待计算网页的末次点击率后,可以利用威尔逊置信区间算法计算获得每个待计算网页的末次点击率的置信区间下限值,将该置信区间下限值作为该待计算网页的末次点击率,以计算站点末次点击率。其中,威尔逊置信区间算法为比较成熟的算法,本实施例在此不再赘述。
参见图3c,该图为本申请实施例提供的一种计算站点末次点击比的方法流程图,如图3c所示,该方法可以包括:
S301c:针对站点包括的每个待计算网页,获取每个待计算网页的末次点击次数以及总点击次数,计算每个待计算网页的末次点击占比。
本实施例中,针对任意一个站点,根据站点所包括的每个待计算网页的末次点击次数以及总点击次数,计算该站点所包括的每个待计算网页的末次点击占比。其中,每个待计算网页的末次点击占比为该网页的末次点击次数除以总点击次数。网页的末次点击次数是一定时间段内该网页在搜索结果页中被末次点击的次数,末次点击为该网页在被点击之后,在搜索结果页中其他网页均未被点击;网页的总点击次数是一定时间段内该网页在搜索结果页中被点击的总次数。
S302c:根据待计算网页的末次点击占比,计算站点的末次点击占比。
本实施例中,当确定站点所包括的每个待计算网页的末次点击占比后,根据该站点所包括的所有待计算网页的末次点击占比计算该站点的末次点击占比。
在具体实现时,当站点末次点击占比由站点包括的所有网页的末次点击占比确定时,计算该站点内每个网页的末次点击占比,利用所有网页的末次点击占比确定站点末次点击占比。当站点末次点击占比由站点所包括的部分网页的末次点击占比确定时,计算部分网页的末次点击占比,利用部分网页的末次点击占比确定站点末次点击占比。
在实际应用时,可以根据公式(3)计算获得站点末次点击占比:
Figure BDA0002026020520000121
其中,z表示一个站点末次点击占比,wi为一站点所包括的第i个待计算网页的末次点击占比,N为计算该站点末次点击占比所需的待计算网页数量。
在实际应用中,服务器针对于每个站点,均可以利用公式(3)计算获得站点末次点击占比。
另外,为确保计算获得的站点末次点击占比更加可信,在根据所述站点包括的待计算网页的点击特征,计算站点的点击特征之前,还可以包括:计算每述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。即在本实施例中,当获得站点所包括的每个待计算网页的末次点击占比之后,还可以基于置信区间算法对每个待计算网页的末次点击占比进行修正,再利用修正后的网页的末次点击占比计算网页对应的站点末次点击率。
具体为,即在执行S301c与S302c之间,还可以包括:计算每个待计算网页的末次点击占比的置信区间下界值,将每个待计算网页的末次点击占比的置信区间下界值作为该待计算网页的末次点击占比。其中,置信区间下界值可以为威尔逊置信区间下界值。
也就是,当获得用于计算站点末次点击占比所需的每个待计算网页的末次点击占比后,可以利用威尔逊置信区间算法计算获得每个待计算网页的末次点击占比的置信区间下限值,将该置信区间下限值作为该待计算网页的末次点击占比,以计算站点末次点击占比。其中,威尔逊置信区间算法为比较成熟的算法,本实施例在此不再赘述。
通过上述实施例可知,站点的点击特征均可以根据该站点所包括的待计算网页的点击特征计算获得,由于可以认为同一站点中各网页的网页质量是类似的,因此当搜索结果项对应网页缺失足够的用户点击数据或者不存在用户点击数据时,可以利用该搜索结果项对应网页所属站点的点击特征进行页面质量评估,提高搜索结果排序的准确性。
可以理解的是,在本实施例实现时,可以预先保存常用站点的点击特征,在搜索查询时,可以根据搜索结果项对应网页所属站点从预先保存的常用站点中进行查找,以便获得搜索结果项对应网页所属站点的点击特征。为便于理解在预先保存的常用站点中查找搜索结果项对应网页所属站点的点击特征,下面将结合附图进行说明。
参见图4a,该图为本申请实施例提供的一种获取站点点击特征方法的流程图,如图4a所示,该方法可以包括:
S401a:预先计算大量目标站点的站点点击特征,构建站点特征词典。
本实施例中,首先计算大量目标站点的站点点击特征,并将获得的目标站点的站点点击特征保存至站点特征词典中。其中,目标站点可以为常用站点中的任意一个站点,从而获得大量常用站点的站点点击特征。
在实际应用中,目标站点的站点点击特征可以为站点点击率、站点末次点击率、站点末次点击比。其中,关于站点点击率、站点末次点击率以及站点末次点击比的计算实现可以参见上述方法实施例,本实施例在此不再赘述。
S402a:确定搜索结果项对应网页所属站点。
S403a:查找站点特征词典,若站点特征词典中存在搜索结果项对应网页所属站点时,依据站点特征词典查找得到搜索结果项对应网页所属站点的站点点击特征。
本实施例中,确定出搜索请求对应的搜索结果项后,针对每个搜索结果项对应网页所属站点查找预先构建的站点特征词典;确定该词典中是否存在所述搜索结果项对应网页所属站点,如果存在,则可以直接从所述词典中查找得到所述搜索结果项对应网页所属站点的站点点击特征。
S404a:当站点特征词典中不存在搜索结果项对应网页所属站点时,则计算搜索结果项对应网页所属站点的站点点击特征。
进一步的,S404a中,计算得到所述搜索结果项对应网页所属站点的站点点击特征后,可以将该站点的点击特征补充入所述站点特征词典,以备后续搜索使用。
具体的,可以按照前述实施例的方法计算所述搜索结果项对应网页所属站点的站点点击特征。
本实施例中,当确定站点特征词典中不存在所述搜索结果项对应网页所属站点时,表明预先存储的目标站点的站点点击特征中不包括所述搜索结果项对应网页所属站点的站点点击特征,则计算所述搜索结果项对应网页所属站点的站点点击特征。其中,关于计算所述搜索结果项对应网页所属站点的站点点击特征可以参见上述实施例,本实施例在此不再赘述。
例如,搜索结果项对应网页所属站点分别为站点A、站点B和站点C,其中,站点特征词典中存在站点A和站点C,则从站点特征词典中查找站点A的站点点击特征和站点C的站点点击特征。而站点特征词典中中不包括站点B,则需要实时计算站点B的站点点击特征。
在本申请实施例一种可能的实现方式中,当预先在站点特征词典中存储多个站点的点击特征时,由于每个网页对应的点击行为数据在不断发生变化,相应地,网页对应的站点点击特征也可能发生变化。为保证能够获取到搜索结果项对应的最新的站点点击特征,需要及时更新词典中所保存的站点点击特征,例如可以周期性对词典中保存的各站点的站点点击特征进行更新。
需要说明的是,在实际应用中,可以周期性对站点特征词典中保存的各站点的站点点击特征进行更新,从而生成一新版本的站点特征词典,而是否由新版本的站点特征词典对旧版本的站点特征词典进行替换,还可以进一步进行判断。具体为,生成新版本的站点特征词典,并对新版本的站点特征词典进行评估;当评估结果为新版本的站点特征词典优于预存的站点特征词典时,将预存的站点特征词典替换为新版本的站点特征词典。也就是,当生成新版本的站点特征词典时,对新版本的站点特征词典进行优劣性评估,如果评估结果为新版本的站点特征词典优于预存的站点特征词典,则可以由新版本的站点特征词典对旧版本的站点特征词典进行替换。
在具体实现时,本申请实施例提供了一种对新版本的站点特征词典进行评估方式,具体为,利用新版本的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第一排序结果;利用预存的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第二排序结果;若所述第一排序结果优于所述第二排序结果,则确定评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典。
也就是,先从新版本的站点词典特征中查找搜索结果项对应的站点点击特征作为搜索结果项的一项排序指标,然后对所有的搜索结果项进行排序,获得第一排序结果。然后再从旧版本的站点特征词典中查找搜索结果项对应的站点点击特征作为搜索结果页面的一项排序指标,然后对所有的搜索结果项进行排序,获得第二排序结果。如果第一排序结果优于第二排序结果,则可以由新版本的站点特征词典对旧版本的站点特征词典进行替换。其中,判断第一排序结果是否优于第二排序结果操作,可以由人工进行评价。
例如,用户通过客户端输入查询语句“19年个人所得税”,客户端将携带该查询语句的搜索请求发送给服务器,由服务器根据该搜索请求确定出与关键词相关的3个搜索结果项分别为搜索结果项A、搜索结果项B以及搜索结果项C,在生成新版本的站点特征词典后,从新版本的站点词典特征中查找获取每个搜索结果项对应的站点点击特征。将每个搜索结果项对应的站点点击特征添加为该搜索结果项的一项排序指标,然后对所有搜索结果项进行排序,获得第一排序结果为A、C、B。
服务器再次根据携带有查询语句“19年个人所得税”的搜索请求确定出与查询语句相关的3个搜索结果项分别为搜索结果项A、搜索结果项B以及搜索结果项C,从旧版本的站点词典特征中查找获取每个搜索结果项对应的站点点击特征。将每个搜索结果项对应的站点点击特征添加为该搜索结果项的一项排序指标,然后对所有搜索结果项进行排序,获得第二排序结果为C、A、B。当人工评价结果为第一排序结果优于第二排序结果,则由新版本的站点特征词典对旧版本的站点特征词典进行替换。
通过上述描述可知,通过对新旧版本的站点特征词典对排序结果的影响,确定出可以更准确地反映网页质量的站点点击特征,以便为用户提供更优的搜索服务。
可以理解的是,由于每个站点可以包括大量网页,同一站点内不同网页的页面质量并不是完全一致,为保证获取的搜索结果项对应的站点点击特征可以真实反映该搜索结果项的页面质量,在将搜索结果项对应的站点点击特征添加为搜索结果项的一项排序指标之前,先对搜索结果项对应的站点点击特征进行修正,利用修正后的搜索结果项对应的站点点击特征进行排序。
基于此,本申请实施例提供一种修正站点点击特征的方法,为便于理解,下面将结合附图对该修正方法进行说明。
参见图4b,该图为本申请实施例提供的一种修正站点点击特征的方法流程图,如图4b所示,该方法可以包括:
S401b:根据搜索结果项的网页特征,获取搜索结果项的点击特征与搜索结果项对应的站点点击特征之间的偏差值。
本实施例,当获取搜索结果项对应的站点点击特征之后,获取每个搜索结果项的网页特征,并根据该搜索结果项的网页特征,获取该搜索结果项的点击特征与搜索结果项对应的站点点击特征之间的偏差值。其中,搜索结果项的网页特征可以包括搜索结果项的内容质量、用户浏览体验、访问流畅度、网页长度、网页中词语丰富度等,可以反映该搜索结果项所具有的特点。其中,点击特征可以为点击率、末次点击率以及末次点击占比。
在本申请实施例一种可能的实现方式中,提供了一种根据搜索结果项的网页特征,获取搜索结果项的点击特征与搜索结果项对应的站点点击特征之间的偏差值之间的方式,具体为,将搜索结果项的网页特征输入预先训练的点击特征偏差预测模型,获取点击特征偏差预测模型输出的搜索结果项的点击特征与搜索结果项对应的站点点击特征之间的偏差值。
本实施例中,当获取每个搜索结果项的网页特征后,将该搜索结果项的网页特征作为输入参数输入至预先训练的点击特征偏差预测模型,该点击特征偏差预测模型根据输入参数,输出该搜索结果项的点击特征与该搜索结果项对应的站点点击特征之间的偏差值。
其中,点击特征偏差预测模型为预先训练获得,可以根据输入的网页特征获取网页的点击特征与网页对应的站点点击特征之间的偏差值。其中,点击特征偏差预测模型可以利用待训练数据训练获得,具体训练过程包括:提取待训练网页的网页特征;将待训练网页的网页特征与待训练网页对应的偏差值标签作为训练数据,其中,偏差值标签为待训练网页的点击特征与待训练网页所属站点的站点点击特征之间的偏差值;根据训练数据对初始模型进行训练生成点击特征偏差预测模型。
本实施例中,可以提取待训练网页的网页特征以及获取该待训练网页对应的偏差值标签,将其作为训练数据输入初始模型中进行训练,以使得训练后的模型可以根据网页特征输出与该网页特征对应的偏差值。其中,偏差值标签为待训练网页的点击特征与待训练网页所属站点的站点点击特征之间的偏差值。
可以理解的是,由于点击特征可以为点击率、末次点击率以及末次点击占比,则偏差值可以为待训练网页的点击率与待训练网页所属站点的站点点击率之间的偏差值,也可以为待训练网页的末次点击率与待训练网页所属站点的站点末次点击率之间的偏差值,还可以为待训练网页的末次点击占比与待训练网页所属站点的站点末次点击占比之间的偏差值。
在实际应用时,该偏差值可以为待训练网页的点击率减去待训练网页所属站点的站点点击率的差值。当偏差值为正值时,表明待训练网页的点击率高于待训练网页所属站点的站点点击率;当偏差值为负值时,表明待训练网页的点击率低于待训练网页所属站点的站点点击率。该偏差值可以为待训练网页的末次点击率减去待训练网页所属站点的站点末次点击率的差值。当偏差值为正值时,表明待训练网页的末次点击率高于待训练网页所属站点的站点末次点击率;当偏差值为负值时,表明待训练网页的末次点击率低于待训练网页所属站点的站点末次点击率。该偏差值可以为待训练网页的末次点击占比减去待训练网页所属站点的站点末次点击占比的差值。当偏差值为正值时,表明待训练网页的末次点击占比高于待训练网页所属站点的站点末次点击占比;当偏差值为负值时,表明待训练网页的末次点击占比低于待训练网页所属站点的站点末次点击占比。
例如,提取待训练网页的网页特征包括内容质量、用户浏览体验和访问流畅度,其中,内容质量为a、用户浏览体验为b、访问流畅度为c,该待训练网页对应的点击率偏差值标签为0.02,将上述待训练网页的网页特征以及偏差值标签0.02作为一条训练数据,然后根据大量训练数据对初始模型进行训练,生成点击特征偏差预测模型。当在利用点击特征偏差预测模型时,当输入网页的网页特征包括内容质量为a、用户浏览体验为b、访问流畅度为c,则可以输出该网页的点击率与该网页所属的站点点击率之间的偏差值。
另外,需要说明的是,由于点击特征可以包括点击率、末次点击率以及末次点击占比,则在训练初始模型时,可以针对所有点击特征训练一种点击特征偏差预测模型,也可以针对每一种点击特征分别训练不同的点击特征偏差预测模型,本实施例在此不做限定。
S402b:根据偏差值对搜索结果项对应的站点点击特征进行修正,将修正后的结果确定为搜索结果项对应的站点点击特征。
本实施例中,当获取搜索结果项的点击特征与搜索结果项对应的站点点击特征之间的偏差值后,根据偏差值对搜索结果项对应的站点点击特征进行修正,将修正后的搜索结果项对应的站点点击特征确定为该搜索结果项对应的站点点击特征,然后再执行S203,将搜索结果项对应的站点点击特征添加为搜索结果项的一项排序指标等步骤。
可以理解的是,当偏差值为正值,表明搜索结果项的点击特征高于搜索结果项的站点点击特征,则将搜索结果项的站点点击特征与偏差值相加,将其和值确定为该搜索结果项的站点点击特征。当偏差值为负值,表明搜索结果项的点击特征低于搜索结果项的站点点击特征,则将搜索结果项的站点点击特征与偏差值的绝对值相减,将其差值确定为该搜索结果项的站点点击特征。例如,获取的搜索结果项对应的站点末次点击率为0.3,当点击特征偏差预测模型输出的偏差值为0.02,则修正后的搜索结果项对应的站点末次点击率为0.32;当点击特征偏差预测模型输出的偏差值为-0.02,则修正后的搜索结果项对应的站点末次点击率为0.28。
通过本实施例提供的修正方法,可以对搜索结果项对应的站点点击特征进行修正,以利用修正后的搜索结果项对应的站点点击特征进行排序,从而提高排序的准确性。基于上述方法实施例,本申请还提供了一种搜索结果排序的装置,下面将结合附图对该装置进行说明。
参见图5,该图为本申请实施例提供的一种搜索结果排序的装置结构图,如图5所示,该装置可以包括:
接收单元501,用于接收客户端发送的搜索请求,确定所述搜索请求对应的搜索结果项;
第一获取单元502,用于获取所述搜索结果项对应的站点点击特征,所述搜索结果项对应的站点点击特征是根据所述搜索结果项对应网页所属站点所包括的网页的点击特征确定的;
排序单元503,用于将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标,对至少一个所述搜索结果项进行排序。
在一种可能的实现方式中,第一获取单元,包括:
第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的点击数据,计算每个所述待计算网页的点击特征;
第二计算子单元,用于根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征。
在一种可能的实现方式中,当所述站点点击特征为站点点击率时,
所述第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的点击次数以及总显示次数,计算每个所述待计算网页的点击率;
所述第二计算子单元,用于根据所述待计算网页的点击率,计算所述站点的点击率。
在一种可能的实现方式中,当所述站点点击特征为站点末次点击率时,
所述第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总显示次数,计算每个所述待计算网页的末次点击率;
所述第二计算子单元,用于根据所述待计算网页的末次点击率,计算所述站点的末次点击率。
在一种可能的实现方式中,当所述站点点击特征为站点末次点击占比时,
所述第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总点击次数,计算每个所述待计算网页的末次点击占比;
所述第二计算子单元,用于根据所述待计算网页的末次点击占比,计算所述站点的末次点击占比。
在一种可能的实现方式中,其特征在于,所述第一获取单元,还包括:
第三计算子单元,用于在执行所述第一计算子单元之后,执行所述第二计算子单元之前,计算每个所述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。
在一种可能的实现方式中,所述第一获取单元,包括:
查找子单元,用于查找预存的站点特征词典,其中,所述站点特征词典中保存有常用站点的点击特征;
获取子单元,用于若所述站点特征词典中存在所述搜索结果项对应网页所属站点,则依据所述站点特征词典查找得到所述搜索结果项对应网页所属站点的站点点击特征。
在一种可能的实现方式中,所述装置还包括:
生成单元,用于生成新版本的站点特征词典;
评估单元,用于对新版本的站点特征词典进行评估;
替换单元,用于当所述评估单元的评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典时,将预存的站点特征词典替换为所述新版本的站点特征词典。
在一种可能的实现方式中,所述评估单元,包括:
第一排序子单元,用于利用新版本的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第一排序结果;
第二排序子单元,用于利用预存的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第二排序结果;
第一确定子单元,用于若所述第一排序结果优于所述第二排序结果,则确定评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,用于在执行所述第一获取单元之后,执行所述排序单元之前,根据所述搜索结果项对应网页的网页特征,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
修正单元,用于根据所述偏差值对所述搜索结果项对应的站点点击特征进行修正,将修正结果确定为所述搜索结果项对应的站点点击特征,再执行所述排序单元。
在一种可能的实现方式中,所述第二获取单元,具体用于依据预先训练的点击特征偏差预测模型,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;所述点击特征偏差预测模型的训练过程包括:
提取待训练网页的网页特征;
将所述待训练网页的网页特征与所述待训练网页对应的偏差值标签作为训练数据,所述偏差值标签为所述待训练网页的点击特征与所述待训练网页所属站点的站点点击特征之间的偏差值;
根据所述训练数据对初始模型进行训练生成点击特征偏差预测模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6示出了一种实现报警的装置600的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
接收客户端发送的搜索请求,确定所述搜索请求对应的搜索结果项;
获取所述搜索结果项对应的站点点击特征,所述搜索结果项对应的站点点击特征是根据所述搜索结果项对应网页所属站点所包括的网页的点击特征确定的;
将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标,对至少一个所述搜索结果项进行排序。
可选的,所述获取所述搜索结果项对应的站点点击特征,包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的点击数据,计算每个所述待计算网页的点击特征;
根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征。
可选的,所述站点点击特征包括:站点点击率;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的点击次数以及总显示次数,计算每个所述待计算网页的点击率;
根据所述待计算网页的点击率,计算所述站点的点击率。
可选的,所述站点点击特征包括:站点末次点击率;所述获取搜索结果项对应的站点点击特征包括
针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总显示次数,计算每个所述待计算网页的末次点击率;
根据所述待计算网页的末次点击率,计算所述站点的末次点击率。
可选的,所述站点点击特征包括:站点末次点击占比;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总点击次数,计算每个所述待计算网页的末次点击占比;
根据待计算网页的末次点击占比,计算站点的末次点击占比。
可选的,在所述根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征之前,所述方法还包括:
计算每个所述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。
可选的,所述获取所述搜索结果项对应的站点点击特征,包括:
查找预存的站点特征词典,其中,所述站点特征词典中保存有常用站点的点击特征;
若所述站点特征词典中存在所述搜索结果项对应网页所属站点,则依据所述站点特征词典查找得到所述搜索结果项对应网页所属站点的站点点击特征。
可选的,所述方法还包括:
生成新版本的站点特征词典,并对新版本的站点特征词典进行评估;
当评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典时,将预存的站点特征词典替换为所述新版本的站点特征词典。
可选的,所述对新版本的站点特征词典进行评估,包括:
利用新版本的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第一排序结果;
利用预存的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第二排序结果;
若所述第一排序结果优于所述第二排序结果,则确定评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典。
可选的,在获取所述搜索结果项对应的站点点击特征之后,所述方法还包括:
根据所述搜索结果项对应网页的网页特征,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
根据所述偏差值对所述搜索结果项对应的站点点击特征进行修正,将修正后的结果确定为所述搜索结果项对应的站点点击特征,再执行将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标的步骤。
可选的,依据预先训练的点击特征偏差预测模型,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
所述点击特征偏差预测模型的训练过程包括:
提取待训练网页的网页特征;
将所述待训练网页的网页特征与所述待训练网页对应的偏差值标签作为训练数据,所述偏差值标签为所述待训练网页的点击特征与所述待训练网页所属站点的站点点击特征之间的偏差值;
根据所述训练数据训练生成所述点击特征偏差预测模型。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行报警的方法,所述方法包括:
接收客户端发送的搜索请求,确定所述搜索请求对应的搜索结果项;
获取所述搜索结果项对应的站点点击特征,所述搜索结果项对应的站点点击特征是根据所述搜索结果项对应网页所属站点所包括的网页的点击特征确定的;
将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标,对至少一个所述搜索结果项进行排序。
可选的,所述获取所述搜索结果项对应的站点点击特征,包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的点击数据,计算每个所述待计算网页的点击特征;
根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征。
可选的,所述站点点击特征包括:站点点击率;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的点击次数以及总显示次数,计算每个所述待计算网页的点击率;
根据所述待计算网页的点击率,计算所述站点的点击率。
可选的,所述站点点击特征包括:站点末次点击率;所述获取搜索结果项对应的站点点击特征包括
针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总显示次数,计算每个所述待计算网页的末次点击率;
根据所述待计算网页的末次点击率,计算所述站点的末次点击率。
可选的,所述站点点击特征包括:站点末次点击占比;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总点击次数,计算每个所述待计算网页的末次点击占比;
根据待计算网页的末次点击占比,计算站点的末次点击占比。
可选的,在所述根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征之前,所述方法还包括:
计算每个所述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。
可选的,所述获取所述搜索结果项对应的站点点击特征,包括:
查找预存的站点特征词典,其中,所述站点特征词典中保存有常用站点的点击特征;
若所述站点特征词典中存在所述搜索结果项对应网页所属站点,则依据所述站点特征词典查找得到所述搜索结果项对应网页所属站点的站点点击特征。可选的,所述方法还包括:
生成新版本的站点特征词典,并对新版本的站点特征词典进行评估;
当评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典时,将预存的站点特征词典替换为所述新版本的站点特征词典。
可选的,所述对新版本的站点特征词典进行评估,包括:
利用新版本的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第一排序结果;
利用预存的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第二排序结果;
若所述第一排序结果优于所述第二排序结果,则确定评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典。
可选的,在获取所述搜索结果项对应的站点点击特征之后,所述方法还包括:
根据所述搜索结果项对应网页的网页特征,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
根据所述偏差值对所述搜索结果项对应的站点点击特征进行修正,将修正后的结果确定为所述搜索结果项对应的站点点击特征,再执行将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标的步骤。
可选的,依据预先训练的点击特征偏差预测模型,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
所述点击特征偏差预测模型的训练过程包括:
提取待训练网页的网页特征;
将所述待训练网页的网页特征与所述待训练网页对应的偏差值标签作为训练数据,所述偏差值标签为所述待训练网页的点击特征与所述待训练网页所属站点的站点点击特征之间的偏差值;
根据所述训练数据训练生成所述点击特征偏差预测模型。
图7是本发明实施例中服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
终端700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (25)

1.一种搜索结果排序方法,其特征在于,所述方法包括:
接收客户端发送的搜索请求,确定所述搜索请求对应的至少一个搜索结果项;
获取所述搜索结果项对应的站点点击特征,所述搜索结果项对应的站点点击特征是根据所述搜索结果项对应网页所属站点所包括的网页的点击特征确定的;所述站点点击特征包括:站点点击率、站点末次点击率和/或站点末次点击占比;
根据所述搜索结果项对应网页的网页特征,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
根据所述偏差值对所述搜索结果项对应的站点点击特征进行修正,将修正后的结果确定为所述搜索结果项对应的站点点击特征;
将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标,对至少一个所述搜索结果项进行排序。
2.根据权利要求1所述的方法,其特征在于,所述获取所述搜索结果项对应的站点点击特征,包括:
针对所述搜索结果项对应网页所属站点包括的每个待计算网页,获取每个所述待计算网页的点击数据,计算每个所述待计算网页的点击特征;
根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征。
3.根据权利要求2所述的方法,其特征在于,当所述站点点击特征包括:站点点击率;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的点击次数以及总显示次数,计算每个所述待计算网页的点击率;
根据所述待计算网页的点击率,计算所述站点的点击率;
和/或,当所述站点点击特征包括:站点末次点击率;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总显示次数,计算每个所述待计算网页的末次点击率;
根据所述待计算网页的末次点击率,计算所述站点的末次点击率;
和/或,当所述站点点击特征包括:站点末次点击占比;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总点击次数,计算每个所述待计算网页的末次点击占比;
根据待计算网页的末次点击占比,计算站点的末次点击占比。
4.根据权利要求2或3所述的方法,其特征在于,在所述根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征之前,所述方法还包括:
计算每个所述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。
5.根据权利要求1所述的方法,其特征在于,所述获取所述搜索结果项对应的站点点击特征,包括:
查找预存的站点特征词典,其中,所述站点特征词典中保存有常用站点的点击特征;
若所述站点特征词典中存在所述搜索结果项对应网页所属站点,则依据所述站点特征词典查找得到所述搜索结果项对应网页所属站点的站点点击特征。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
生成新版本的站点特征词典,并对新版本的站点特征词典进行评估;
当评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典时,将预存的站点特征词典替换为所述新版本的站点特征词典。
7.根据权利要求6所述的方法,其特征在于,所述对新版本的站点特征词典进行评估,包括:
利用新版本的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第一排序结果;
利用预存的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第二排序结果;
若所述第一排序结果优于所述第二排序结果,则确定评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典。
8.根据权利要求1所述的方法,其特征在于,依据预先训练的点击特征偏差预测模型,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
所述点击特征偏差预测模型的训练过程包括:
提取待训练网页的网页特征;
将所述待训练网页的网页特征与所述待训练网页对应的偏差值标签作为训练数据,所述偏差值标签为所述待训练网页的点击特征与所述待训练网页所属站点的站点点击特征之间的偏差值;
根据所述训练数据训练生成所述点击特征偏差预测模型。
9.一种搜索结果排序装置,其特征在于,所述装置包括:
接收单元,用于接收客户端发送的搜索请求,确定所述搜索请求对应的搜索结果项;
第一获取单元,用于获取所述搜索结果项对应的站点点击特征,所述搜索结果项对应的站点点击特征是根据所述搜索结果项对应网页所属站点所包括的网页的点击特征确定的;所述站点点击特征包括:站点点击率、站点末次点击率和/或站点末次点击占比;
第二获取单元,用于根据所述搜索结果项对应网页的网页特征,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
修正单元,用于根据所述偏差值对所述搜索结果项对应的站点点击特征进行修正,将修正结果确定为所述搜索结果项对应的站点点击特征;
排序单元,用于将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标,对至少一个所述搜索结果项进行排序。
10.根据权利要求9所述的装置,其特征在于,所述第一获取单元,包括:
第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的点击数据,计算每个所述待计算网页的点击特征;
第二计算子单元,用于根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征。
11.根据权利要求10所述的装置,其特征在于,当所述站点点击特征为站点点击率时,
所述第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的点击次数以及总显示次数,计算每个所述待计算网页的点击率;
所述第二计算子单元,用于根据所述待计算网页的点击率,计算所述站点的点击率;
当所述站点点击特征为站点末次点击率时,
所述第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总显示次数,计算每个所述待计算网页的末次点击率;
所述第二计算子单元,用于根据所述待计算网页的末次点击率,计算所述站点的末次点击率;
当所述站点点击特征为站点末次点击占比时,
所述第一计算子单元,用于针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总点击次数,计算每个所述待计算网页的末次点击占比;
所述第二计算子单元,用于根据所述待计算网页的末次点击占比,计算所述站点的末次点击占比。
12.根据权利要求10或11所述的装置,其特征在于,所述第一获取单元,还包括:
第三计算子单元,用于在执行所述第一计算子单元之后,执行所述第二计算子单元之前,计算每个所述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。
13.根据权利要求9所述的装置,其特征在于,所述第一获取单元,包括:
查找子单元,用于查找预存的站点特征词典,其中,所述站点特征词典中保存有常用站点的点击特征;
获取子单元,用于若所述站点特征词典中存在所述搜索结果项对应网页所属站点,则依据所述站点特征词典查找得到所述搜索结果项对应网页所属站点的站点点击特征。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
生成单元,用于生成新版本的站点特征词典;
评估单元,用于对新版本的站点特征词典进行评估;
替换单元,用于当所述评估单元的评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典时,将预存的站点特征词典替换为所述新版本的站点特征词典。
15.根据权利要求14所述的装置,其特征在于,所述评估单元,包括:
第一排序子单元,用于利用新版本的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第一排序结果;
第二排序子单元,用于利用预存的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第二排序结果;
第一确定子单元,用于若所述第一排序结果优于所述第二排序结果,则确定评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典。
16.根据权利要求9所述的装置,其特征在于,所述第二获取单元,具体用于依据预先训练的点击特征偏差预测模型,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
所述点击特征偏差预测模型的训练过程包括:
提取待训练网页的网页特征;
将所述待训练网页的网页特征与所述待训练网页对应的偏差值标签作为训练数据,所述偏差值标签为所述待训练网页的点击特征与所述待训练网页所属站点的站点点击特征之间的偏差值;
根据所述训练数据对初始模型进行训练生成点击特征偏差预测模型。
17.一种用于搜索结果排序的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收客户端发送的搜索请求,确定所述搜索请求对应的搜索结果项;
获取所述搜索结果项对应的站点点击特征,所述搜索结果项对应的站点点击特征是根据所述搜索结果项对应网页所属站点所包括的网页的点击特征确定的;
根据所述搜索结果项对应网页的网页特征,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
根据所述偏差值对所述搜索结果项对应的站点点击特征进行修正,将修正后的结果确定为所述搜索结果项对应的站点点击特征;
将所述搜索结果项对应的站点点击特征添加为所述搜索结果项的一项排序指标,对至少一个所述搜索结果项进行排序。
18.根据权利要求17所述的装置,其特征在于,所述获取所述搜索结果项对应的站点点击特征,包括:
针对所述搜索结果项对应网页所属站点包括的每个待计算网页,获取每个所述待计算网页的点击数据,计算每个所述待计算网页的点击特征;
根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征。
19.根据权利要求18所述的装置,其特征在于,当所述站点点击特征包括:站点点击率;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的点击次数以及总显示次数,计算每个所述待计算网页的点击率;
根据所述待计算网页的点击率,计算所述站点的点击率;
和/或,当所述站点点击特征包括:站点末次点击率;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总显示次数,计算每个所述待计算网页的末次点击率;
根据所述待计算网页的末次点击率,计算所述站点的末次点击率;
和/或,当所述站点点击特征包括:站点末次点击占比;所述获取搜索结果项对应的站点点击特征包括:
针对站点包括的每个待计算网页,获取每个所述待计算网页的末次点击次数以及总点击次数,计算每个所述待计算网页的末次点击占比;
根据待计算网页的末次点击占比,计算站点的末次点击占比。
20.根据权利要求18或19所述的装置,其特征在于,所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在所述根据所述站点包括的待计算网页的点击特征,计算所述站点的点击特征之前,计算每个所述待计算网页的点击特征的置信区间下界值,将每个待计算网页的点击特征的置信区间下界值作为该待计算网页的点击特征。
21.根据权利要求17所述的装置,其特征在于,所述获取所述搜索结果项对应的站点点击特征,包括:
查找预存的站点特征词典,其中,所述站点特征词典中保存有常用站点的点击特征;
若所述站点特征词典中存在所述搜索结果项对应网页所属站点,则依据所述站点特征词典查找得到所述搜索结果项对应网页所属站点的站点点击特征。
22.根据权利要求21所述的装置,其特征在于,所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
生成新版本的站点特征词典,并对新版本的站点特征词典进行评估;
当评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典时,将预存的站点特征词典替换为所述新版本的站点特征词典。
23.根据权利要求22所述的装置,其特征在于,所述对新版本的站点特征词典进行评估,包括:
利用新版本的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第一排序结果;
利用预存的站点特征词典中的站点点击特征对生成的至少一个所述搜索结果项进行排序,获得第二排序结果;
若所述第一排序结果优于所述第二排序结果,则确定评估结果为所述新版本的站点特征词典优于所述预存的站点特征词典。
24.根据权利要求17所述的装置,其特征在于,所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据预先训练的点击特征偏差预测模型,获取所述搜索结果项对应网页的点击特征与所述搜索结果项对应的站点点击特征之间的偏差值;
提取待训练网页的网页特征;
将所述待训练网页的网页特征与所述待训练网页对应的偏差值标签作为训练数据,所述偏差值标签为所述待训练网页的点击特征与所述待训练网页所属站点的站点点击特征之间的偏差值;
根据所述训练数据训练生成所述点击特征偏差预测模型。
25.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至8中一个或多个所述的搜索结果排序的方法。
CN201910294469.3A 2019-04-12 2019-04-12 一种搜索结果排序方法及装置 Active CN110020206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910294469.3A CN110020206B (zh) 2019-04-12 2019-04-12 一种搜索结果排序方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910294469.3A CN110020206B (zh) 2019-04-12 2019-04-12 一种搜索结果排序方法及装置

Publications (2)

Publication Number Publication Date
CN110020206A CN110020206A (zh) 2019-07-16
CN110020206B true CN110020206B (zh) 2021-10-15

Family

ID=67191217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910294469.3A Active CN110020206B (zh) 2019-04-12 2019-04-12 一种搜索结果排序方法及装置

Country Status (1)

Country Link
CN (1) CN110020206B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417194A (zh) * 2021-12-30 2022-04-29 北京百度网讯科技有限公司 推荐系统排序方法、参数预测模型训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186574A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN104142999A (zh) * 2014-08-01 2014-11-12 百度在线网络技术(北京)有限公司 搜索结果展示方法及装置
CN108416609A (zh) * 2018-01-05 2018-08-17 阿里巴巴集团控股有限公司 广告灰度投放方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100619178B1 (ko) * 2003-03-19 2006-09-05 엔에이치엔(주) 인터넷 검색 엔진에 있어서의 무효 클릭 검출 방법 및 장치
US7761448B2 (en) * 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
CN101038596A (zh) * 2007-04-29 2007-09-19 北京搜狗科技发展有限公司 一种网站分类方法及系统
US20110054999A1 (en) * 2009-08-25 2011-03-03 Yahoo! Inc. System and method for predicting user navigation within sponsored search advertisements
US9183307B2 (en) * 2010-12-15 2015-11-10 Facebook, Inc. Comment ordering system
CN102193999A (zh) * 2011-05-09 2011-09-21 北京百度网讯科技有限公司 一种对搜索结果进行排序的方法及设备
CN103514178A (zh) * 2012-06-18 2014-01-15 阿里巴巴集团控股有限公司 一种基于点击率的搜索排序方法及装置
CN103678313B (zh) * 2012-08-31 2018-09-04 北京百度网讯科技有限公司 一种评估网页权威性的方法及装置
CN104750713A (zh) * 2013-12-27 2015-07-01 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法及装置
CN105205134B (zh) * 2015-09-15 2019-04-05 深信服网络科技(深圳)有限公司 识别用户点击访问网站行为的方法及装置
CN108205572A (zh) * 2016-12-20 2018-06-26 百度在线网络技术(北京)有限公司 一种搜索方法、装置及设备
CN107145508B (zh) * 2017-03-23 2020-06-05 广州要啦网络有限公司 网站数据处理方法、装置及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186574A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN104142999A (zh) * 2014-08-01 2014-11-12 百度在线网络技术(北京)有限公司 搜索结果展示方法及装置
CN108416609A (zh) * 2018-01-05 2018-08-17 阿里巴巴集团控股有限公司 广告灰度投放方法及装置

Also Published As

Publication number Publication date
CN110020206A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
US11106709B2 (en) Recommendation method and device, a device for formulating recommendations
CN108121736B (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN110232137B (zh) 一种数据处理方法、装置和电子设备
CN109933714B (zh) 一种词条权重的计算方法、搜索方法及相关装置
WO2017181663A1 (zh) 一种为搜索信息匹配图片的方法及装置
CN112445970B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN107315487B (zh) 一种输入处理方法、装置及电子设备
CN107291772B (zh) 一种搜索访问方法、装置及电子设备
CN112784142A (zh) 一种信息推荐方法及装置
CN106815291B (zh) 搜索结果项展现方法、装置和用于搜索结果项展现的装置
CN112148923B (zh) 搜索结果的排序方法、排序模型的生成方法、装置及设备
US20160241674A1 (en) Method and device of filtering address
CN112307281A (zh) 一种实体推荐方法及装置
CN110020206B (zh) 一种搜索结果排序方法及装置
CN112768064A (zh) 疾病预测装置及设备、症状信息处理方法、装置及设备
CN109918565B (zh) 一种搜索数据的处理方法、装置及电子设备
CN109901726B (zh) 一种候选词生成方法、装置及用于候选词生成的装置
CN113343028B (zh) 意图确定模型的训练方法和装置
CN107515853B (zh) 一种细胞词库推送方法及装置
CN112052395B (zh) 一种数据处理方法及装置
CN111324805B (zh) 查询意图确定方法及装置、搜索方法及搜索引擎
CN110147426B (zh) 一种查询文本的分类标签确定方法及相关装置
CN110020153B (zh) 一种搜索方法及装置
CN113378022A (zh) 一种站内搜索平台、搜索方法和相关装置
CN107870941B (zh) 一种网页排序方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant