CN108536716B - 搜索结果处理方法、装置及服务器 - Google Patents

搜索结果处理方法、装置及服务器 Download PDF

Info

Publication number
CN108536716B
CN108536716B CN201710130712.9A CN201710130712A CN108536716B CN 108536716 B CN108536716 B CN 108536716B CN 201710130712 A CN201710130712 A CN 201710130712A CN 108536716 B CN108536716 B CN 108536716B
Authority
CN
China
Prior art keywords
search
search result
bad
click
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710130712.9A
Other languages
English (en)
Other versions
CN108536716A (zh
Inventor
侯守虎
张驰
蔡明宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN201710130712.9A priority Critical patent/CN108536716B/zh
Publication of CN108536716A publication Critical patent/CN108536716A/zh
Application granted granted Critical
Publication of CN108536716B publication Critical patent/CN108536716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种搜索结果处理方法、装置及服务器,属于计算机技术领域。本搜索结果处理方法在获取到搜索词、搜索词的搜索次数及与搜索词对应的多个搜索结果的特征信息后;根据搜索次数及特征信息获取每个搜索结果的有效值;根据每个搜索结果的有效值构建对应于搜索词的第一搜索结果序列;根据搜索词对应的搜索页面中每个搜索结果的展现位置构建对应于搜索词的第二搜索结果序列;对比第一搜索结果序列和第二搜索结果序列,得到多个搜索结果中的坏例。本搜索结果处理方法能够实现与搜索词对应的多个搜索结果中坏例的自动挖掘,节省了大量的人力,提高了坏例挖掘效率。

Description

搜索结果处理方法、装置及服务器
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种搜索结果处理方法、装置及服务器。
背景技术
用户在搜索引擎中搜索搜索词(query)时,有时会出现一些不符合搜索意图、低质、与真实页面不相关、死链接等搜索结果,这部分搜索结果可以称为坏例(badcase)。badcase的存在极大地影响了搜索质量即用户搜索满意度。目前,badcase主要是通过用户反馈或内部工作人员自测等方式发现,例如,人工搜索多个热门query和随机query,查找这些query对应的搜索结果中的坏例。这种方式需要花费大量的时间和人力,且发现的badcase有限,效率低下。此外,这种方式完全依靠人工,比较被动,无法及时发现搜索页面中的badcase并对其进行调整。
发明内容
有鉴于此,本发明的目的在于提供一种搜索结果处理方法、装置及服务器,以改善现有的坏例发现方法存在的效率低下的问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种搜索结果处理方法,所述方法包括:获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值;根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例。
第二方面,本发明实施例还提供了一种搜索结果处理装置,所述装置包括:第一获取模块、第二获取模块、第一构建模块、第二构建模块以及对比模块。其中,第一获取模块,用于获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息。第二获取模块,用于根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值。第一构建模块,用于根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列。第二构建模块,用于根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列。对比模块,用于对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例。
第三方面,本发明实施例还提供了一种服务器,所述服务器包括处理器以及存储器,所述存储器耦接到所述处理器。所述存储器存储指令,当所述指令由所述处理器执行时使所述服务器执行以下操作:获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值;根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例。
本发明实施例提供的搜索结果处理方法、装置及服务器,能够实现与搜索词对应的多个搜索结果中坏例的自动挖掘,节省了大量的人力,提高了坏例挖掘效率。此外,相比于现有的比较被动的人工挖掘方式,有利于快速发现搜索页面中的坏例以及时对其进行处理。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了一种可应用于本发明实施例的服务器的结构框图;
图2示出了本发明第一实施例提供的搜索结果处理方法的方法流程图;
图3示出了本发明第一实施例提供的搜索结果处理方法中步骤S102的流程图;
图4示出了本发明第二实施例提供的搜索结果处理方法的方法流程图;
图5示出了本发明第三实施例提供的搜索结果处理方法的方法流程图;
图6示出了本发明第三实施例提供的搜索结果处理方法中策略过滤步骤的流程图;
图7示出了本发明第四实施例提供的搜索结果处理装置的功能模块框图;
图8示出了本发明第五实施例提供的搜索结果处理装置的功能模块框图;
图9示出了本发明第六实施例提供的搜索结果处理装置的功能模块框图。
具体实施方式
图1示出了一种可应用于本发明实施例中的服务器的结构框图。如图1所示,服务器100包括:存储器110、处理器120以及网络模块130。
存储器110可用于存储软件程序以及模块,如本发明实施例中的搜索结果处理方法及装置对应的程序指令/模块,处理器120通过运行存储在存储器110内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现本发明实施例中的搜索结果处理方法。存储器110可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。
网络模块130用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。
可以理解,图1所示的结构仅为示意,服务器100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
需要说明的是,本发明实施例提供的搜索结果处理方法及装置除了应用于服务器外,还可以应用于其它终端设备。下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一实施例
图2示出了本发明第一实施例提供的一种搜索结果处理方法的流程图,请参阅图2,所述方法包括:
步骤S101,获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;
搜索词,即query,为用户在搜索引擎中输入的搜索词语或句子。当用户在搜索引擎中输入搜索词时,将展现搜索页面,搜索页面中包括多个搜索结果,每个搜索结果均具有相应的特征信息。本实施例中,特征信息具体可以包括但不限于展现次数、展现位置以及点击数据。例如,除此之外,特征信息还可以包括搜索结果的标题、展现URL等用于标识搜索结果的信息。
其中,该搜索词的每一次搜索均对应于一个搜索页面,展现次数为该搜索结果出现在该搜索词对应的搜索页面中的次数,例如,该搜索词的搜索次数为3,则对应3个搜索页面,假设某搜索结果在3个搜索页面中均出现,则该搜索结果的展现次数为3。
展现位置表示搜索结果在该搜索词的每一次搜索的搜索页面中的排列位置。例如,该搜索词的搜索次数为3,第一次搜索该搜索词时对应的搜索页面中也有10条依次排列的搜索结果,其中,某搜索结果排在第5位;第二次搜索该搜索词时对应的搜索页面中也有10条依次排列的搜索结果,该搜索结果排在第5位;第三次搜索该搜索词时对应的搜索页面中也有10条依次排列的搜索结果,该搜索结果排在第2位。此时,该搜索结果在该搜索词对应的三次搜索中的排列位置分别为5,5,2。
点击数据包括第一点击量和第二点击量。其中,第一点击量为与上述搜索词对应的每个搜索结果被用户点击的次数。第二点击量为上述搜索词的多次搜索中与该搜索词对应的每个搜索结果为用户最后点击的搜索结果的次数。例如,该搜索词的某搜索页面包括依次排列的搜索结果S1、搜索结果S2、搜索结果S3、……,某用户先点击了搜索结果S1,然后又点击了搜索结果S2,且对搜索结果S2的点击为对当前次搜索的搜索页面中的搜索结果的最后一次点击,则搜索结果S1和搜索结果S2的第一点击量均加1,且仅搜索结果S2的第二点击量加1。
于本实施例的一种实施方式中,获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息的具体方式可以为:根据spark算法,从用户搜索日志中获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息。当然,除了采用spark算法外,也可以采用其他的分布式计算方式。
步骤S102,根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值;
根据搜索次数、每个搜索结果的第一点击量、每个搜索结果的第二点击量、每个搜索结果的展现次数以及搜索词对应的搜索页面中每个搜索结果的展现位置得到每个搜索结果的有效值。通过每个搜索结果的有效值反映用户对每个搜索结果的满意度,以得到该搜索词对应的搜索结果在搜索页面中的理想排列位置。
作为一种实施方式,如图3所示,步骤S102具体可以包括步骤S1021、步骤S1022、步骤S1023以及步骤S1024。
步骤S1021,根据每个所述搜索结果的展现次数以及在每次展现该搜索结果的搜索页面中的展现位置获取每个所述搜索结果的加权展现次数。
可以理解的是,实际影响用户对搜索的满意度的应该是用户实际浏览到的搜索结果,而搜索结果在搜索页面中展现并不表示该搜索结果实际被用户浏览到。例如,用户对搜索词的某次搜索页面中展现了依次排列的10个搜索结果,用户依次浏览,浏览到感觉符合搜索需求的搜索结果时,点击该搜索结果查看该搜索结果的具体内容,若该搜索结果的具体内容无法达到搜索需求,继续浏览下一条搜索结果,以此类推,当浏览到第5个搜索结果时找到了满意的信息,进而结束了当次搜索。此时,第1个至第5个搜索结果被用户浏览,而第6个至第10个搜索结果即使在搜索页面中展现,但可能并没有被用户浏览到。因此,本实施例中通过用户的对搜索结果的点击情况模拟用户的流量。具体的,根据每个搜索结果的展现次数以及每个搜索结果在每次展现该搜索结果的搜索页面中的展现位置获取每个搜索结果的加权展现次数。加权展现次数即为搜索结果实际被浏览的次数。
具体的,可以根据公式:
Figure BDA0001239267600000071
获取每个搜索结果的加权展现次数。其中,m表示当前搜索结果的展现次数,i为1至m的整数,psc(i)表示在第i次展现当前搜索结果的搜索页面中,当前搜索结果所对应的展现位置,pmax(i)表示在第i次展现当前搜索结果的搜索页面中,位于被点击的搜索结果最末端的搜索结果所对应的展现位置。
例如,当前搜索结果的展现次数为3。在第1次展现当前搜索结果的搜索页面中,包括依次排列的10个搜索结果,当前搜索结果所对应的展现位置为4,即psc(1)=4,且该搜索页面中仅排在第一位、第二位以及第五位的搜索结果被用户点击,此时,位于被点击的搜索结果最末端的搜索结果所对应的展现位置为5,即pmax(1)=5。在第2次展现当前搜索结果的搜索页面中,也包括依次排列的10个搜索结果,当前搜索结果所对应的展现位置仍为4,即psc(2)=4,且该搜索页面中仅排在第二位以及第六位的搜索结果被用户点击,此时,位于被点击的搜索结果最末端的搜索结果所对应的展现位置为6,即pmax(2)=6。在第3次展现当前搜索结果的搜索页面中,包括依次排列的10个搜索结果,当前搜索结果所对应的展现位置为5,即psc(3)=5,且该搜索页面中仅排在第一位以及第三位的搜索结果被用户点击,此时,位于被点击的搜索结果最末端的搜索结果所对应的展现位置为3,即pmax(3)=3。此时,当前搜索结果的加权展现次数为:
Figure BDA0001239267600000072
同理,可以获得每个搜索结果的加权展现次数。
步骤S1022,根据预设的分频权重、预设的零值权重、每个所述搜索结果的第一点击量及每个所述搜索结果的所述加权展现次数得到每个所述搜索结果的第一相关系数,其中,所述分频权重根据所述搜索词对应的搜索次数及预设分频规则设置。
每个搜索结果的第一点击量为衡量用户对该搜索结果的满意度的主要因素。需要说明的是,对于两个不同的搜索词,在其分别对应的搜索结果的第一点击量相同但两个搜索词搜索次数不同的情况下,该第一点击量对用户的搜索满意度的影响是不同的。例如,搜索词A被搜索了100次,搜索词B被搜索了1000次,而用户对100次搜索中搜索词A对应的搜索页面的某搜索结果A1的第一点击量与用户对1000次搜索中搜索词B对应的搜索页面的某搜索结果B1的第一点击量相同,尽管搜索结果A1和搜索结果B1的第一点击量是相同的,但是由于搜索词A和搜索词B的搜索次数具有较大差异,该第一点击量所反映的用户对搜索结果A1的满意度和该第一点击量所反映的用户对搜索结果B1的满意度是不同的。由此,本实施例中,通过设置分频权重表示搜索次数对用户的搜索满意度的影响。具体的,分频权重可以根据多次试验设置。
搜索次数反映了用户对该搜索词的搜索频次。本实施例中,根据预设分频规则可以将搜索词的搜索次数划分为低频、中频和高频。当然,也可以采用其他划分方式。预设分频规则可以根据具体需要设置。例如,预设分频规则可以为:高频:pv≥1000;中频:50<pv<1000;低频:0<pv≤50,其中,pv表示搜索次数。对于高频搜索词,分频权重可以设置为100,对于中频搜索词,分频权重可以设置为pv/10;对于低频搜索词,分频权重可以设置为5。
进一步,由于位于不同展现位置的搜索结果,在第一点击量均为零的情况下,所反映的用户搜索满意度也应该是不同的。因此,为了使得本实施例提供的搜索结果的有效值能够更准确地反映用户对该搜索结果的满意度,本实施例通过预先设置的零值权重以区分第一点击量为零对位于不同展现位置的搜索结果的有效值的影响。例如,搜索词A对应的搜索页面中包括100个依次排列的搜索结果,搜索页面中展现位置为10的搜索结果A10和展现位置为100的搜索结果A100的第一点击量均为0,此时,搜索结果A10和搜索结果A100的有效值是不同的。具体的,零值权重可以根据多次试验设置。
进一步,可以根据公式:
Figure BDA0001239267600000091
得到每个搜索结果与该搜索结果对应的搜索词的第一相关系数。其中,click表示当前搜索结果的第一点击量,r_zero表示上述的零值权重,exam表示通过步骤S1021得到的当前搜索结果的加权展现次数,pv_weight表示上述的分频权重。
需要说明的是,第一点击量与加权展现次数的比值
Figure BDA0001239267600000092
表示了该搜索结果被用户点击的次数在该搜索结果实际被用户浏览到的次数中的占比,能够从用户对该搜索结果在对应的搜索页面中的展示内容例如标题等的感知上反映该搜索结果与搜索词的相关性,即通过该搜索结果的感知相关性反映用户对该搜索结果的满意度。进一步,通过设置分频权重和零值权重能够更有效地区分上述两种情况下搜索结果的第一相关系数。
步骤S1023,根据所述分频权重、所述零值权重、每个所述搜索结果的所述第一点击量及每个所述搜索结果的第二点击量得到每个所述搜索结果的第二相关系数。
可以理解的是,搜索结果的第一点击量反映了用户通过对该搜索结果在对应的搜索页面中的展示内容例如标题等的感知,选择点击该搜索结果的次数。然而,用户点击了该搜索结果并不能表示该搜索结果满足用户的需要,在当次点击查看的搜索结果不满足用户需要时,用户将重新点击其他从感知上满足需要的搜索结果,直至找到所需要的搜索结果。通常情况下,某次搜索对应的搜索页面中,用户可能对多个搜索结果分别进行了点击操作,上述的多次点击操作中,最后点击的搜索结果通常为用户所需要的搜索结果。因此,每个搜索结果的第二点击量在第一点击量中的占比能够真实地反映该搜索结果与其对应的搜索词的相关性,即通过该搜索结果的真实相关性反映用户对该搜索结果的满意度。
进一步,通过设置分频权重和零值权重能够更有效地区分上述两种情况下搜索结果的第二相关系数。
具体的,本实施例中可以根据公式:
Figure BDA0001239267600000101
得到每个搜索结果的第二相关系数。其中,last_click表示当前搜索结果的第二点击量,click表示当前搜索结果的第一点击量。
步骤S1024,根据所述第一相关系数和所述第二相关系数得到每个所述搜索结果的有效值。
根据步骤S1022以及步骤S1023分别得到搜索结果的第一相关系数和第二相关系数后,进一步根据第一相关系数和第二相关系数得到该搜索结果的有效值,即结合每个搜索结果的感知相关性以及真实相关性得到该搜索结果的有效值,从而通过每个搜索结果的有效值反映该搜索结果的用户搜索满意度。
具体的,可以预先设置第一相关系数对应的第一权值和第二相关系数对应的第二权重,进一步对第一相关系数和第二相关系数进行加权求和得到每个搜索结果的有效值。其中,第一权重和第二权重可以根据预期的效果以及多次试验的实验数据反复验证优化得到。例如,当本实施例提供的搜索结果处理方法的预期效果为badcase挖掘准确率达到80%以上,实验数据badcase召回率达到90%以上时,第一权重的取值可以为0.6,第二权重的取值可以为0.4。
因此,根据公式:u·ξ+v·η即可以得到每个搜索结果的有效值,其中,ξ表示第一相关系数,η表示第二相关系数,u表示预设的第一权重,v表示预设的第二权重。
也就是说,本实施例中,假设将搜索结果的有效值表示为effect_value,可以根据下式得到每个搜索结果的effect_value。
Figure BDA0001239267600000111
步骤S103,根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;
获取到每个搜索结果的有效值后,根据每个搜索结果的有效值构建第一搜索结果序列。第一搜索结果序列中,搜索结果优选按照有效值由大到小的顺序排列。需要说明的是,搜索结果对应的有效值越大,则表明用户对该搜索结果的满意度越高。也就是说,第一搜索结果序列中各搜索结果的排列位置可以表示各搜索结果在对应搜索页面中的理想展现位置。
步骤S104,根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;
搜索页面中,搜索结果依次排列,每个搜索结果的排列位置即为该搜索结果在搜索页面中的展现位置。因此,根据每个搜索结果的展现位置构建的第二搜索结果序列即表示各搜索结果的实际展现位置。
需要说明的是,由于搜索结果在所述搜索词的不同次搜索对应的搜索页面中的展现位置可能不同。因此,本实施例中,根据搜索词对应的搜索页面中每个搜索结果的展现位置构建对应于该搜索词的第二搜索结果序列的具体方式可以为:根据搜索词的每次搜索对应的搜索页面中,每个搜索结果的展现位置的平均值构建对应于该搜索词的第二搜索结果序列,且第二搜索结果序列中,各个搜索结果按照其展现位置的平均值由小到大排列。例如,搜索词A的搜索次数为三次,搜索词A对应的搜索结果A1在对搜索词A的第一次搜索对应的搜索页面Y1中,展现位置为N1,在对搜索词A的第二次搜索对应的搜索页面Y2中,展现位置为N2,在对搜索词A的第三次搜索对应的搜索页面Y3中,展现位置为N3,此时该搜索结果A1在第二搜索结构序列中的排列位置由(N1+N2+N3)/3的大小决定。
当然,除了上述方式外,也可以采用其他方式构建对应于该搜索词的第二搜索结果序列。例如,也可以根据搜索词的每次搜索对应的搜索页面中,每个搜索结果的展现位置的最大值或最小值构建对应于该搜索词的第二搜索结果序列,且第二搜索结果序列中,各个搜索结果按照其展现位置的平均值由小到大排列。
步骤S105,对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例。
由于第一搜索结果序列中各搜索结果的排列位置反映了各搜索结果的理想展现位置,第二搜索结果序列中各搜索结果的排列位置反映了各搜索结果的实际展现位置。因此,对比每个搜索结果在第一搜索结果序列中的排列位置和在第二搜索结果序列中的排列位置,在第二搜索结果序列中排列靠前,但在第一搜索结果序列中排列靠后的搜索结果即为本实施例所要查找的坏例(badcase)。
具体的,将每个搜索结果在第一搜索结果序列中的排列位置与在第二搜索结果序列中的排列位置之间的差值作为该搜索结果的伤害值。假设将每个搜索结果在第一搜索结果序列中的排列位置表示为effect_rank,在第二搜索结果序列中的排列位置表示为pos_rank,伤害值表示为damage_value,则damage_value=effect_rank-pos_rank。
进一步,将该搜索结果的伤害值与预设的伤害阈值进行比较,若该搜索结果的伤害值大于伤害阈值,则判定该搜索结果为坏例,若该搜索结果的伤害值小于或等于伤害阈值,则判定该搜索结果不是坏例。具体的伤害阈值可以根据需要设置。例如,伤害阈值可以为2,若某搜索结果在第一搜索结果序列中的排列位置为5,在第二搜索结果序列中的排列位置为2,该搜索结果的伤害值为3,则表明该搜索结果为坏例。
另外,若某搜索结果在第一搜索结果序列中的排列位置与在第二搜索结果序列中的排列位置之间的差值为负值,则说明该搜索结果在其对应的搜索页面中的实际排列位置大于理想排列位置。这种情况下,若该差值的绝对值大于上述伤害阈值,也可以对该搜索结果进行标记,以便于后续可以对该搜索结果在其对应的搜索页面中的展现位置进行调整。
本发明实施提供的搜索结果处理方法能够实现与搜索词对应的多个搜索结果中坏例的自动挖掘,节省了大量的人力,提高了坏例挖掘效率。此外,相比于现有的比较被动的人工挖掘方式,有利于快速发现搜索页面中的坏例以及时对其进行处理。
第二实施例
图4示出了本发明第二实施例提供的一种搜索结果处理方法的流程图,请参阅图4,所述方法包括:
步骤S201,获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;
步骤S202,根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值;
步骤S203,根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;
步骤S204,根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;
步骤S205,对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例;
需要说明的是,上述步骤S201、步骤S202、步骤S203、步骤S204以及步骤S205与第一实施例中的步骤S101、步骤S102、步骤S103、步骤S104以及步骤S105相同,具体实施方式可以对应参照上述第一实施例中的相应内容,此处不再赘述。
步骤S206,获取得到的所述坏例在所述第二搜索结果序列中的排列位置,根据该排列位置在所述第一搜索结果序列中查找位于该排列位置的搜索结果,作为该坏例对应的优例。
通过上述步骤S201至步骤S205得到所述搜索词对应多个搜索结果的坏例后,可以进一步根据每个坏例在第二搜索结果序列中的排列位置,在第一搜索结果序列中查找位于该排列位置的搜索结果,作为该坏例对应的优例(bettercase),以便于后续对坏例的处理。例如,可以线上对坏例在其对应的当前搜索页面中的展现位置进行调整,将所述搜索词对应的当前搜索页面中,每个坏例与该坏例对应的优例的排列位置即展现位置进行对换,以提高用户的搜索满意度。
本发明实施提供的搜索结果处理方法能够实现与搜索词对应的多个搜索结果中坏例的自动挖掘,节省了大量的人力,提高了坏例挖掘效率。此外,相比于现有的比较被动的人工挖掘方式,有利于快速发现搜索页面中的坏例以及时对其进行处理。并在搜索结果中挖掘出坏例的同时,给出所述关键词对应的搜索页面中与每个坏例对应的优例,能够直接应用于该搜索页面中搜索结果展现位置的线上调整,提高调整精度。
第三实施例
图5示出了本发明第三实施例提供的一种搜索结果处理方法的流程图,请参阅图5,所述方法包括:
步骤S301,获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;
步骤S302,根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值;
步骤S303,根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;
步骤S304,根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;
步骤S305,将每个所述搜索结果在所述第一搜索结果序列中的排列位置与在所述第二搜索结果序列中的排列位置之间的差值作为该搜索结果的伤害值,将该搜索结果的伤害值与预设的伤害阈值进行比较,若该搜索结果的伤害值大于所述伤害阈值,判定该搜索结果为坏例。
需要说明的是,上述步骤S301、步骤S302、步骤S303、步骤S304以及步骤S305的具体实施方式可以对应参照上述第一实施例中步骤S101、步骤S102、步骤S103、步骤S104以及步骤S105中的相应内容,此处不再赘述。
完成上述步骤S301至步骤S305后,为了得到更优的坏例挖掘结果,可以进一步对上述步骤S305所得到的坏例进行策略过滤处理。具体的,如图6所示,本发明实施例提供的过滤策略主要包括步骤S306执行的第一过滤策略,步骤S307、步骤S308以及步骤S309执行的第二过滤策略,步骤S310执行的第三过滤策略,步骤S311执行的第四过滤策略,步骤S312执行的第五过滤策略,步骤S313执行的第六过滤策略,步骤S314执行的第七过滤策略以及步骤S315执行的第八过滤策略。需要说明的是,本发明实施例提供的搜索结果处理方法可以包括上述的八种过滤策略中的一种或多种,当然,也可以包括除上述八种过滤策略之外的其它能够应用于本发明实施例的过滤策略。可以理解的是,当本发明实施例提供的搜索结果处理方法包括以上八种过滤策略时,能够得到较优的坏例挖掘结果。下面将对本发明实施例提供的过滤策略进行说明。
步骤S306,若所述第二搜索结果序列中排列位置为预设位置处的搜索结果为坏例,将该坏例对应的所述伤害值乘以预设的惩罚系数,以更新该坏例对应的所述伤害值。
本实施例中,预设位置以及该预设位置对应的预设惩罚系数可以根据需要设置。经过多次试验表明,第二搜索结果序列中排列位置为第一位或第二位的搜索结果若为坏例,对用户的搜索满意度的影响远大于排列位置为第三位以及第三位以后的搜索结果为坏例对用户的搜索满意度的影响。
因此,作为一种实施方式,上述预设位置可以设置为第一位或第二位。此时,若第二搜索结果序列中排列位置为第一位处的搜索结果为坏例,将该坏例对应的伤害值乘以预设的第一惩罚系数;若第二搜索结果序列中排列位置为第二位处的搜索结果为坏例,将该坏例对应的伤害值乘以预设的第二惩罚系数。第一惩罚系数和第二惩罚系数可以根据多次试验设置,可以理解的是,第一惩罚系数和第二惩罚系数均大于1,且第一惩罚系数大于第二惩罚系数。例如,可以将第一惩罚系数设置为1.5,将第二惩罚系数设置为1.2。
当然,除了上述实施方式外,也可以根据需要将第三位或其它位置也设置为预设位置,并分别设置相应的惩罚系数。
通过所设置的惩罚系数对位于预设位置处的坏例对应的伤害值进行更新,增大该位置处的坏例对应的伤害值,能够有效地保证该位置处的坏例被优先挖掘出。
进一步的,若第二搜索结果序列中排在第一位的搜索结果的第一点击量在该第二搜索序列对应的搜索词的总点击量中的占比大于预设的第一阈值,并且第二搜索结果序列中排在第一位的搜索结果的第二点击量在该搜索结果的第一点击量中的占比大于预设的第二阈值,表示该搜索词的绝大部分点击被该搜索结果占据,且该搜索结果完全满足用户需求,第二搜索结果序列中排在该搜索结果后面的搜索结果几乎没有被点击,即使是这些搜索结果为坏例对用户搜索满意度也影响不大,故可以将此类坏例过滤掉。具体实施方法包括以下步骤S307、步骤S308以及步骤S309。
步骤S307,获取所述第二搜索结果序列中排在第一位的搜索结果的第一点击量和第二点击量;
步骤S308,获取所述第二搜索结果序列中所有搜索结果的所述第一点击量之和作为总点击量;
于本步骤中,所得到的总点击量即为所述第二搜索结果序列对应的搜索词对应的总点击量。
步骤S309,若所述第二搜索结果序列中排在第一位的搜索结果的所述第一点击量与所述总点击量之间的比值大于预设的第一阈值,且所述第二搜索结果序列中排在第一位的搜索结果的所述第二点击量与该搜索结果的所述第一点击量之间的比值大于预设的第二阈值,将所得到的所述坏例均过滤掉。
其中,第一阈值和第二阈值可以根据实际需要设置。例如,本实施例中,第一阈值可以设置为0.8,第二阈值可以设置为0.9,此时,若第二搜索结果序列中排在第一位的搜索结果的第一点击量与总点击量之间的比值大于0.8,且该搜索结果的第二点击量与该搜索结果的第一点击量之间的比值大于0.9,则表示上述步骤S305所得到的坏例对用户的搜索满意度影响较小,可以不对这些坏例进行处理。
进一步的,还可以通过以下步骤S310、步骤S311以及步骤S312过滤掉上述步骤S305中由于点击作弊导致的坏例。其中,步骤S310用于过滤中、高频点击作弊导致的坏例;步骤S311用于过滤低频点击作弊导致的坏例;步骤S312用于过滤总点击量过低导致的坏例。
步骤S310,若当前坏例的所述第一点击量与所述总点击量之间的比值大于预设的第三阈值,且所述当前坏例的所述第二点击量与所述当前坏例的第一点击量之间的比值大于预设的第四阈值,将所述当前坏例过滤掉。
当上述步骤S305挖掘出的坏例的第一点击量在上述总点击量中的占比大于预设的第三阈值,并且该坏例的第二点击量在该坏例的第一点击量中的占比大于预设的第四阈值时,该坏例在第一搜索结果序列中的排列位置不可能太靠后,更大的可能是由于其它搜索结果有点击作弊,导致有点击作弊的搜索结果的有效值较高,从而影响了坏例的挖掘。因此,上述步骤S305挖掘出的坏例中,满足步骤S310的坏例这类坏例需要过滤掉。
其中,第三阈值和第四阈值可以根据实际需要设置。例如,本实施例中,第三阈值可以设置为0.6,第四阈值可以设置为0.9。此时,当上述步骤S305挖掘出的坏例的第一点击量在上述总点击量中的占比大于0.6,并且该坏例的第二点击量在该坏例的第一点击量中的占比大于0.9时,将该坏例过滤掉。
步骤S311,获取每个所述搜索结果的第一点击量和第二点击量之间的比值,若该比值大于预设的第五阈值的搜索结果的数量在所有所述搜索结果中的占比大于或等于预设的第六阈值,将所得到的所述坏例均过滤掉。
对于一些点击频率较低的搜索词,可能存在点击作弊的情况。存在低频点击作弊的搜索词对应的大部分搜索结果的第一点击量分布均匀,且这些搜索结果的第二点击量在第一点击量中的占比都比较高。当搜索词的点击情况满足上述低频点击作弊的条件时,将上述步骤S305挖掘出的坏例过滤掉。其中,第五阈值和第六阈值可以根据实际需要设置。例如,本实施例中,第五阈值可以设置为0.9,第六阈值可以设置为80%。此时,若某搜索词对应的多个搜索结果中,有80%或者80%以上的搜索结果的第二点击量在第一点击量中的占比大于0.9,则该搜索词为存在低频点击作弊的搜索词。
步骤S312,若所述总点击量与所述搜索次数之间的比值小于预设的第七阈值,将所得到的所述坏例均过滤掉。
若某搜索词的总点击量在该搜索词的搜索次数中的占比小于预设的第七阈值,表明该搜索词的总点击量过低,该搜索词有刷词嫌疑。对于此类搜索词,用户以浏览为主,点击特征不明显,有效值置信度较低,因此需要过滤掉。其中,第七阈值可以根据实际需要设置。例如,本实施例中,第七阈值可以设置为0.1。
步骤S313,若所述坏例的展现次数小于预设的第八阈值,将该坏例过滤掉。
由于系统故障或者策略小流量上线测试等原因,会造成某些低质的搜索结果排序很高,但这些搜索结果的展现时间比较短,对线上影响有限,也可以过滤掉。具体的,可以通过获取上述步骤S305挖掘出的坏例的展现次数,若当前坏例的展现次数小于预设的第八阈值,说明该坏例为系统故障或者策略小流量上线测试等原因造成的,可以将该坏例过滤掉。其中,第八阈值可以根据实际需要设置,例如,本实施例中,第八阈值可以设置为该坏例对应的搜索词的搜索次数的0.1倍。
步骤S314,获取所得到的每个所述坏例的类别信息,若该坏例的所述类别信息属于预设类别,按照预设规则对该坏例进行过滤。
获取上述步骤S305挖掘出的每个坏例的类别信息的具体方式可以为:搜索结果的特征信息中可以包括其类别信息,从而可以直接从坏例的特征信息中提取该坏例的类别信息。需要说明的是,对于具有类别标识的搜索结果,可以获取该搜索结果的类别标识作为其类别信息;对于不具有类别标识的坏例,可以获取该搜索结果的关键词作为类别信息。
当类别信息为类别标识时,也以将当前坏例的类别标识与预设类别的标识进行匹配,当匹配成功时,表明该坏例的类别属于预设类别。当类别信息为坏例的关键词时,可以获取当前坏例的关键词与预设类别的相似度,若存在超过第九阈值的相似度,表明该坏例的类别属于预设类别,若该坏例的关键词与预设类别的相似度均不超过第九阈值,表明该坏例的类别不属于预设类别。其中,获取搜索结果的关键词的具体方式可以为:从该搜索结果对应的网页中的具体内容或者从该搜索结果的标题中获取表现该搜索结果类别特征的关键词。
当然,除了上述方式外,获取上述步骤S305挖掘出的每个坏例的类别信息的具体方式还可以为:获取每个坏例的特征信息中包括的标题中的关键词作为该坏例的类别信息。
本实施例中,预设类别可以根据实际需要设置。例如,可以设置为小说(Novel)、新闻(news)、贴吧(tieba)、色情、推荐等类别。其中,novel有定时轮换排序的策略,会导致一些坏例;news时效性很强,且热门news大部分是人工运营的;贴吧、推荐属于人工干预的搜索结果;色情类坏例默认不作修复。
本实施例中,可以按照预设规则对预设类别的坏例进行过滤。具体的,按照预设规则对预设类别的坏例进行过滤的实施方式可以为:将属于预设类别的坏例均过滤掉。或者是,限定属于预设类别的坏例挖掘数据不超过预设数量。其中,预设数量可以根据实际需要设置,例如,可以设置为5个。
进一步的,由于搜索引擎中的线上搜索结果展现位置调整模块会自动调整某些点击特征特别差的搜索结果,因此,可以将上述步骤S305挖掘出的坏例中的这些搜索结果过滤掉,确保挖掘出来的坏例都是线上搜索结果展现位置调整模块不会进行调整的坏例,以提高后续对坏例的处理效率。由此,可以通过以下步骤S315执行的过滤策略对满足上述情况的坏例进行过滤。
步骤S315,在得到所述多个搜索结果中的坏例的预设时间间隔后,获取当前所述搜索词对应的多个搜索结果的特征信息,在该特征信息中查找每个所述坏例的当前展现位置,若该坏例的当前展现位置大于该坏例在所述第二搜索结果序列中的展现位置时,将该坏例过滤掉。
其中,预设时间间隔可以根据线上搜索结果展现位置调整模块的调整周期设置。例如,可以设置为1天。例如,某年某月某日得到某搜索词对应的搜索结果中的坏例后,可以在预设时间间隔后,再次获取这些坏例在该搜索词对应的搜索页面中的当前展现位置。若某坏例的当前展现位置大于该坏例在之前挖掘出时的展现位置即在第二搜索结果序列中的展现位置时,则说明该搜索词对应的搜索页面中的当前展现位置相对于之前挖掘出时的展现位置被向搜索页面的末端调整了。也就是说,线上搜索结果展现位置调整模块自动对该坏例进行了调整,此时可以将该坏例过滤掉。
本发明实施提供的搜索结果处理方法能够实现与搜索词对应的多个搜索结果中坏例的自动挖掘,节省了大量的人力,提高了坏例挖掘效率。此外,相比于现有的比较被动的人工挖掘方式,有利于快速发现搜索页面中的坏例以及时对其进行处理。并进一步对挖掘出的坏例进行策略过滤,有利于过滤掉一些没有必要进行处理的坏例,得到更优的坏例挖掘结果。
第四实施例
请参阅图7,本发明第四实施例提供了一种搜索结果处理装置,应用于服务器100,用于实现上述第一实施例提出的搜索结果处理方法。所述搜索结果处理装置200包括:第一获取模块210、第二获取模块220、第一构建模块230、第二构建模块240以及对比模块250。
其中,第一获取模块210,用于获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;
第二获取模块220,用于根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值;
第一构建模块230,用于根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;
第二构建模块240,用于根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;
对比模块250,用于对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例。
进一步的,第一获取模块210具体用于根据spark算法,从用户搜索日志中获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息。
具体的,如图7所示,第二获取模块220包括:获取单元221、第一处理单元222、第二处理单元223以及第三处理单元224。其中,获取单元221,用于根据每个所述搜索结果的展现次数以及在每次展现该搜索结果的搜索页面中的展现位置获取每个所述搜索结果的加权展现次数。第一处理单元222,用于根据预设的分频权重、预设的零值权重、每个所述搜索结果的第一点击量及每个所述搜索结果的所述加权展现次数得到每个所述搜索结果的第一相关系数,其中,所述分频权重根据所述搜索词对应的搜索次数及预设分频规则设置。第二处理单元223,用于根据所述分频权重、所述零值权重、每个所述搜索结果的所述第一点击量及每个所述搜索结果的第二点击量得到每个所述搜索结果的第二相关系数。第三处理单元224,用于根据所述第一相关系数和所述第二相关系数得到每个所述搜索结果的有效值。
进一步的,获取单元221具体用于根据公式:
Figure BDA0001239267600000221
获取每个所述搜索结果的加权展现次数,其中,m表示当前搜索结果的展现次数,i为1至m的整数,psc(i)表示在第i次展现当前搜索结果的搜索页面中,当前搜索结果所对应的展现位置,pmax(i)表示在第i次展现当前搜索结果的搜索页面中,位于被点击的搜索结果最末端的搜索结果所对应的展现位置。
第一处理单元222具体用于根据公式:
Figure BDA0001239267600000222
得到每个所述搜索结果的所述第一相关系数,其中,click表示当前搜索结果的所述第一点击量,r_zero表示所述零值权重,exam表示所述当前搜索结果的所述加权展现次数,pv_weight表示所述分频权重。
第二处理单元223具体用于根据公式:
Figure BDA0001239267600000223
得到每个所述搜索结果的所述第二相关系数,其中,last_click表示当前搜索结果的所述第二点击量,click表示当前搜索结果的所述第一点击量,r_zero表示所述零值权重,pv_weight表示所述分频权重。
第三处理单元224具体用于根据公式:u·ξ+v·η获得每个所述搜索结果的有效值,其中,ξ表示所述第一相关系数,η表示所述第二相关系数,u表示预设的第一权重,v表示预设的第二权重。
进一步的,对比模块250具体用于将每个所述搜索结果在所述第一搜索结果序列中的排列位置与在所述第二搜索结果序列中的排列位置之间的差值作为该搜索结果的伤害值,将该搜索结果的伤害值与预设的伤害阈值进行比较,若该搜索结果的伤害值大于所述伤害阈值,判定该搜索结果为坏例。
第五实施例
请参阅图8,本发明第五实施例提供了一种搜索结果处理装置,应用于服务器100,用于实现上述第二实施例提出的搜索结果处理方法。所述搜索结果处理装置300包括:第一获取模块310、第二获取模块320、第一构建模块330、第二构建模块340、对比模块350以及优例获取模块360。
其中,第一获取模块310,用于获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;
第二获取模块320,用于根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值;
第一构建模块330,用于根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;
第二构建模块340,用于根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;
对比模块350,用于对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例。
优例获取模块360,用于获取得到的所述坏例在所述第二搜索结果序列中的排列位置,根据该排列位置在所述第一搜索结果序列中查找位于该排列位置的搜索结果,作为该坏例对应的优例。
第六实施例
请参阅图9,本发明第六实施例提供了一种搜索结果处理装置,应用于服务器100,用于实现上述第三实施例提出的搜索结果处理方法。所述搜索结果处理装置400包括:第一获取模块401、第二获取模块402、第一构建模块403、第二构建模块404、对比模块405、第一过滤模块406、第二过滤模块407、第三过滤模块408、第四过滤模块409、第五过滤模块410、第六过滤模块411、第七过滤模块412以及第八过滤模块413。
其中,第一获取模块401,用于获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;
第二获取模块402,用于根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值;
第一构建模块403,用于根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;
第二构建模块404,用于根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;
对比模块405,用于将每个所述搜索结果在所述第一搜索结果序列中的排列位置与在所述第二搜索结果序列中的排列位置之间的差值作为该搜索结果的伤害值,将该搜索结果的伤害值与预设的伤害阈值进行比较,若该搜索结果的伤害值大于所述伤害阈值,判定该搜索结果为坏例;
第一过滤模块406,用于若所述第二搜索结果序列中排列位置为预设位置处的搜索结果为坏例,将该坏例对应的所述伤害值乘以预设的惩罚系数,以更新该坏例对应的所述伤害值;
第二过滤模块407,用于获取所述第二搜索结果序列中排在第一位的搜索结果的第一点击量和第二点击量;获取所述第二搜索结果序列中所有搜索结果的所述第一点击量之和作为总点击量;若所述第二搜索结果序列中排在第一位的搜索结果的所述第一点击量与所述总点击量之间的比值大于预设的第一阈值,且所述第二搜索结果序列中排在第一位的搜索结果的所述第二点击量与该搜索结果的所述第一点击量之间的比值大于预设的第二阈值,将所得到的所述坏例均过滤掉;
第三过滤模块408,用于获取所得到的每个所述坏例的第一点击量和第二点击量;获取每个所述搜索结果的所述第一点击量之和作为总点击量;若当前坏例的所述第一点击量与所述总点击量之间的比值大于预设的第三阈值,且所述当前坏例的所述第二点击量与所述当前坏例的第一点击量之间的比值大于预设的第四阈值,将所述当前坏例过滤掉;
第四过滤模块409,用于获取每个所述搜索结果的第一点击量和第二点击量之间的比值,若该比值大于预设的第五阈值的搜索结果的数量在所有所述搜索结果中的占比大于或等于预设的第六阈值,将所得到的所述坏例均过滤掉;
第五过滤模410,用于获取每个所述搜索结果的第一点击量之和作为总点击量;若所述总点击量与所述搜索次数之间的比值小于预设的第七阈值,将所得到的所述坏例均过滤掉;
第六过滤模块411,用于若所述坏例的展现次数小于预设的第八阈值,将该坏例过滤掉;
第七过滤模412,用于获取所得到的每个所述坏例的类别信息,若该坏例的所述类别信息属于预设类别,按照预设规则对该坏例进行过滤。
第八过滤模块413,用于在得到所述多个搜索结果中的坏例的预设时间间隔后,获取当前所述搜索词对应的多个搜索结果的特征信息,在该特征信息中查找每个所述坏例的当前展现位置,若该坏例的当前展现位置大于该坏例在所述第二搜索结果序列中的展现位置时,将该坏例过滤掉。
本实施例中,各模块可以是由软件代码实现,此时,上述的各模块可存储于服务器100的存储器110内。以上各模块同样可以由硬件例如集成电路芯片实现。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例所提供的搜索结果处理装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (19)

1.一种搜索结果处理方法,其特征在于,所述方法包括:
获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;
根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值,所述有效值反映用户对每个所述搜索结果的满意度;
根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;
根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;
对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例。
2.根据权利要求1所述的方法,其特征在于,所述根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值,包括:
根据每个所述搜索结果的展现次数以及在每次展现该搜索结果的搜索页面中的展现位置获取每个所述搜索结果的加权展现次数;
根据预设的分频权重、预设的零值权重、每个所述搜索结果的第一点击量及每个所述搜索结果的所述加权展现次数得到每个所述搜索结果的第一相关系数,其中,所述分频权重根据所述搜索词对应的搜索次数及预设分频规则设置;
根据所述分频权重、所述零值权重、每个所述搜索结果的所述第一点击量及每个所述搜索结果的第二点击量得到每个所述搜索结果的第二相关系数;
根据所述第一相关系数和所述第二相关系数得到每个所述搜索结果的有效值。
3.根据权利要求2所述的方法,其特征在于,所述根据每个所述搜索结果的展现次数以及在每次展现该搜索结果的搜索页面中的展现位置获取每个所述搜索结果的加权展现次数,包括:
根据公式:
Figure FDA0002726497810000021
获取每个所述搜索结果的加权展现次数,其中,m表示当前搜索结果的展现次数,i为1至m的整数,psc(i)表示在第i次展现当前搜索结果的搜索页面中,当前搜索结果所对应的展现位置,pmax(i)表示在第i次展现当前搜索结果的搜索页面中,位于被点击的搜索结果最末端的搜索结果所对应的展现位置。
4.根据权利要求2所述的方法,其特征在于,所述根据预设的分频权重、预设的零值权重、每个所述搜索结果的第一点击量及每个所述搜索结果的所述加权展现次数得到每个所述搜索结果的第一相关系数,包括:
根据公式:
Figure FDA0002726497810000022
得到每个所述搜索结果的所述第一相关系数,其中,click表示当前搜索结果的所述第一点击量,r_zero表示所述零值权重,exam表示所述当前搜索结果的所述加权展现次数,pv_weight表示所述分频权重。
5.根据权利要求2所述的方法,其特征在于,所述根据所述分频权重、所述零值权重、每个所述搜索结果的所述第一点击量及每个所述搜索结果的第二点击量得到每个所述搜索结果的第二相关系数,包括:
根据公式:
Figure FDA0002726497810000023
得到每个所述搜索结果的所述第二相关系数,其中,last_click表示当前搜索结果的所述第二点击量,click表示当前搜索结果的所述第一点击量,r_zero表示所述零值权重,pv_weight表示所述分频权重。
6.根据权利要求2所述的方法,其特征在于,所述根据所述第一相关系数和所述第二相关系数得到每个所述搜索结果的有效值,包括:
根据公式:u·ξ+v·η获得每个所述搜索结果的有效值,其中,ξ表示所述第一相关系数,η表示所述第二相关系数,u表示预设的第一权重,v表示预设的第二权重。
7.根据权利要求1所述的方法,其特征在于,所述对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例,包括:
将每个所述搜索结果在所述第一搜索结果序列中的排列位置与在所述第二搜索结果序列中的排列位置之间的差值作为该搜索结果的伤害值,将该搜索结果的伤害值与预设的伤害阈值进行比较,若该搜索结果的伤害值大于所述伤害阈值,判定该搜索结果为坏例。
8.根据权利要求7所述的方法,其特征在于,所述对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例之后,还包括:
若所述第二搜索结果序列中排列位置为预设位置处的搜索结果为坏例,将该坏例对应的所述伤害值乘以预设的惩罚系数,以更新该坏例对应的所述伤害值。
9.根据权利要求1所述的方法,其特征在于,所述获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息,包括:
根据spark算法,从用户搜索日志中获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息。
10.根据权利要求1所述的方法,其特征在于,所述对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例之后,还包括:
获取得到的所述坏例在所述第二搜索结果序列中的排列位置,根据该排列位置在所述第一搜索结果序列中查找位于该排列位置的搜索结果,作为该坏例对应的优例。
11.根据权利要求1所述的方法,其特征在于,所述对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例之后,所述方法还包括:
在得到所述多个搜索结果中的坏例的预设时间间隔后,获取当前所述搜索词对应的多个搜索结果的特征信息,在该特征信息中查找每个所述坏例的当前展现位置,若该坏例的当前展现位置大于该坏例在所述第二搜索结果序列中的展现位置时,将该坏例过滤掉。
12.根据权利要求1所述的方法,其特征在于,所述对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例之后,所述方法还包括:
获取所述第二搜索结果序列中排在第一位的搜索结果的第一点击量和第二点击量;
获取所述第二搜索结果序列中所有搜索结果的所述第一点击量之和作为总点击量;
若所述第二搜索结果序列中排在第一位的搜索结果的所述第一点击量与所述总点击量之间的比值大于预设的第一阈值,且所述第二搜索结果序列中排在第一位的搜索结果的所述第二点击量与该搜索结果的所述第一点击量之间的比值大于预设的第二阈值,将所得到的所述坏例均过滤掉。
13.根据权利要求1所述的方法,其特征在于,所述对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例之后,所述方法还包括:
获取所得到的每个所述坏例的第一点击量和第二点击量;
获取每个所述搜索结果的所述第一点击量之和作为总点击量;
若当前坏例的所述第一点击量与所述总点击量之间的比值大于预设的第三阈值,且所述当前坏例的所述第二点击量与所述当前坏例的第一点击量之间的比值大于预设的第四阈值,将所述当前坏例过滤掉。
14.根据权利要求1所述的方法,其特征在于,所述对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例之后,所述方法还包括:
获取每个所述搜索结果的第一点击量和第二点击量之间的比值,若该比值大于预设的第五阈值的搜索结果的数量在所有所述搜索结果中的占比大于或等于预设的第六阈值,将所得到的所述坏例均过滤掉。
15.根据权利要求1所述的方法,其特征在于,所述对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例之后,所述方法还包括:
获取每个所述搜索结果的第一点击量之和作为总点击量;
若所述总点击量与所述搜索次数之间的比值小于预设的第七阈值,将所得到的所述坏例均过滤掉。
16.根据权利要求1所述的方法,其特征在于,所述对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例之后,所述方法还包括:
若所述坏例的展现次数小于预设的第八阈值,将该坏例过滤掉。
17.根据权利要求1所述的方法,其特征在于,所述对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例之后,所述方法还包括:
获取所得到的每个所述坏例的类别信息,若该坏例的所述类别信息属于预设类别,按照预设规则对该坏例进行过滤。
18.一种搜索结果处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;
第二获取模块,用于根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值,所述有效值反映用户对每个所述搜索结果的满意度;
第一构建模块,用于根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;
第二构建模块,用于根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;
对比模块,用于对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例。
19.一种服务器,其特征在于,所述服务器包括处理器以及存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述服务器执行以下操作:
获取搜索词、所述搜索词的搜索次数及与所述搜索词对应的多个搜索结果的特征信息;
根据所述搜索次数及所述特征信息获取每个所述搜索结果的有效值,所述有效值反映用户对每个所述搜索结果的满意度;
根据每个所述搜索结果的有效值构建对应于所述搜索词的第一搜索结果序列;
根据所述搜索词对应的搜索页面中每个所述搜索结果的展现位置构建对应于所述搜索词的第二搜索结果序列;
对比所述第一搜索结果序列和所述第二搜索结果序列,得到所述多个搜索结果中的坏例。
CN201710130712.9A 2017-03-06 2017-03-06 搜索结果处理方法、装置及服务器 Active CN108536716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710130712.9A CN108536716B (zh) 2017-03-06 2017-03-06 搜索结果处理方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710130712.9A CN108536716B (zh) 2017-03-06 2017-03-06 搜索结果处理方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN108536716A CN108536716A (zh) 2018-09-14
CN108536716B true CN108536716B (zh) 2021-06-11

Family

ID=63489666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710130712.9A Active CN108536716B (zh) 2017-03-06 2017-03-06 搜索结果处理方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN108536716B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708890B (zh) * 2020-07-09 2023-09-19 腾讯科技(深圳)有限公司 一种搜索词确定方法和相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955798A (zh) * 2011-08-25 2013-03-06 腾讯科技(深圳)有限公司 一种基于搜索引擎的搜索方法及搜索服务器
US8645362B1 (en) * 2010-11-12 2014-02-04 Google Inc. Using resource load times in ranking search results
CN103577464A (zh) * 2012-08-02 2014-02-12 百度在线网络技术(北京)有限公司 一种搜索引擎坏例的挖掘方法和装置
CN105320706A (zh) * 2014-08-05 2016-02-10 阿里巴巴集团控股有限公司 搜索结果的处理方法和装置
CN105512199A (zh) * 2015-11-27 2016-04-20 广州神马移动信息科技有限公司 搜索方法、搜索装置以及搜索服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645362B1 (en) * 2010-11-12 2014-02-04 Google Inc. Using resource load times in ranking search results
CN102955798A (zh) * 2011-08-25 2013-03-06 腾讯科技(深圳)有限公司 一种基于搜索引擎的搜索方法及搜索服务器
CN103577464A (zh) * 2012-08-02 2014-02-12 百度在线网络技术(北京)有限公司 一种搜索引擎坏例的挖掘方法和装置
CN105320706A (zh) * 2014-08-05 2016-02-10 阿里巴巴集团控股有限公司 搜索结果的处理方法和装置
CN105512199A (zh) * 2015-11-27 2016-04-20 广州神马移动信息科技有限公司 搜索方法、搜索装置以及搜索服务器

Also Published As

Publication number Publication date
CN108536716A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
TWI512506B (zh) Sorting method and device for search results
US11100178B2 (en) Method and device for pushing information
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
US9317550B2 (en) Query expansion
US9934293B2 (en) Generating search results
US20070038620A1 (en) Consumer-focused results ordering
US10025807B2 (en) Dynamic data acquisition method and system
WO2018028099A1 (zh) 搜索质量评估方法及装置
US8631002B2 (en) Web-relevance based query classification
US8527564B2 (en) Image object retrieval based on aggregation of visual annotations
JP2013506189A (ja) クエリの一般属性に基づく情報の検索
EP2842060A1 (en) Recommending keywords
Liu et al. Identifying indicators of fake reviews based on spammer's behavior features
WO2008106668A1 (en) User query mining for advertising matching
CN103324645A (zh) 一种网页推荐方法和装置
EP2649542A2 (en) Ranking product information
WO2021082123A1 (zh) 信息推荐方法及装置、电子设备
WO2009000174A1 (fr) Procédé et dispositif de classement de pages web
US20170046447A1 (en) Information Category Obtaining Method and Apparatus
US8423554B2 (en) Content category scoring for nodes in a linked database
CN110825977A (zh) 一种数据推荐方法及相关设备
US8311996B2 (en) Generating content to satisfy underserved search queries
US20110276390A1 (en) Selecting advertisements for presentation with search results
CN108763369B (zh) 一种视频搜索方法和装置
CN115905489A (zh) 一种提供招投标信息搜索服务的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200526

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510000 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 01 (only for office use)

Applicant before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant