CN106777282A - 相关搜索的排序方法和装置 - Google Patents
相关搜索的排序方法和装置 Download PDFInfo
- Publication number
- CN106777282A CN106777282A CN201611244559.4A CN201611244559A CN106777282A CN 106777282 A CN106777282 A CN 106777282A CN 201611244559 A CN201611244559 A CN 201611244559A CN 106777282 A CN106777282 A CN 106777282A
- Authority
- CN
- China
- Prior art keywords
- ranked
- feature
- clicking rate
- flow conductivity
- subelement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/06—Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
- G06F7/08—Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了RS的排序方法和装置,其中方法包括:获取搜索词query,并获取query对应的各RS;根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率;按照预估点击率由大到小的顺序对各RS进行排序。应用本发明所述方案,能够提高排序结果的准确性等。
Description
【技术领域】
本发明涉及互联网技术,特别涉及相关搜索的排序方法和装置。
【背景技术】
目前,当用户进行图片搜索等操作时,通常会在搜索结果页中为用户推荐/展示与其输入的搜索词(query)相关的相关搜索(RS,Related Search)。
图片搜索是指通过搜索程序,向用户提供互联网上相关的图片资料的服务,图片搜索的目的是查找出自己所需要的特定图片。
比如,可以在搜索结果页中的搜索框的下方展示所推荐的各RS。RS来自于所有用户曾经搜索的query集合,用于挖掘用户的兴趣点,从而提升商业搜索引擎的用户流量。
RS的相关性对用户点击有着直接影响,相关性越高,用户点击的可能性越大,相应地,用户流量也就越大。
现有技术中,在获取到各待选的RS之后,通常会按照预定规则对各RS进行排序,并将排序后处于前N位的RS展示给用户,N为正整数,通常大于1。
但是,按照上述方式只能实现对于各RS的粗略排序,即排序结果的准确性较差,从而导致展示给用户的很可能是一些不太相关的RS,进而降低了用户点击的可能性。
【发明内容】
有鉴于此,本发明提供了相关搜索的排序方法和装置,能够提高排序结果的准确性。
具体技术方案如下:
一种相关搜索的排序方法,包括:
获取搜索词query,并获取所述query对应的各RS;
根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率;
按照预估点击率由大到小的顺序对各RS进行排序。
一种相关搜索的排序装置,包括:召回单元以及排序单元;
所述召回单元,用于获取搜索词query,并获取所述query对应的各RS,将各RS发送给所述排序单元;
所述排序单元,用于根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率,并按照预估点击率由大到小的顺序对各RS进行排序。
基于上述介绍可以看出,采用本发明所述方案,针对各RS,可首先根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率,进而根据预估出的点击率大小对各RS进行排序,从而相比于现有技术提高了排序结果的准确性。
【附图说明】
图1为本发明所述相关搜索的排序方法实施例的流程图。
图2为本发明所述相关搜索的排序方法较佳实施例的流程图。
图3为本发明所述相关搜索的排序装置实施例的组成结构示意图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
图1为本发明所述相关搜索的排序方法实施例的流程图,如图1所示,包括以下具体实现方式。
在11中,获取搜索词query,并获取query对应的各RS。
如何获取query对应的各RS即各待选的RS为现有技术。
在12中,根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率。
在实际应用中,可预先利用收集到的训练样本,训练得到一个点击预估模型,这样,针对每个RS,可分别获取该RS的用户行为特征,进而将获取到的特征作为点击预估模型的输入,得到点击预估模型输出的该RS的预估点击率。
用户行为特征具体包括哪些内容可根据实际需要而定,比如,可包括:共现特征、质量控制特征、点击特征和语义特征,以下以图片搜索场景为例,分别对各特征进行详细介绍。
1)共现特征
共现特征描述的是用户一个会话(session)内,用户搜索的query集合之间的关系,共现特征可以有2维,分别为共现次数和前后共现关系。
共现次数:最近预定时长内所有session的querylist中不记顺序的<queryA,queryB>的共现频率,对于11中所述的query对应的每个RS,可分别统计最近预定时长内所有session的querylist中不记顺序的<query(即11中所述的query),RS>的共现频率。
前后共现关系:与共现次数的区别在于统计时需要考虑<queryA,queryB>中的两个query的前后顺序,根据两个query的前后顺序的不同,可对应得到两个统计结果。
所述最近预定时长的具体取值可根据实际需要而定,比如最近M天,M通常为大于1的正整数。
2)质量控制特征
质量控制特征可以有3维,分别为query搜索次数、大图页翻页次数和点击图片的obj个数。
query搜索次数:最近预定时长内所有用户搜索query的频率。
大图页翻页次数:最近预定时长内所有用户在query下大图页翻页次数的平均值,比如,用户输入query进行搜索,搜索结果页中会展示有各作为搜索结果的缩图,当用户点击任一缩图后,会展示该缩图对应的大图,即展示大图页,并且,用户可进行左右翻页,以查看其它大图,每进行一次翻页,则可将统计结果加一,从而可得到用户本次搜索的大图页翻页次数。
点击图片的obj个数:最近预定时长内所有用户在query搜索结果页中点击缩图次数的平均值,比如,用户输入query进行搜索,搜索结果页中会展示有各作为搜索结果的缩图,用户每点击任一缩图,则将统计结果加一,从而可得到用户本次搜索的点击缩图次数。
本实施例中,针对11中所述的query对应的每个RS,可分别获取该RS及对应的query的质量控制特征,对于任一RS,若用户点击了该RS,则相当于是将该RS作为query进行搜索。
同样,所述最近预定时长的具体取值可根据实际需要而定。
3)点击特征
点击特征可以有4维,分别为泛点击特征、单天点击率、30天点击率和60天点击率,点击率=点击次数/展示次数。
如何获取泛点击特征为现有技术。
单天点击率:最近一天内所有用户搜索query之后点击RS组成的点击pair<query,RS>的次数即为点击次数,最近一天内所有用户搜索query之后展示RS组成的展示pair<query,RS>的次数即为展示次数,用统计出的点击次数除以展示次数,即可得到单天点击率。
比如,对于11中所述的query,其对应的一个RS假设为RSx,统计最近一天内搜索query之后点击了RSx的点击pair<query,RSx>的次数,则为点击次数,统计最近一天内搜索query之后展示了RSx的展示pair<query,RSx>的次数,则为展示次数,用点击次数除以展示次数,则可得到该RSx的单天点击率。
30天点击率和60天点击率的含义和单天点击率类似,只是将“最近一天内”分别替换为“最近30天内”和“最近60天内”。
4)语义特征
语义特征可以有2维,分别为basic_weight和semantic_sim。
basic_weight:query与RS的共现term的长度占RS的长度的比例。
semantic_sim:query与RS的相似度概率,如何计算为现有技术。
针对11中所述的query对应的每个RS,可分别获取其上述特征,并输入到点击预估模型,从而得到点击预估模型输出的该RS的预估点击率。
并且,可将每个RS的特征及预估点击率作为一个新的训练样本,利用获取到的多个新的训练样本对点击预估模型进行优化。
如何利用训练样本训练及优化点击预估模型为现有技术。
在13中,按照预估点击率由大到小的顺序对各RS进行排序。
在分别获取到11中所述的query对应的各RS的预估点击率之后,可按照预估点击率由大到小的顺序对各RS进行排序。
并且,可将排序后处于前N位的RS展示在搜索结果页中,即将排序后处于前N位的RS推荐给用户。
可以看出,采用上述实施例所述方案,针对各RS,可首先根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率,进而根据预估出的点击率大小对各RS进行排序,从而相比于现有技术提高了排序结果的准确性;而且,模型可以看作是排序策略的框架,所使用的特征可以看作是排序策略的个性化定制,可以根据实际需要灵活选择或调整模型特征,从而便于进行策略升级等。
点击预估模型的训练目标是提升一次搜索的点击率,为了进一步提高导流能力,可引入二级点击率即导流能力特征,二级点击率是指用户搜索query并点击了RS之后,在该RS下继续进行RS点击的所有位置的点击率之和,该特征可以通过统计用户session行为挖掘。
相应地,本实施例所述方案中,在分别确定出各RS的预估点击率之后,可进一步根据各RS的预估点击率以及导流能力特征,分别确定出各RS的导流能力评分,进而按照导流能力评分由大到小的顺序对各RS进行排序。
其中,为得到导流能力评分,针对每个RS,可分别进行以下处理:
分别获取用户点击该RS之后进一步所展示的各RS的最近预定时长点击次数,将各点击次数相加,用相加之和除以最近预定时长点击该RS之后进一步展示RS的次数,作为该RS的导流能力特征;
获取该RS的最近预定时长点击率;
计算该RS的导流能力特征与该RS的最近预定时长点击率的乘积,将所述乘积与进行归一化处理之后的该RS的预估点击率相加,得到该RS的导流能力评分。
假设用户输入11中所述的query进行搜索之后,点击了搜索结果页中所展示的一个RS假设为RSx,假设点击RSx之后所展示的下一级RS的个数共为10,针对这10个RS,可分别获取其最近预定时长点击次数,如分别获取其30天点击次数,将这10个RS的30天点击次数相加,用相加之和除以最近预定时长点击RSx之后展示下一级RS的次数,得到RSx的导流能力特征。
以上在统计点击次数和展示次数时,可以采用以下任一处理方式:RSx必须来自于11中所述的query,即用户使用11中所述的query进行搜索之后展示并点击了RSx,或者,RSx可来自于任意query,即用户使用任意query进行搜索之后展示并点击了RSx。
针对上述RSx,在获取到其导流能力特征之后,还需要获取其最近预定时长点击率,如30天点击率,之后,计算RSx的导流能力特征与RSx的最近预定时长点击率的乘积,将所述乘积与进行归一化处理之后的RSx的预估点击率相加,从而得到RSx的导流能力评分。
即score=pre_result+ctr*daoliu;
其中,score表示导流能力评分,pre_result表示预估点击率,ctr表示30天点击率,daoliu表示导流能力特征。
为了使相加的两项可比,需要将pre_result归一化到(0,ctrmax]的区间,ctrmax表示11中所述的query对应的各RS的30天点击率中的最大值。
特殊地,对于11中所述的query对应的任一RS,如果该RS为之前没有展示过的RS,由于其不存在历史点击行为等信息,那么在计算该RS的score时,可将pre_result作为该RS的ctr,将11中所述的query对应的各已展示过的RS的daoliu的均值作为该RS的daoliu。
点击预估模型的一个缺陷是,对于点击行为不够丰富的长尾query,由于历史点击行为太少导致模型评分不够准确,而模型中虽然引入了质量控制特征,但由于训练时使用的是用户的真实点击数据,用户在点击时并不知道所点击的RS的结果质量是否能满足自己的需求,因此质量控制特征在点击预估模型中的作用有限,不能充分发挥作用。
为此,本实施例所述方案中提出,可进一步根据各RS的质量特征,分别确定出各RS的质量评分,进而综合各RS的导流能力评分以及质量评分,对各RS进行排序,或者,综合各RS的预估点击率以及质量评分,对各RS进行排序。
具体地,可针对每个RS,分别根据该RS的质量控制特征、导流能力特征以及预估点击率,通过拟合方式确定出该RS的质量评分。
在质量特征中引入导流能力特征和预估点击率,主要是为了控制相关性。
质量控制特征可包括前述的query搜索次数、大图页翻页次数和点击图片的obj个数。
这样,针对11中所述的query对应的每个RS,可分别根据该RS的query搜索次数、大图页翻页次数、点击图片的obj个数、导流能力特征以及预估点击率,通过拟合方式确定出该RS的质量评分,具体拟合方式为现有技术。
之后,可综合各RS的导流能力评分以及质量评分,对各RS进行排序,包括:
按照导流能力评分由大到小的顺序对各RS进行排序;
按照质量评分由大到小的顺序对各RS进行排序;
针对每个RS,分别获取该RS在两次排序中的排序位置,并计算两个排序位置的均值;
根据各RS的排序位置的均值对各RS进行排序。
比如,共存在10个RS,对于其中的一个RS假设为RSx来说,在按照导流能力评分进行排序时,RSx排在第3位,在按照质量评分进行排序时,RSx排在第4位,那么RSx的排序位置的均值则为3.5,对于其中的另一个RS假设为RSz来说,在按照导流能力评分进行排序时,RSz排在第2位,在按照质量评分进行排序时,RSz排在第3位,那么RSz的排序位置的均值则为2.5,2.5小于3.5,因此RSz排在RSx的前面,如果RSx和RSz的排序位置的均值相同,那么RSz可排在RSx的前面,或者反之。
或者,综合各RS的预估点击率以及质量评分,对各RS进行排序,包括:
按照预估点击率由大到小的顺序对各RS进行排序;
按照质量评分由大到小的顺序对各RS进行排序;
针对每个RS,分别获取该RS在两次排序中的排序位置,并计算两个排序位置的均值;
根据各RS的排序位置的均值对各RS进行排序。
综合上述介绍可知,本实施例所述方案中,在对11中所述的query对应的各RS进行排序时,至少可采用以下四种方式:
1)按照预估点击率由大到小的顺序对各RS进行排序;
2)按照导流能力评分由大到小的顺序对各RS进行排序;
3)综合各RS的导流能力评分以及质量评分,对各RS进行排序;
4)综合各RS的预估点击率以及质量评分,对各RS进行排序。
无论采用哪种方式,在对各RS进行排序之后,均可将排序后处于前N位的RS展示在搜索结果页中,推荐给用户。
以下以第3)种方式为例,对本发明所述方案进行进一步说明。
图2为本发明所述相关搜索的排序方法较佳实施例的流程图,如图2所示,包括以下具体实现方式。
在21中,获取搜索词query,并获取query对应的各RS。
在22中,根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率。
在23中,根据各RS的预估点击率以及导流能力特征,分别确定出各RS的导流能力评分。
在24中,根据各RS的质量特征,分别确定出各RS的质量评分。
在25中,综合各RS的导流能力评分以及质量评分,对各RS进行排序。
在26中,将排序后处于前N位的RS展示在搜索结果页中,推荐给用户。
图3为本发明所述相关搜索的排序装置实施例的组成结构示意图,如图3所示,包括:召回单元31以及排序单元32。
召回单元31,用于获取搜索词query,并获取query对应的各RS,将各RS发送给排序单元32。
排序单元32,用于根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率,并按照预估点击率由大到小的顺序对各RS进行排序。
其中,排序单元32中可包括:第一处理子单元321和排序子单元324。
第一处理子单元321可针对每个RS,分别获取该RS的用户行为特征,将获取到的特征作为点击预估模型的输入,得到点击预估模型输出的该RS的预估点击率,发送给排序子单元324。
相应地,排序子单元324可按照预估点击率由大到小的顺序对各RS进行排序。
用户行为特征可包括:共现特征、质量控制特征、点击特征和语义特征。
其中,共现特征可包括:共现次数和前后共现关系。
质量控制特征可包括:query搜索次数、大图页翻页次数和点击图片的obj个数。
点击特征可包括:泛点击特征、单天点击率、30天点击率和60天点击率。
语义特征可包括:basic_weight和semantic_sim。
如图3所示,排序单元32中还可进一步包括:第二处理子单元322。
第一处理子单元321可将各RS的预估点击率进一步发送给第二处理子单元322。
相应地,第二处理子单元322可根据各RS的预估点击率以及导流能力特征,分别确定出各RS的导流能力评分,发送给排序子单元324。
排序子单元324可按照导流能力评分由大到小的顺序对各RS进行排序。
具体地,第二处理子单元322可针对每个RS,分别进行以下处理:
分别获取用户点击该RS之后进一步所展示的各RS的最近预定时长点击次数,将各点击次数相加,用相加之和除以最近预定时长点击该RS之后进一步展示RS的次数,作为该RS的导流能力特征;
获取该RS的最近预定时长点击率;
计算该RS的导流能力特征与该RS的最近预定时长点击率的乘积,将所述乘积与进行归一化处理之后的该RS的预估点击率相加,得到该RS的导流能力评分。
如图3所示,排序单元32中还可进一步包括:第三处理子单元323。
第三处理子单元323可根据各RS的质量特征,分别确定出各RS的质量评分,发送给排序子单元324。
排序子单元324可综合各RS的导流能力评分以及质量评分,对各RS进行排序。
相应地,第一处理子单元321可进一步将各RS的预估点击率以及质量控制特征发送给第三处理子单元323。
第二处理子单元322可进一步将各RS的导流能力特征发送给第三处理子单元323。
第三处理子单元323可针对每个RS,分别根据该RS的质量控制特征、导流能力特征以及预估点击率,通过拟合方式确定出该RS的质量评分。
其中,排序子单元324在综合各RS的导流能力评分以及质量评分对各RS进行排序时,可按照导流能力评分由大到小的顺序对各RS进行排序,并按照质量评分由大到小的顺序对各RS进行排序,针对每个RS,分别获取该RS在两次排序中的排序位置,并计算两个排序位置的均值,根据各RS的排序位置的均值对各RS进行排序。
排序子单元324还可综合各RS的预估点击率以及质量评分,对各RS进行排序,即按照预估点击率由大到小的顺序对各RS进行排序,并按照质量评分由大到小的顺序对各RS进行排序,针对每个RS,分别获取该RS在两次排序中的排序位置,并计算两个排序位置的均值,根据各RS的排序位置的均值对各RS进行排序。
综合上述介绍可知,本实施例所述方案中,排序子单元324至少可采用以下四种排序方式:
1)按照预估点击率由大到小的顺序对各RS进行排序;
2)按照导流能力评分由大到小的顺序对各RS进行排序;
3)综合各RS的导流能力评分以及质量评分,对各RS进行排序;
4)综合各RS的预估点击率以及质量评分,对各RS进行排序。
如图3所示,图3所示装置实施例中还可进一步包括:展示单元33。
排序单元32可将排序后处于前N位的RS发送给展示单元33,相应地,展示单元33可将排序后处于前N位的RS展示在搜索结果页中,推荐给用户。
图3所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
总之,采用本发明所述方案,可提高排序结果的准确性,并可适用于所有垂类和通用的搜索引擎系统,具有广泛适用性。
本发明实施例提供的上述方法和装置可以以设置并运行于设备中的计算机程序体现。该设备可以包括一个或多个处理器,还包括存储器和一个或多个程序。其中该一个或多个程序存储于存储器中,被上述一个或多个处理器执行以实现本发明上述实施例中所示的方法流程和/或装置操作。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (20)
1.一种相关搜索RS的排序方法,其特征在于,包括:
获取搜索词query,并获取所述query对应的各RS;
根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率;
按照预估点击率由大到小的顺序对各RS进行排序。
2.根据权利要求1所述的方法,其特征在于,
所述根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率包括:
针对每个RS,分别获取所述RS的用户行为特征;
将获取到的特征作为所述点击预估模型的输入,得到所述点击预估模型输出的所述RS的预估点击率。
3.根据权利要求2所述的方法,其特征在于,
所述用户行为特征包括:
共现特征、质量控制特征、点击特征和语义特征。
4.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:
所述分别确定出各RS的预估点击率之后,根据各RS的预估点击率以及导流能力特征,分别确定出各RS的导流能力评分;
按照导流能力评分由大到小的顺序对各RS进行排序。
5.根据权利要求4所述的方法,其特征在于,
所述根据各RS的预估点击率以及导流能力特征,分别确定出各RS的导流能力评分包括:
针对每个RS,分别进行以下处理:
分别获取用户点击所述RS之后进一步所展示的各RS的最近预定时长点击次数,将各点击次数相加,用相加之和除以最近预定时长点击所述RS之后进一步展示RS的次数,作为所述RS的导流能力特征;
获取所述RS的最近预定时长点击率;
计算所述RS的导流能力特征与所述RS的最近预定时长点击率的乘积,将所述乘积与进行归一化处理之后的所述RS的预估点击率相加,得到所述RS的导流能力评分。
6.根据权利要求4所述的方法,其特征在于,
该方法进一步包括:
根据各RS的质量特征,分别确定出各RS的质量评分;
综合各RS的导流能力评分以及质量评分,对各RS进行排序。
7.根据权利要求6所述的方法,其特征在于,
该方法进一步包括:
综合各RS的预估点击率以及质量评分,对各RS进行排序。
8.根据权利要求6所述的方法,其特征在于,
所述根据各RS的质量特征,分别确定出各RS的质量评分包括:
针对每个RS,分别根据所述RS的质量控制特征、导流能力特征以及预估点击率,通过拟合方式确定出所述RS的质量评分。
9.根据权利要求7所述的方法,其特征在于,
所述综合各RS的导流能力评分以及质量评分,对各RS进行排序包括:
按照所述导流能力评分由大到小的顺序对各RS进行排序;
按照所述质量评分由大到小的顺序对各RS进行排序;
针对每个RS,分别获取所述RS在两次排序中的排序位置,并计算两个排序位置的均值;
根据各RS的排序位置的均值对各RS进行排序;
所述综合各RS的预估点击率以及质量评分,对各RS进行排序包括:
按照所述预估点击率由大到小的顺序对各RS进行排序;
按照所述质量评分由大到小的顺序对各RS进行排序;
针对每个RS,分别获取所述RS在两次排序中的排序位置,并计算两个排序位置的均值;
根据各RS的排序位置的均值对各RS进行排序。
10.根据权利要求1-9中任一项所述的方法,其特征在于,
该方法进一步包括:
在对各RS进行排序之后,将排序后处于前N位的RS展示在搜索结果页中。
11.一种相关搜索RS的排序装置,其特征在于,包括:召回单元以及排序单元;
所述召回单元,用于获取搜索词query,并获取所述query对应的各RS,将各RS发送给所述排序单元;
所述排序单元,用于根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率,并按照预估点击率由大到小的顺序对各RS进行排序。
12.根据权利要求11所述的装置,其特征在于,
所述排序单元中包括:第一处理子单元和排序子单元;
所述第一处理子单元,用于针对每个RS,分别获取所述RS的用户行为特征,将获取到的特征作为所述点击预估模型的输入,得到所述点击预估模型输出的所述RS的预估点击率,发送给所述排序子单元;
所述排序子单元,用于按照预估点击率由大到小的顺序对各RS进行排序。
13.根据权利要求12所述的装置,其特征在于,
所述用户行为特征包括:
共现特征、质量控制特征、点击特征和语义特征。
14.根据权利要求13所述的装置,其特征在于,
所述排序单元中进一步用于:第二处理子单元;
所述第一处理子单元进一步用于,将各RS的预估点击率发送给所述第二处理子单元;
所述第二处理子单元,用于根据各RS的预估点击率以及导流能力特征,分别确定出各RS的导流能力评分,发送给所述排序子单元;
所述排序子单元进一步用于,按照导流能力评分由大到小的顺序对各RS进行排序。
15.根据权利要求14所述的装置,其特征在于,
所述第二处理子单元针对每个RS,分别进行以下处理:
分别获取用户点击所述RS之后进一步所展示的各RS的最近预定时长点击次数,将各点击次数相加,用相加之和除以最近预定时长点击所述RS之后进一步展示RS的次数,作为所述RS的导流能力特征;
获取所述RS的最近预定时长点击率;
计算所述RS的导流能力特征与所述RS的最近预定时长点击率的乘积,将所述乘积与进行归一化处理之后的所述RS的预估点击率相加,得到所述RS的导流能力评分。
16.根据权利要求14所述的装置,其特征在于,
所述排序单元中进一步包括:第三处理子单元;
所述第三处理子单元,用于根据各RS的质量特征,分别确定出各RS的质量评分,发送给所述排序子单元;
所述排序子单元进一步用于,综合各RS的导流能力评分以及质量评分,对各RS进行排序。
17.根据权利要求16所述的装置,其特征在于,
所述排序子单元进一步用于,综合各RS的预估点击率以及质量评分,对各RS进行排序。
18.根据权利要求16所述的装置,其特征在于,
所述第一处理子单元进一步用于,将各RS的预估点击率以及质量控制特征发送给所述第三处理子单元;
所述第二处理子单元进一步用于,将各RS的导流能力特征发送给所述第三处理子单元;
所述第三处理子单元针对每个RS,分别根据所述RS的质量控制特征、导流能力特征以及预估点击率,通过拟合方式确定出所述RS的质量评分。
19.根据权利要求17所述的装置,其特征在于,
所述排序子单元按照所述导流能力评分由大到小的顺序对各RS进行排序,并按照所述质量评分由大到小的顺序对各RS进行排序,针对每个RS,分别获取所述RS在两次排序中的排序位置,并计算两个排序位置的均值,根据各RS的排序位置的均值对各RS进行排序;
所述排序子单元按照所述预估点击率由大到小的顺序对各RS进行排序,并按照所述质量评分由大到小的顺序对各RS进行排序,针对每个RS,分别获取所述RS在两次排序中的排序位置,并计算两个排序位置的均值,根据各RS的排序位置的均值对各RS进行排序。
20.根据权利要求11-19中任一项所述的装置,其特征在于,
所述装置中进一步包括:展示单元;
所述排序单元进一步用于,将排序后处于前N位的RS发送给所述展示单元;
所述展示单元,用于将排序后处于前N位的RS展示在搜索结果页中。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611244559.4A CN106777282B (zh) | 2016-12-29 | 2016-12-29 | 相关搜索的排序方法和装置 |
US15/625,936 US10331685B2 (en) | 2016-12-29 | 2017-06-16 | Method and apparatus for sorting related searches |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611244559.4A CN106777282B (zh) | 2016-12-29 | 2016-12-29 | 相关搜索的排序方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106777282A true CN106777282A (zh) | 2017-05-31 |
CN106777282B CN106777282B (zh) | 2018-07-13 |
Family
ID=58927982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611244559.4A Active CN106777282B (zh) | 2016-12-29 | 2016-12-29 | 相关搜索的排序方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10331685B2 (zh) |
CN (1) | CN106777282B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526846A (zh) * | 2017-09-27 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 频道排序模型的生成、排序方法、装置、服务器和介质 |
WO2018223993A1 (zh) * | 2017-06-08 | 2018-12-13 | 广州优视网络科技有限公司 | 一种应用软件搜索方法、装置及服务器 |
CN109857366A (zh) * | 2019-02-20 | 2019-06-07 | 武汉轻工大学 | 基于外存的插入排序方法、系统、设备及存储介质 |
CN110674400A (zh) * | 2019-09-18 | 2020-01-10 | 北京字节跳动网络技术有限公司 | 排序方法、装置、电子设备及计算机可读存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968785B (zh) * | 2019-11-26 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 目标帐号的识别方法和装置、存储介质及电子装置 |
CN113761084B (zh) * | 2020-06-03 | 2023-08-08 | 北京四维图新科技股份有限公司 | 一种poi搜索排序模型训练方法、排序装置与方法及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140040302A1 (en) * | 2012-05-08 | 2014-02-06 | Patrick Sander Walsh | Method and system for developing a list of words related to a search concept |
CN103678668A (zh) * | 2013-12-24 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 相关搜索结果的提示方法、服务器及系统 |
CN103984705A (zh) * | 2014-04-25 | 2014-08-13 | 北京奇虎科技有限公司 | 一种搜索结果的展示方法、装置和系统 |
CN104143005A (zh) * | 2014-08-04 | 2014-11-12 | 五八同城信息技术有限公司 | 一种相关搜索系统及方法 |
CN105117491A (zh) * | 2015-09-22 | 2015-12-02 | 北京百度网讯科技有限公司 | 页面推送方法和装置 |
CN105159930A (zh) * | 2015-08-05 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 搜索关键词的推送方法和装置 |
CN105786827A (zh) * | 2014-12-18 | 2016-07-20 | 中国科学院深圳先进技术研究院 | 基于效用的搜索引擎查询推荐方法 |
CN106021374A (zh) * | 2016-05-11 | 2016-10-12 | 百度在线网络技术(北京)有限公司 | 查询结果的底层召回方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8620915B1 (en) * | 2007-03-13 | 2013-12-31 | Google Inc. | Systems and methods for promoting personalized search results based on personal information |
US8738436B2 (en) * | 2008-09-30 | 2014-05-27 | Yahoo! Inc. | Click through rate prediction system and method |
US8533043B2 (en) * | 2010-03-31 | 2013-09-10 | Yahoo! Inc. | Clickable terms for contextual advertising |
US8392343B2 (en) * | 2010-07-21 | 2013-03-05 | Yahoo! Inc. | Estimating probabilities of events in sponsored search using adaptive models |
US20130246383A1 (en) * | 2012-03-18 | 2013-09-19 | Microsoft Corporation | Cursor Activity Evaluation For Search Result Enhancement |
CN103530299B (zh) * | 2012-07-05 | 2017-04-12 | 阿里巴巴集团控股有限公司 | 一种搜索结果的生成方法及装置 |
RU2670494C2 (ru) * | 2014-05-07 | 2018-10-23 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки поискового запроса, сервер и машиночитаемый носитель для его осуществления |
-
2016
- 2016-12-29 CN CN201611244559.4A patent/CN106777282B/zh active Active
-
2017
- 2017-06-16 US US15/625,936 patent/US10331685B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140040302A1 (en) * | 2012-05-08 | 2014-02-06 | Patrick Sander Walsh | Method and system for developing a list of words related to a search concept |
CN103678668A (zh) * | 2013-12-24 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 相关搜索结果的提示方法、服务器及系统 |
CN103984705A (zh) * | 2014-04-25 | 2014-08-13 | 北京奇虎科技有限公司 | 一种搜索结果的展示方法、装置和系统 |
CN104143005A (zh) * | 2014-08-04 | 2014-11-12 | 五八同城信息技术有限公司 | 一种相关搜索系统及方法 |
CN105786827A (zh) * | 2014-12-18 | 2016-07-20 | 中国科学院深圳先进技术研究院 | 基于效用的搜索引擎查询推荐方法 |
CN105159930A (zh) * | 2015-08-05 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 搜索关键词的推送方法和装置 |
CN105117491A (zh) * | 2015-09-22 | 2015-12-02 | 北京百度网讯科技有限公司 | 页面推送方法和装置 |
CN106021374A (zh) * | 2016-05-11 | 2016-10-12 | 百度在线网络技术(北京)有限公司 | 查询结果的底层召回方法和装置 |
Non-Patent Citations (2)
Title |
---|
ANAMIKA RAJPUT ET AL.: ""User Rating and Synonyms Based Modified Ranking Technique for Recommender Systems"", 《2015 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND COMMUNICATION NETWORKS》 * |
李佳 等: ""百度相关搜索功能的分析与应用"", 《情报搜索》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018223993A1 (zh) * | 2017-06-08 | 2018-12-13 | 广州优视网络科技有限公司 | 一种应用软件搜索方法、装置及服务器 |
CN107526846A (zh) * | 2017-09-27 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 频道排序模型的生成、排序方法、装置、服务器和介质 |
CN109857366A (zh) * | 2019-02-20 | 2019-06-07 | 武汉轻工大学 | 基于外存的插入排序方法、系统、设备及存储介质 |
CN110674400A (zh) * | 2019-09-18 | 2020-01-10 | 北京字节跳动网络技术有限公司 | 排序方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US10331685B2 (en) | 2019-06-25 |
CN106777282B (zh) | 2018-07-13 |
US20180189291A1 (en) | 2018-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777282B (zh) | 相关搜索的排序方法和装置 | |
CN108460082B (zh) | 一种推荐方法及装置,电子设备 | |
US9886517B2 (en) | Ranking product information | |
CN103593353B (zh) | 信息搜索方法、展示信息排序权重值确定方法及其装置 | |
CN103365839B (zh) | 一种搜索引擎的推荐搜索方法和装置 | |
CN102760138B (zh) | 用户网络行为的分类方法和装置及对应的搜索方法和装置 | |
WO2017121251A1 (zh) | 一种信息推送方法及装置 | |
JP6073345B2 (ja) | 検索結果をランク付けする方法および装置ならびに検索方法および装置 | |
CN102902753B (zh) | 用于补全搜索词及建立个体兴趣模型的方法及装置 | |
CN106372249A (zh) | 一种点击率预估方法、装置及电子设备 | |
CN110532351B (zh) | 推荐词展示方法、装置、设备及计算机可读存储介质 | |
CN103838754B (zh) | 信息搜索装置及方法 | |
EP2842060A1 (en) | Recommending keywords | |
EP2564305A1 (en) | Vertical search-based query method, system and apparatus | |
CN110222260A (zh) | 一种搜索方法、装置及存储介质 | |
CN103942328B (zh) | 一种视频检索方法及视频装置 | |
CN104217031A (zh) | 一种根据服务器搜索日志数据进行用户分类的方法和装置 | |
CN104636407B (zh) | 参数取值训练及搜索请求处理方法和装置 | |
CN112579854A (zh) | 信息处理方法、装置、设备和存储介质 | |
CN101685456A (zh) | 一种搜索的方法、系统和装置 | |
CN115905489B (zh) | 一种提供招投标信息搜索服务的方法 | |
CN109543113B (zh) | 确定点击推荐词的方法、装置、存储介质及电子设备 | |
CN108509449B (zh) | 一种信息处理的方法及服务器 | |
US20120310932A1 (en) | Determining matching degrees between information categories and displayed information | |
CN113407816A (zh) | 对象推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |