CN104077306A - 一种搜索引擎的结果排序方法及系统 - Google Patents

一种搜索引擎的结果排序方法及系统 Download PDF

Info

Publication number
CN104077306A
CN104077306A CN201310105175.4A CN201310105175A CN104077306A CN 104077306 A CN104077306 A CN 104077306A CN 201310105175 A CN201310105175 A CN 201310105175A CN 104077306 A CN104077306 A CN 104077306A
Authority
CN
China
Prior art keywords
commodity
sample
query word
feature
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310105175.4A
Other languages
English (en)
Other versions
CN104077306B (zh
Inventor
王�义
曾安祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310105175.4A priority Critical patent/CN104077306B/zh
Priority to TW102122362A priority patent/TWI591556B/zh
Priority to US14/222,254 priority patent/US9818142B2/en
Priority to PCT/US2014/031607 priority patent/WO2014160648A1/en
Priority to JP2015560415A priority patent/JP6152173B2/ja
Publication of CN104077306A publication Critical patent/CN104077306A/zh
Application granted granted Critical
Publication of CN104077306B publication Critical patent/CN104077306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种搜索引擎的结果排序方法及装置;方法包括:根据历史查询数据选取样本对,每一样本对中包括一个查询词及通过该查询词搜索得到的至少两个商品,设定所述商品在所述样本对中的相对排序;计算样本对中每一商品在该查询词下的各排序特征的特征分值;根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重;对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和,根据加权求和的结果进行商品的排序。本申请能对搜索引擎结果的排序进行优化。

Description

一种搜索引擎的结果排序方法及系统
技术领域
本发明涉及数据处理领域,尤其涉及一种排序方法及系统。
背景技术
随着电子商务网站的发展,搜索排序效果的好坏,越来越多的影响到用户的搜索以及购物体验。搜索引擎系统中,搜索结果的排序受很多因素影响,这些因素是排序系统在不断的迭代过程中,通过积累用户反馈,分析搜索行为数据获得的。这些因素通过一组特定的权重组合来对线上排序效果进行影响。目前,商品搜索引擎通过多特征的组合,在全局上设定一个排序模型,这组模型可以用于所有商品的排序。
在商品搜索结果的排序模型中,针对商品质量、商品文本匹配度、商品类目点击匹配度、商品价格匹配度、以及商品销量等多个排序特征都建立了评价机制。每组评价机制的背后都有一组算法模型或者是专家知识来对全网商品进行评价,评价都是以商品在上述排序特征上的特征分值来体现,这些特征分值组成了排序模型中的基础特征。
这些基础特征在实际应用的线上排序时,针对一个特定Query(查询)召回的商品列表中,商品的排序所依据的商品的得分是按照商品排序特征的特征分值的加权求和得到的。这里就涉及到了一个加权权重的问题,不同排序特征的特征分值在排序过程中,权重是不同的,例如:商品销量及商品类目的特征分值就有较高的权重,因为它们是用户直接关心的内容。相对而言,在电子商务的搜索引擎中,对于评价商品文本匹配度的特征分值就可以设定较低的权重。
目前,线上对所有商品的排序都同时使用一组排序权重参数,这组参数通过专家的专业知识进行选取,同时选取的这组排序权重参数会在线上通过A/B Test的方法进行验证。A/B Test是指在对搜索引擎排序效果进行优化时,需要比较优化算法的优劣,将系统全部查询流量均分成若干等份,选择其中一个等份的查询流量作为基础测试流量,调用既有系统算法对搜索结果排序,并获得用户反馈的行为数据,计算排序效果。对于其他等份的查询流量调用新的优化后的算法对搜索结果排序,并获得用户反馈的行为数据,计算排序效果。这样通过一段时间的对比实验,可以得出在不同搜索排序算法下的排序效果的对比结果。通过所述对比结果,可以选取排序效果好的搜索排序算法使用的权重参数。
这种权重参数选取方法存在三个大的缺陷:
(一)随着时间的推移,前期确定的权重参数可能不再符合目前线上的实际应用环境。目前的情况是,一旦既有的基础特征的权重参数确定后,后期就不会对该权重参数做调整。
(二)随着商品覆盖范围的增多,一组统一的线上权重参数已经无法满足对所有商品的排序,单一模型已经不能完全最大化所有类目商品的收益了。即,对某个行业或类目的商品适合的权重参数,对另一个行业或类目的商品可能就是不合适的。
(三)由于线上的权重参数都是通过专家的既有的专业知识确定的,这就导致了模型不能自主学习,自动更新。同时,每一组的模型参数的确定,都需要经过多次A/B Test,这其中因为经验知识的缺乏,可能导致实验时间过长,或者实验效果很差;而且这个过程中,会消耗大量的开发测试资源,同时权重的调整试验也有可能影响搜索的整体收益。
以上三个问题都有可能导致搜索排序结果较差,进而影响线上交易。
发明内容
本申请要解决的技术问题是如何对搜索引擎结果的排序进行优化。
为了解决上述问题,本申请提供了一种搜索引擎的结果排序方法,包括:
根据历史查询数据选取样本对,每一样本对中包括一个查询词及通过该查询词搜索得到的至少两个商品,根据样本对中用户通过该查询词搜索得到所述商品并对所述商品发生的行为特征设定所述商品在所述样本对中的相对排序;
计算样本对中每一商品在该查询词下的各排序特征的特征分值;
根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重;
对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和,根据加权求和的结果进行商品的排序。
进一步地,所述根据历史查询数据选取样本对、根据样本对中用户通过该查询词搜索得到所述商品并对所述商品发生的行为特征设定所述商品在所述样本对中的相对排序的步骤包括:
对于用户历史使用的各查询词分别进行以下操作:
根据搜索引擎的访问日志、点击日志、以及购买日志,分别统计在预定时间长度中该查询词所召回的各商品在该查询词下的点击率或转化率;
计算该查询词所召回的每两个商品在该查询词下的点击率/转化率之间的差值,将这些差值的绝对值的均值作为该查询词的点击率截断阈值/转化率截断阈值;
在该查询词所召回的商品中,将点击率之差的绝对值大于该查询词对应的点击率截断阈值的两个商品和该查询词作为一个样本对;该样本对中,设定在该查询词下点击率高的商品在所述样本对中的排序优于另一商品。
进一步地,计算样本对中每一商品在该查询词下的各排序特征的特征分值的步骤包括:
对于各样本对分别进行以下操作:
通过该样本对中的查询词,获取该查询词下的各排序特征;
在该样本对中商品的结构化描述数据中,提取用于计算所获取的各排序特征的特征分值的属性字段;
根据提取的属性字段计算所获取的各排序特征的特征分值;
将该样本对中的商品替换为根据该商品的属性字段计算得到的一组排序特征的特征分值。
进一步地,根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重的步骤包括:
对于待建模的样本对按照预定比例分为训练样本和测试样本;
根据训练样本里各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序进行机器学习模型训练,获得各排序特征的权重作为模型的输出结果;
通过测试样本对所述模型的输出结果进行准确率检验;
重复根据训练样本进行机器学习模型训练的步骤及准确率检验的步骤,直到准确率达到最优;将准确率达到最优时模型的输出结果作为最终得到的各排序特征的权重。
进一步地,根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练的步骤包括:
根据查询词所属类目,为该查询词所在的样本对标注该类目的标识;按照样本对的类目的标识,将样本对分为不同类目的样本集合;
分别根据不同类目的样本集合中各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到该类目中各排序特征的权重。
进一步地,对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和的步骤包括:
按照用户当前输入的查询词对应的类目的标识,获得该查询词下的各排序特征,以及该查询词对应的类目中各排序特征的权重;
获取当前输入的查询词召回的商品列表;
根据当前输入的查询词下的排序特征,以及所召回的商品列表中各商品的属性字段,分别计算所述商品列表中各商品在当前输入的查询词下各排序特征的特征分值;
根据所获取的权重和计算出的各排序特征的特征分值,对所召回的商品列表中各商品分别进行各排序特征的特征分值的加权求和。
本申请还提供了一种搜索引擎的结果排序装置,包括:
样本选取模块,用于根据历史查询数据选取样本对,每一样本对中包括一个查询词及通过该查询词搜索得到的至少两个商品,根据样本对中用户通过该查询词搜索得到所述商品并对所述商品发生的行为特征设定所述商品在所述样本对中的相对排序;
特征分值获取模块,用于计算样本对中每一商品在该查询词下的各排序特征的特征分值;
模型训练模块,用于根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重;
排序模块,用于对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和,根据加权求和的结果进行商品的排序。
进一步地,所述样本选取模块根据历史查询数据选取样本对是指:
所述样本选取模块对于用户历史使用的各查询词分别进行以下操作:
根据搜索引擎的访问日志、点击日志、以及购买日志,分别统计在预定时间长度中该查询词所召回的各商品在该查询词下的点击率或转化率;计算该查询词所召回的每两个商品在该查询词下的点击率/转化率之间的差值,将这些差值的绝对值的均值作为该查询词的点击率截断阈值/转化率截断阈值;在该查询词所召回的商品中,将点击率之差的绝对值大于该查询词对应的点击率截断阈值的两个商品和该查询词作为一个样本对;该样本对中,设定在该查询词下点击率高的商品在所述样本对中的排序优于另一商品。
进一步地,所述特征分值计算样本对中每一商品在该查询词下的各排序特征的特征分值是指:
所述特征分值获取模块对于各样本对分别进行以下操作:
通过该样本对中的查询词,获取该查询词下的各排序特征;在该样本对中商品的结构化描述数据中,提取用于计算所获取的各排序特征的特征分值的属性字段;根据提取的属性字段计算所获取的各排序特征的特征分值;将该样本对中的商品替换为根据该商品的属性字段计算得到的一组排序特征的特征分值。
进一步地,所述模型训练模块根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重是指:
所述模型训练模块对于待建模的样本对按照预定比例分为训练样本和测试样本;根据训练样本里各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序进行机器学习模型训练,获得各排序特征的权重作为模型的输出结果;通过测试样本对所述模型的输出结果进行准确率检验;重复根据训练样本进行机器学习模型训练及准确率检验的操作,直到准确率达到最优;将准确率达到最优时模型的输出结果作为最终得到的各排序特征的权重。
进一步地,所述样本选取模块还用于根据查询词所属类目,为该查询词所在的样本对标注该类目的标识;按照样本对的类目的标识,将样本对分为不同类目的样本集合;
所述模型训练模块根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重是指:
所述模型训练模块分别根据不同类目的样本集合中各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到该类目中各排序特征的权重。
进一步地,所述排序模块对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和是指:
所述排序模块按照用户当前输入的查询词对应的类目的标识,获得该查询词下的各排序特征,以及该查询词对应的类目中各排序特征的权重;获取当前输入的查询词召回的商品列表;根据当前输入的查询词下的排序特征,以及所召回的商品列表中各商品的属性字段,分别计算所述商品列表中各商品在当前输入的查询词下各排序特征的特征分值;根据所获取的权重和计算出的各排序特征的特征分值,对所召回的商品列表中各商品分别进行各排序特征的特征分值的加权求和。
本申请的至少一个实施例中,能够自动进行机器学习模型的训练,及时更新权重参数,从而优化搜索排序结果,提升用户搜索及购物体验。本申请的又一个实施例中,分类目进行模型训练,从而得到不同行业所采用的权重参数。本申请的又一个实施例中,在线下进行模型效果的预测,可减少A/BTest时间,有效提升排序效果。当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有优点。
附图说明
图1是实施例一的一种排序方法的流程示意图;
图2是实施例一中对于各查询词选取样本对的流程示意图;
图3是实施例一中对于各样本对进行特征分值替换的流程示意图;
图4是实施例一的一个例子的流程示意图。
具体实施方式
下面将结合附图及实施例对本申请的技术方案进行更详细的说明。
需要说明的是,如果不冲突,本申请实施例以及实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一,一种搜索引擎的结果排序方法,如图1所示,包括:
S101、根据历史查询数据选取样本对,每一样本对中包括一个查询词及通过该查询词搜索得到的至少两个商品,根据样本对中用户通过该查询词搜索得到所述商品并对所述商品发生的行为特征设定所述商品在样本对中的相对排序;
S102、计算样本对中每一商品在该查询词下的各排序特征的特征分值;
S103、根据各样本对中商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,获得各排序特征的权重;
S104、对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和,根据加权求和的结果进行商品的排序。
本实施例中,在收到查询请求时,根据机器学习得到的各排序特征的权重计算每一商品的排序分值,从而对该查询召回的商品列表中(即该查询请求搜索得到的商品列表)的商品排序。
在本实施例的一种备选方案中,用户对所述商品发生的行为特征包括用户对所述商品在搜索到该商品的查询词下的点击率和/或转化率。
如图2所示,在一个具体的实施中所述步骤S101可以包括,对于用户历史使用的各查询词分别进行以下操作:
步骤11、根据搜索引擎的访问日志、点击日志、以及购买日志,分别统计在预定时间长度(比如但不限于7天)中该查询词所召回的各商品在该查询词下的CTR(Click Through Rate,点击率);
其中,商品在查询词下的点击率或转化率表示用户通过该查询词搜索到该商品并对所述商品进行点击或购买的次数与该商品通过该查询词而展现的次数的比率。
步骤12、计算该查询词所召回的每两个商品在该查询词下的点击率之间的差值,将这些差值的绝对值的均值作为该查询词对应的点击率截断阈值CTR_THRELD;比如查询词召回的商品有商品A、商品B和商品C,在该查询词下,商品A的点击率为CTR A,商品B的点击率为CTR B,商品C的点击率为CTR C,则先分别计算CTR A和CTR B的差值、CTR A和CTR C的差值、CTR C和CTR B的差值,然后再将这些差值的绝对值的均值作为CTR_THRELD;
步骤13、在该查询词所召回的商品中,将点击率之差的绝对值大于该查询词对应的点击率截断阈值的两个商品和该查询词作为一个样本对;该样本对中,设定在该查询词下点击率高的商品在所述样本对中的排序优于另一商品;即:对于该查询词所召回的各商品,如果该查询词到第一商品的点击率减去该查询词到第二商品的点击率所得到的差值,大于该查询词的点击率截断阈值,则将该查询词、第一商品、第二商品作为一个样本对。在该样本对中,如果第一商品的点击率高于第二商品的点击率,则在该查询词对应的查询条件下,可以认为第一商品相较于第二商品更贴近用户的搜索意图,与该查询词的相关性更高。因此,对于在该样本对中的相关性排序,可以设定第一商品优于第二商品。即所述商品在样本对的相对排序中,点击率高的商品优于另一商品。当然,可以理解的,在历史的查询中,第一商品在搜索结果中的排序并不一定优先于第二商品。
对于一个查询词,可能会得到一个或多个样本对;最后,还可以将所得到的各查询词对应的样本对一起保存为样本集合。
上述步骤11中,也可以是统计在预定时间长度中该查询词所召回的各商品在该查询词下的转化率;相应的,步骤12中是计算该查询词所召回的每两个商品在该查询词下的转化率之间的差值,将这些差值的绝对值的均值作为该查询词对应的转化率截断阈值;步骤13中则是将转化率之差的绝对值大于该查询词对应的转化率截断阈值的两个商品作为一个样本对;可以设定该样本对中在该查询词下的转化率高的商品和该查询词的相关性高于另一商品。即在样本对中的相对排序中,设定转化率高的商品优于另一商品。
其中,在某一查询词下商品的CTR是指用户在搜索引擎中按照该查询词搜索到该商品并在该商品上发生点击的次数与按照该查询词进行搜索的次数的比值。在某一查询词下商品的转化率是指用户在搜索引擎中按照该查询词搜索到该商品并购买该商品的次数与按照该查询词进行搜索的次数的比值。
这样获取的样本集合中的各样本可以表示为(query,baobei_A,baobei_B),其中query为查询词,第一商品baobei_A和第二商品baobei_B都是查询词的召回结果(即搜索结果),且根据用户在第一商品和第二商品的行为统计,确定了第一商品和第二商品在样本对中的相对排序。
在传统的排序模型中,训练样本都是通过人工标注出来的,这样做的弊端是,需要消耗大量的人力成本。本备选方案采用Pair-wise(样本对)的方法,提取的样本只需要标注一个查询下,商品A和商品B中哪一个商品的优先度高,并不需要查询到每个商品的排序分值。通过搜索引擎中的用户行为,提取这类样本对作为样本集合。
在对用户当前输入的查询词获得的商品搜索结果进行排序时,需要根据商品在各排序特征上的特征分值进行加权求和后的综合排序分值得到商品的排序,每一排序特征对用户的搜索意图的影响程度可能不一样,因此,每一排序特征对应的权重参数也可能不同。
本备选方案中,为了提升查询词下搜索结果的点击率或转化率,对各排序特征的权重参数进行优化。通过机器学习的方式建立排序特征、权重参数与排序结果的关系模型,对排序中各排序特征的权重参数进行预估。在训练模型的过程中,要根据提升目标来提取所需要的样本集合。如果,现在的主要目标是提高查询词下搜索结果的点击率CTR,因此以用户的点击行为作为提取样本的标准。如果主要目标是提高转化率,则以购买行为作为提取样本的标准。在其它备选方案中,对于不同的目标可以选择不同的样本选取策略。
在本备选方案的一种实施方式中,还可以进一步根据查询词所属类目,为该查询词所在的样本对标注该类目的标识。查询词所属类目可事先指定。
在本实施例的一种备选方案中,所述步骤S102具体可以包括:
如图3所示,对于各样本对分别进行以下操作:
步骤21、通过该样本对中的查询词,获取该查询词下的各排序特征;
步骤22、在该样本对中商品的结构化描述数据中,提取用于计算所获取的各排序特征的特征分值的属性字段;其中,属性字段即结构化描述数据中一个数据项,不同特征分值的计算可能需要特定的几个数据项,可以事先指定特征分值和数据项之间的对应关系;从结构化描述数据中获得数据项时既可以是从数据库中查询得到,也可以是从分布式存储服务中提取得到;
步骤23、根据提取的属性字段计算所获取的各排序特征的特征分值;
步骤24、将该样本对中的商品替换为根据该商品的属性字段计算得到的一组排序特征的特征分值,这样就可以还原出该查询词下每个商品的各排序特征的特征分值。
此时,样本对表示为:
(query,feature1_A,feature2_A,...,featureN_A,feature1_B,feature2_B,...,featureN_B)
其中,feature1_A,feature2_A,...,featureN_A是查询词query对应的第一商品A在各排序特征上的特征分值列表,feature1_B,feature2_B,...,featureN_B是查询词query对应的第二商品A在各排序特征上的特征分值列表;N为特征分值的个数。
如果样本对已标注有类目标识,则步骤21中还可以进一步获取查询词的分词信息,查询词对应的类目分布信息,以及查询词对应的其它信息。
在本实施例的一种备选方案中,所述步骤S103具体可以包括:
对于待建模的样本对按照预定比例(比如但不限于为2∶1)分为训练样本和测试样本;
根据训练样本里各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序进行机器学习模型训练,获得各排序特征的权重作为模型的输出结果,这组权重表征每个排序特征在排序时的有效性;
通过测试样本对所述模型的输出结果进行准确率检验;
重复根据训练样本进行机器学习模型训练及准确率检验的步骤,直到准确率达到最优;将准确率达到最优时模型的输出结果作为最终得到的各排序特征的权重。
在该备选方案的一种实施方式中,所述根据训练样本进行建模的步骤中可以但不限于使用RankSVM作为模型训练算法。
RankSVM是一种pair-wise的排序分类算法,它可以对一组查询词下属性字段的排序样本进行学习,获得到排序模型。因为RankSVM是基于SVM进行开发的,它支持各种不同的核函数进行分类,包括高斯核、多项式核、线性核等。其中,高斯核和多项式核可以将低维问题转化为高维问题,从而提高模型的准确率,但是这两种核的模型训练速度较慢,同时在线上预测是复杂度也较高。而线性核虽然泛化能力较弱,但是它训练速度较快,而且目前系统的线性排序方式比较容易结合。因此,比较优选的方案是使用线性核。
在别的实施方式中,模型训练也可以采用List-wise,获得多目标集成优化的方法,来提高模型预测的准确性。
对原始的样本对需转换为RankSVM所需的特定样本格式,而基于上述两步骤得到的样本对中两个商品的各排序特征的特征分值列表如下,其中“1”和“0”是用于表示两个商品在样本对中的相对排序的标识,具有标识“1”的商品为排序在前的商品,具有标识“0”的商品为排序在后的商品:
(1,feature1_A,feature2_A,...,featureN_A)
(0,feature1_B,feature2_B,...,featureN_B)
可根据该样本对采用RankSVM算法得到排序模型。
在本实施例的一种备选方案中,步骤S103具体可以包括:
根据查询词所属类目,为该查询词所在的样本对标注该类目的标识;按照样本对的类目的标识,将样本对分为不同类目的样本集合;
分别根据不同类目的样本集合中各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到该类目中各排序特征的权重。
通过离线训练获得的各排序特征的权重需要在线上使用;由于针对不同类目下的查询词对应的样本集合会为各类目分别训练出一个模型,不同类目下的排序特征会有不同的权重,使线上排序根据不同类目的查询词有不同的效果。
在该备选方案的一种实施方式中,对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和的步骤具体可以包括:
按照用户当前输入的查询词对应的类目的标识Predict_cat,获得该查询词下的各排序特征,以及该查询词对应的类目的排序模型model_cat,即该类目中各排序特征的权重:(weight_1,weight_2,...,weight_N);
获取当前输入的查询词召回的商品列表;
根据当前输入的查询词下的排序特征,以及所召回的商品列表中各商品的属性字段,分别计算所述商品列表中各商品在当前输入的查询词下各排序特征的特征分值;每个商品的计算结果可以表示为如下的特征分值向量:
(feature1,feature2,...,featureN);
根据所获取的权重和计算出的各排序特征的特征分值,对所召回的商品列表中各商品分别进行各排序特征的特征分值的加权求和,即按照下式分别计算各商品的得分score:
score = Σ i = 1 N ( feature _ i * weight _ i ) ;
全部计算完成后就可以基于每个商品的得分,对商品列表中的各商品进行排序了。
一个具体例子如图4所示,当用户请求在域名为xxx的网页中使用查询词“手机”进行商品查询时,查询服务器(QP服务器)将该查询请求发给搜索引擎;搜索引擎按照查询词的类目选择排序模型,比如图4中的服务行业排序模型、手机行业排序模型或其它行业排序模型;然后根据排序模型对查询词召回的商品进行排序,并通过查询服务器返回给用户。
实施例二,一种搜索引擎的结果排序装置,包括:
样本选取模块,用于根据历史查询数据选取样本对,每一样本对中包括一个查询词及通过该查询词搜索得到的至少两个商品,根据样本对中用户通过该查询词搜索得到所述商品并对所述商品发生的行为特征设定所述商品在所述样本对中的相对排序;
特征分值获取模块,用于计算样本对中每一商品在该查询词下的各排序特征的特征分值;
模型训练模块,用于根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重;
排序模块,用于对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和,根据加权求和的结果进行商品的排序。
本实施例的一种备选方案中,所述样本选取模块根据历史查询数据选取样本对具体可以是指:
所述样本选取模块对于用户历史使用的各查询词分别进行以下操作:
根据搜索引擎的访问日志、点击日志、以及购买日志,分别统计在预定时间长度中该查询词所召回的各商品在该查询词下的点击率或转化率;计算该查询词所召回的每两个商品在该查询词下的点击率/转化率之间的差值,将这些差值的绝对值的均值作为该查询词的点击率截断阈值/转化率截断阈值;在该查询词所召回的商品中,将点击率之差的绝对值大于该查询词对应的点击率截断阈值的两个商品和该查询词作为一个样本对;该样本对中,设定在该查询词下点击率高的商品在所述样本对中的排序优于另一商品。
本实施例的一种备选方案中,所述特征分值计算样本对中每一商品在该查询词下的各排序特征的特征分值是指:
所述特征分值获取模块对于各样本对分别进行以下操作:
通过该样本对中的查询词,获取该查询词下的各排序特征;在该样本对中商品的结构化描述数据中,提取用于计算所获取的各排序特征的特征分值的属性字段;根据提取的属性字段计算所获取的各排序特征的特征分值;将该样本对中的商品替换为根据该商品的属性字段计算得到的一组排序特征的特征分值。
本实施例的一种备选方案中,所述模型训练模块根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重是指:
所述模型训练模块对于待建模的样本对按照预定比例分为训练样本和测试样本;根据训练样本里各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序进行机器学习模型训练,获得各排序特征的权重作为模型的输出结果;通过测试样本对所述模型的输出结果进行准确率检验;重复根据训练样本进行机器学习模型训练及准确率检验的操作,直到准确率达到最优;将准确率达到最优时模型的输出结果作为最终得到的各排序特征的权重。
该备选方案的一些实施方式中,可以通过RankSVM对训练样本进行建模,使用线性核进行训练。
本实施例的一种备选方案中,所述样本选取模块还用于根据查询词所属类目,为该查询词所在的样本对标注该类目的标识;按照样本对的类目的标识,将样本对分为不同类目的样本集合;
该备选方案中,所述模型训练模块根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重是指:
所述模型训练模块分别根据不同类目的样本集合中各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到该类目中各排序特征的权重。
该备选方案中,所述排序模块对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和是指:
所述排序模块按照用户当前输入的查询词对应的类目的标识,获得该查询词下的各排序特征,以及该查询词对应的类目中各排序特征的权重;获取当前输入的查询词召回的商品列表;根据当前输入的查询词下的排序特征,以及所召回的商品列表中各商品的属性字段,分别计算所述商品列表中各商品在当前输入的查询词下各排序特征的特征分值;根据所获取的权重和计算出的各排序特征的特征分值,对所召回的商品列表中各商品分别进行各排序特征的特征分值的加权求和。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
当然,本申请还可有其他多种实施例,在不背离本申请精神及其实质的情况下,熟悉本领域的技术人员当可根据本申请作出各种相应的改变和变形,但这些相应的改变和变形都应属于本申请的权利要求的保护范围。

Claims (12)

1.一种搜索引擎的结果排序方法,其特征在于,包括:
根据历史查询数据选取样本对,每一样本对中包括一个查询词及通过该查询词搜索得到的至少两个商品,根据样本对中用户通过该查询词搜索得到所述商品并对所述商品发生的行为特征设定所述商品在所述样本对中的相对排序;
计算样本对中每一商品在该查询词下的各排序特征的特征分值;
根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重;
对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和,根据加权求和的结果进行商品的排序。
2.如权利要求1所述的方法,其特征在于,所述根据历史查询数据选取样本对、根据样本对中用户通过该查询词搜索得到所述商品并对所述商品发生的行为特征设定所述商品在所述样本对中的相对排序的步骤包括:
对于用户历史使用的各查询词分别进行以下操作:
根据搜索引擎的访问日志、点击日志、以及购买日志,分别统计在预定时间长度中该查询词所召回的各商品在该查询词下的点击率或转化率;
计算该查询词所召回的每两个商品在该查询词下的点击率/转化率之间的差值,将这些差值的绝对值的均值作为该查询词的点击率截断阈值/转化率截断阈值;
在该查询词所召回的商品中,将点击率之差的绝对值大于该查询词对应的点击率截断阈值的两个商品和该查询词作为一个样本对;该样本对中,设定在该查询词下点击率高的商品在所述样本对中的排序优于另一商品。
3.如权利要求1所述的方法,其特征在于,计算样本对中每一商品在该查询词下的各排序特征的特征分值的步骤包括:
对于各样本对分别进行以下操作:
通过该样本对中的查询词,获取该查询词下的各排序特征;
在该样本对中商品的结构化描述数据中,提取用于计算所获取的各排序特征的特征分值的属性字段;
根据提取的属性字段计算所获取的各排序特征的特征分值;
将该样本对中的商品替换为根据该商品的属性字段计算得到的一组排序特征的特征分值。
4.如权利要求1所述的方法,其特征在于,根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重的步骤包括:
对于待建模的样本对按照预定比例分为训练样本和测试样本;
根据训练样本里各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序进行机器学习模型训练,获得各排序特征的权重作为模型的输出结果;
通过测试样本对所述模型的输出结果进行准确率检验;
重复根据训练样本进行机器学习模型训练的步骤及准确率检验的步骤,直到准确率达到最优;将准确率达到最优时模型的输出结果作为最终得到的各排序特征的权重。
5.如权利要求1到4中任一项所述的方法,其特征在于,根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练的步骤包括:
根据查询词所属类目,为该查询词所在的样本对标注该类目的标识;按照样本对的类目的标识,将样本对分为不同类目的样本集合;
分别根据不同类目的样本集合中各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到该类目中各排序特征的权重。
6.如权利要求5所述的方法,其特征在于,对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和的步骤包括:
按照用户当前输入的查询词对应的类目的标识,获得该查询词下的各排序特征,以及该查询词对应的类目中各排序特征的权重;
获取当前输入的查询词召回的商品列表;
根据当前输入的查询词下的排序特征,以及所召回的商品列表中各商品的属性字段,分别计算所述商品列表中各商品在当前输入的查询词下各排序特征的特征分值;
根据所获取的权重和计算出的各排序特征的特征分值,对所召回的商品列表中各商品分别进行各排序特征的特征分值的加权求和。
7.一种搜索引擎的结果排序装置,其特征在于,包括:
样本选取模块,用于根据历史查询数据选取样本对,每一样本对中包括一个查询词及通过该查询词搜索得到的至少两个商品,根据样本对中用户通过该查询词搜索得到所述商品并对所述商品发生的行为特征设定所述商品在所述样本对中的相对排序;
特征分值获取模块,用于计算样本对中每一商品在该查询词下的各排序特征的特征分值;
模型训练模块,用于根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重;
排序模块,用于对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和,根据加权求和的结果进行商品的排序。
8.如权利要求7所述的装置,其特征在于,所述样本选取模块根据历史查询数据选取样本对是指:
所述样本选取模块对于用户历史使用的各查询词分别进行以下操作:
根据搜索引擎的访问日志、点击日志、以及购买日志,分别统计在预定时间长度中该查询词所召回的各商品在该查询词下的点击率或转化率;计算该查询词所召回的每两个商品在该查询词下的点击率/转化率之间的差值,将这些差值的绝对值的均值作为该查询词的点击率截断阈值/转化率截断阈值;在该查询词所召回的商品中,将点击率之差的绝对值大于该查询词对应的点击率截断阈值的两个商品和该查询词作为一个样本对;该样本对中,设定在该查询词下点击率高的商品在所述样本对中的排序优于另一商品。
9.如权利要求7所述的装置,其特征在于,所述特征分值计算样本对中每一商品在该查询词下的各排序特征的特征分值是指:
所述特征分值获取模块对于各样本对分别进行以下操作:
通过该样本对中的查询词,获取该查询词下的各排序特征;在该样本对中商品的结构化描述数据中,提取用于计算所获取的各排序特征的特征分值的属性字段;根据提取的属性字段计算所获取的各排序特征的特征分值;将该样本对中的商品替换为根据该商品的属性字段计算得到的一组排序特征的特征分值。
10.如权利要求7所述的装置,其特征在于,所述模型训练模块根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重是指:
所述模型训练模块对于待建模的样本对按照预定比例分为训练样本和测试样本;根据训练样本里各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序进行机器学习模型训练,获得各排序特征的权重作为模型的输出结果;通过测试样本对所述模型的输出结果进行准确率检验;重复根据训练样本进行机器学习模型训练及准确率检验的操作,直到准确率达到最优;将准确率达到最优时模型的输出结果作为最终得到的各排序特征的权重。
11.如权利要求7到10中任一项所述的装置,其特征在于:
所述样本选取模块还用于根据查询词所属类目,为该查询词所在的样本对标注该类目的标识;按照样本对的类目的标识,将样本对分为不同类目的样本集合;
所述模型训练模块根据各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到各排序特征的权重是指:
所述模型训练模块分别根据不同类目的样本集合中各样本对中的商品在各排序特征上的特征分值及各样本对中所述商品的相对排序,进行机器学习模型的训练,得到该类目中各排序特征的权重。
12.如权利要求11所述的装置,其特征在于,所述排序模块对用户当前输入的查询词召回的商品列表中的各商品,按照所得到的权重进行所述商品列表中每一商品在当前输入的查询词下各排序特征的特征分值的加权求和是指:
所述排序模块按照用户当前输入的查询词对应的类目的标识,获得该查询词下的各排序特征,以及该查询词对应的类目中各排序特征的权重;获取当前输入的查询词召回的商品列表;根据当前输入的查询词下的排序特征,以及所召回的商品列表中各商品的属性字段,分别计算所述商品列表中各商品在当前输入的查询词下各排序特征的特征分值;根据所获取的权重和计算出的各排序特征的特征分值,对所召回的商品列表中各商品分别进行各排序特征的特征分值的加权求和。
CN201310105175.4A 2013-03-28 2013-03-28 一种搜索引擎的结果排序方法及系统 Active CN104077306B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201310105175.4A CN104077306B (zh) 2013-03-28 2013-03-28 一种搜索引擎的结果排序方法及系统
TW102122362A TWI591556B (zh) 2013-03-28 2013-06-24 Search engine results sorting method and system
US14/222,254 US9818142B2 (en) 2013-03-28 2014-03-21 Ranking product search results
PCT/US2014/031607 WO2014160648A1 (en) 2013-03-28 2014-03-24 Ranking product search results
JP2015560415A JP6152173B2 (ja) 2013-03-28 2014-03-24 商品検索結果の順位付け

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310105175.4A CN104077306B (zh) 2013-03-28 2013-03-28 一种搜索引擎的结果排序方法及系统

Publications (2)

Publication Number Publication Date
CN104077306A true CN104077306A (zh) 2014-10-01
CN104077306B CN104077306B (zh) 2018-05-11

Family

ID=51598566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310105175.4A Active CN104077306B (zh) 2013-03-28 2013-03-28 一种搜索引擎的结果排序方法及系统

Country Status (5)

Country Link
US (1) US9818142B2 (zh)
JP (1) JP6152173B2 (zh)
CN (1) CN104077306B (zh)
TW (1) TWI591556B (zh)
WO (1) WO2014160648A1 (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005579A (zh) * 2015-05-28 2015-10-28 携程计算机技术(上海)有限公司 Ota网站中酒店房型个性化排序方法及系统
CN105808541A (zh) * 2014-12-29 2016-07-27 阿里巴巴集团控股有限公司 一种信息匹配处理方法和装置
CN106021374A (zh) * 2016-05-11 2016-10-12 百度在线网络技术(北京)有限公司 查询结果的底层召回方法和装置
CN106445971A (zh) * 2015-08-11 2017-02-22 北京奇虎科技有限公司 一种应用推荐方法和系统
CN106504011A (zh) * 2015-09-06 2017-03-15 阿里巴巴集团控股有限公司 一种业务对象的展示方法和装置
CN106503258A (zh) * 2016-11-18 2017-03-15 深圳市世强元件网络有限公司 一种网站站内精确搜索方法
CN106502881A (zh) * 2016-09-20 2017-03-15 北京三快在线科技有限公司 一种商品排序规则的测试方法和装置
CN106874352A (zh) * 2016-12-28 2017-06-20 河北中废通网络技术有限公司 一种搜索因子调整的方法
CN107103519A (zh) * 2017-05-02 2017-08-29 深圳市水觅网络发展有限公司 一种可购买商品多种消费模式的网络购物系统
CN108108380A (zh) * 2016-11-25 2018-06-01 阿里巴巴集团控股有限公司 搜索排序方法、搜索排序装置、搜索方法和搜索装置
CN108304512A (zh) * 2018-01-19 2018-07-20 北京奇艺世纪科技有限公司 一种视频搜索引擎粗排序方法、装置及电子设备
CN108335137A (zh) * 2018-01-31 2018-07-27 北京三快在线科技有限公司 排序方法及装置、电子设备、计算机可读介质
CN108509461A (zh) * 2017-02-28 2018-09-07 华为技术有限公司 一种基于强化学习的排序学习方法及服务器
CN108702449A (zh) * 2016-02-29 2018-10-23 华为技术有限公司 图像搜索方法及其系统
WO2018214503A1 (zh) * 2017-05-23 2018-11-29 北京三快在线科技有限公司 一种样本权重设置方法及装置、电子设备
CN109032375A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 候选文本排序方法、装置、设备及存储介质
CN109191229A (zh) * 2018-07-16 2019-01-11 三星电子(中国)研发中心 增强现实装饰物推荐方法及装置
CN109189904A (zh) * 2018-08-10 2019-01-11 上海中彦信息科技股份有限公司 个性化搜索方法及系统
CN109299344A (zh) * 2018-10-26 2019-02-01 Oppo广东移动通信有限公司 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN110175883A (zh) * 2019-04-10 2019-08-27 拉扎斯网络科技(上海)有限公司 一种排序方法、装置、电子设备和非易失性存储介质
CN110377831A (zh) * 2019-07-25 2019-10-25 拉扎斯网络科技(上海)有限公司 检索方法、装置、可读存储介质和电子设备
CN110737816A (zh) * 2018-07-02 2020-01-31 北京三快在线科技有限公司 排序方法、装置、电子设备及可读存储介质
CN110765349A (zh) * 2019-09-27 2020-02-07 上海麦克风文化传媒有限公司 一种自动排序权重操作方法
CN110827106A (zh) * 2018-08-08 2020-02-21 北京京东尚科信息技术有限公司 构建搜索模型的方法及装置以及商品搜索方法及装置
CN110968767A (zh) * 2018-09-28 2020-04-07 北京嘀嘀无限科技发展有限公司 排序引擎训练方法及装置、业务卡排序方法及装置
CN111221943A (zh) * 2020-01-13 2020-06-02 口口相传(北京)网络技术有限公司 查询结果匹配度计算方法及装置
CN111581545A (zh) * 2020-05-12 2020-08-25 腾讯科技(深圳)有限公司 一种召回文档的排序方法及相关设备
CN112084307A (zh) * 2020-09-14 2020-12-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、服务器及计算机可读存储介质
CN112100444A (zh) * 2020-09-27 2020-12-18 四川长虹电器股份有限公司 一种基于机器学习的搜索结果排序方法及系统
CN112100529A (zh) * 2020-11-17 2020-12-18 北京三快在线科技有限公司 搜索内容排序方法、装置、存储介质和电子设备
CN112579767A (zh) * 2019-09-29 2021-03-30 北京搜狗科技发展有限公司 搜索处理方法、装置和用于搜索处理的装置
CN112686695A (zh) * 2020-12-25 2021-04-20 郑州阿帕斯数云信息科技有限公司 广告位的广告填充方法及广告客户端和电子设备
CN113177162A (zh) * 2021-06-29 2021-07-27 北京达佳互联信息技术有限公司 搜索结果的排序方法、装置、电子设备和存储介质
CN113536156A (zh) * 2020-04-13 2021-10-22 百度在线网络技术(北京)有限公司 搜索结果排序方法、模型构建方法、装置、设备和介质
CN113673866A (zh) * 2021-08-20 2021-11-19 上海寻梦信息技术有限公司 农作物决策方法、模型训练方法以及相关设备
CN113744015A (zh) * 2020-10-20 2021-12-03 北京沃东天骏信息技术有限公司 一种排序方法、装置、设备及计算机存储介质
CN113781146A (zh) * 2020-11-17 2021-12-10 北京沃东天骏信息技术有限公司 产品信息的推荐方法、装置、设备和存储介质
CN114186682A (zh) * 2021-12-10 2022-03-15 北京达佳互联信息技术有限公司 搜索视频排序网络的训练方法、搜索视频排序方法和装置
CN114282965A (zh) * 2021-12-21 2022-04-05 唯品会(广州)软件有限公司 召回方案评估方法、装置及计算机设备
CN115186163A (zh) * 2022-06-27 2022-10-14 北京百度网讯科技有限公司 搜索结果排序模型的训练与搜索结果排序方法、装置
WO2023142042A1 (zh) * 2022-01-29 2023-08-03 华为技术有限公司 排序模型训练方法、装置及存储介质

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8661403B2 (en) 2011-06-30 2014-02-25 Truecar, Inc. System, method and computer program product for predicting item preference using revenue-weighted collaborative filter
US9524520B2 (en) * 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Training a classification model to predict categories
US9524319B2 (en) * 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Search relevance
WO2015151206A1 (ja) 2014-03-31 2015-10-08 楽天株式会社 購入管理装置、購入管理方法、プログラム、及び記録媒体
US9633085B2 (en) * 2014-06-06 2017-04-25 Macy's West Stores, Inc. Method for calculating relevancy scores of search results
US20160364783A1 (en) * 2014-06-13 2016-12-15 Truecar, Inc. Systems and methods for vehicle purchase recommendations
US10592781B2 (en) * 2014-07-18 2020-03-17 The Boeing Company Devices and method for scoring data to quickly identify relevant attributes for instant classification
US10949785B2 (en) * 2015-01-28 2021-03-16 Micro Focus Llc Product portfolio rationalization
US10417578B2 (en) * 2015-09-25 2019-09-17 Conduent Business Services, Llc Method and system for predicting requirements of a user for resources over a computer network
EP3374947A4 (en) * 2015-11-09 2019-03-27 Simbe Robotics, Inc. METHOD FOR FOLLOWING A STOCK LEVEL IN A STORE
CN106774970B (zh) * 2015-11-24 2021-08-20 北京搜狗科技发展有限公司 对输入法的候选项进行排序的方法和装置
CN106844379A (zh) * 2015-12-04 2017-06-13 北京国双科技有限公司 关键词投放的处理方法及装置
EP3190550A1 (en) * 2016-01-11 2017-07-12 Nintendo Co., Ltd. Method and device for refining selection of items as a function of a multicomponent score criterion
CN107153630B (zh) 2016-03-04 2020-11-06 阿里巴巴集团控股有限公司 一种机器学习系统的训练方法和训练系统
US11580582B1 (en) * 2016-03-08 2023-02-14 Gerald McLaughlin Method and system for description database creation, organization, and use
JP6728404B2 (ja) 2016-05-19 2020-07-22 シムビ ロボティクス, インコーポレイテッドSimbe Robotics, Inc. 店舗の棚への製品の配置を追跡する方法
JP6250106B1 (ja) * 2016-07-05 2017-12-20 ヤフー株式会社 情報解析装置、情報解析方法、および情報解析プログラム
CN107622056B (zh) * 2016-07-13 2021-03-02 百度在线网络技术(北京)有限公司 训练样本的生成方法和装置
US10769156B2 (en) 2016-08-26 2020-09-08 Microsoft Technology Licensing, Llc Rank query results for relevance utilizing external context
CN106484766B (zh) * 2016-09-07 2019-10-22 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
WO2018094117A1 (en) * 2016-11-17 2018-05-24 Interactive Intelligence Group, Inc. System and method for managing contact center system
JP6723182B2 (ja) * 2017-03-17 2020-07-15 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
TWI645350B (zh) 2017-11-24 2018-12-21 財團法人工業技術研究院 決策因素分析裝置與決策因素分析方法
US10839419B2 (en) 2018-01-09 2020-11-17 International Business Machines Corporation Multi-layered product value score generation
US10915538B2 (en) * 2018-03-23 2021-02-09 Home Depot Product Authority, Llc Ranking and presenting search engine results based on category-specific ranking models
US10395306B1 (en) * 2018-04-25 2019-08-27 Sourceability North America LLC Electronic component sourcing user interface
CN108875776B (zh) * 2018-05-02 2021-08-20 北京三快在线科技有限公司 模型训练方法和装置、业务推荐的方法和装置、电子设备
WO2019237298A1 (en) 2018-06-14 2019-12-19 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for on-demand services
EP3811320A4 (en) 2018-06-20 2022-03-16 Simbe Robotics, Inc. METHOD FOR MANAGING ONE-CLICK PURCHASING AND DELIVERY EVENTS
US10970400B2 (en) * 2018-08-14 2021-04-06 Kenna Security, Inc. Multi-stage training of machine learning models
JP7243333B2 (ja) * 2019-03-15 2023-03-22 富士通株式会社 情報処理方法、情報処理プログラム、および情報処理装置
JP7042770B2 (ja) * 2019-04-17 2022-03-28 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
CN110263245B (zh) * 2019-04-29 2020-08-21 阿里巴巴集团控股有限公司 基于强化学习模型向用户推送对象的方法和装置
US10902298B2 (en) 2019-04-29 2021-01-26 Alibaba Group Holding Limited Pushing items to users based on a reinforcement learning model
US11599548B2 (en) * 2019-07-01 2023-03-07 Kohl's, Inc. Utilize high performing trained machine learning models for information retrieval in a web store
US11720947B2 (en) 2019-10-17 2023-08-08 Ebay Inc. Method, media, and system for generating diverse search results for presenting to a user
WO2021108555A1 (en) 2019-11-25 2021-06-03 Simbe Robotics, Inc Method for tracking and maintaining inventory in a store
TWI784218B (zh) * 2019-12-11 2022-11-21 中華電信股份有限公司 商品排名裝置以及商品排名方法
US11625644B1 (en) * 2020-02-18 2023-04-11 Amazon Technologies, Inc. Multi-objective ranking of search results
CN111400343B (zh) * 2020-03-10 2023-11-17 汇信软投(佛山)软件科技发展有限公司 匹配产品模具的查询方法、装置及计算机设备
KR102418953B1 (ko) * 2020-05-11 2022-07-11 네이버 주식회사 쇼핑 검색 결과 확장 방법 및 시스템
US11893385B2 (en) 2021-02-17 2024-02-06 Open Weaver Inc. Methods and systems for automated software natural language documentation
US11836202B2 (en) * 2021-02-24 2023-12-05 Open Weaver Inc. Methods and systems for dynamic search listing ranking of software components
US12106094B2 (en) 2021-02-24 2024-10-01 Open Weaver Inc. Methods and systems for auto creation of software component reference guide from multiple information sources
US11836069B2 (en) 2021-02-24 2023-12-05 Open Weaver Inc. Methods and systems for assessing functional validation of software components comparing source code and feature documentation
US11921763B2 (en) 2021-02-24 2024-03-05 Open Weaver Inc. Methods and systems to parse a software component search query to enable multi entity search
US11947530B2 (en) 2021-02-24 2024-04-02 Open Weaver Inc. Methods and systems to automatically generate search queries from software documents to validate software component search engines
US11960492B2 (en) 2021-02-24 2024-04-16 Open Weaver Inc. Methods and systems for display of search item scores and related information for easier search result selection
US11853745B2 (en) 2021-02-26 2023-12-26 Open Weaver Inc. Methods and systems for automated open source software reuse scoring
US20230058770A1 (en) * 2021-08-19 2023-02-23 The Boston Consulting Group, Inc. Insight capturing engine in a data analytics system
CN113724015A (zh) * 2021-09-07 2021-11-30 北京沃东天骏信息技术有限公司 确定目标显示页面的方法、装置、电子设备及存储介质
JP7127749B2 (ja) 2021-12-09 2022-08-30 オムロン株式会社 推奨情報特定装置、推奨情報特定システム、推奨情報特定方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158971A (zh) * 2007-11-15 2008-04-09 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN101604341A (zh) * 2009-01-07 2009-12-16 北京中加国道科技有限公司 一种评价网络学术资源重要性的新方法
CN101957859A (zh) * 2010-10-15 2011-01-26 西安电子科技大学 基于集成支撑矢量机排序的信息检索方法
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7246110B1 (en) 2000-05-25 2007-07-17 Cnet Networks, Inc. Product feature and relation comparison system
US20050160107A1 (en) * 2003-12-29 2005-07-21 Ping Liang Advanced search, file system, and intelligent assistant agent
US7925651B2 (en) 2007-01-11 2011-04-12 Microsoft Corporation Ranking items by optimizing ranking cost function
US20080255925A1 (en) 2007-04-16 2008-10-16 Aditya Vailaya Systems and methods for generating value-based information
US8301638B2 (en) 2008-09-25 2012-10-30 Microsoft Corporation Automated feature selection based on rankboost for ranking
CN102591876A (zh) 2011-01-14 2012-07-18 阿里巴巴集团控股有限公司 搜索结果排序方法及装置
JP5451673B2 (ja) 2011-03-28 2014-03-26 ヤフー株式会社 検索ランキング生成装置及び方法
US8843477B1 (en) * 2011-10-31 2014-09-23 Google Inc. Onsite and offsite search ranking results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158971A (zh) * 2007-11-15 2008-04-09 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN101604341A (zh) * 2009-01-07 2009-12-16 北京中加国道科技有限公司 一种评价网络学术资源重要性的新方法
CN101957859A (zh) * 2010-10-15 2011-01-26 西安电子科技大学 基于集成支撑矢量机排序的信息检索方法
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THORSTEN JOACHIMS: "Optimizing search engines using clickthrough data", 《PROCEEDINGS OF THE EIGHTH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
王斓樾: "用户行为分析在搜索引擎中的应用", 《中国优秀硕士学位论文全文数据库》 *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808541A (zh) * 2014-12-29 2016-07-27 阿里巴巴集团控股有限公司 一种信息匹配处理方法和装置
CN105808541B (zh) * 2014-12-29 2019-11-08 阿里巴巴集团控股有限公司 一种信息匹配处理方法和装置
CN105005579A (zh) * 2015-05-28 2015-10-28 携程计算机技术(上海)有限公司 Ota网站中酒店房型个性化排序方法及系统
CN106445971A (zh) * 2015-08-11 2017-02-22 北京奇虎科技有限公司 一种应用推荐方法和系统
CN106504011A (zh) * 2015-09-06 2017-03-15 阿里巴巴集团控股有限公司 一种业务对象的展示方法和装置
CN106504011B (zh) * 2015-09-06 2019-11-05 阿里巴巴集团控股有限公司 一种业务对象的展示方法和装置
US10891019B2 (en) 2016-02-29 2021-01-12 Huawei Technologies Co., Ltd. Dynamic thumbnail selection for search results
CN108702449A (zh) * 2016-02-29 2018-10-23 华为技术有限公司 图像搜索方法及其系统
CN106021374A (zh) * 2016-05-11 2016-10-12 百度在线网络技术(北京)有限公司 查询结果的底层召回方法和装置
US10366093B2 (en) 2016-05-11 2019-07-30 Baidu Online Network Technology (Beijing) Co., Ltd Query result bottom retrieval method and apparatus
CN106502881A (zh) * 2016-09-20 2017-03-15 北京三快在线科技有限公司 一种商品排序规则的测试方法和装置
CN106502881B (zh) * 2016-09-20 2022-01-14 北京三快在线科技有限公司 一种商品排序规则的测试方法和装置
CN106503258B (zh) * 2016-11-18 2020-05-12 深圳市世强元件网络有限公司 一种网站站内精确搜索方法
CN106503258A (zh) * 2016-11-18 2017-03-15 深圳市世强元件网络有限公司 一种网站站内精确搜索方法
CN108108380A (zh) * 2016-11-25 2018-06-01 阿里巴巴集团控股有限公司 搜索排序方法、搜索排序装置、搜索方法和搜索装置
CN106874352A (zh) * 2016-12-28 2017-06-20 河北中废通网络技术有限公司 一种搜索因子调整的方法
US11500954B2 (en) 2017-02-28 2022-11-15 Huawei Technologies Co., Ltd. Learning-to-rank method based on reinforcement learning and server
CN108509461A (zh) * 2017-02-28 2018-09-07 华为技术有限公司 一种基于强化学习的排序学习方法及服务器
CN107103519A (zh) * 2017-05-02 2017-08-29 深圳市水觅网络发展有限公司 一种可购买商品多种消费模式的网络购物系统
WO2018214503A1 (zh) * 2017-05-23 2018-11-29 北京三快在线科技有限公司 一种样本权重设置方法及装置、电子设备
CN108304512A (zh) * 2018-01-19 2018-07-20 北京奇艺世纪科技有限公司 一种视频搜索引擎粗排序方法、装置及电子设备
CN108335137A (zh) * 2018-01-31 2018-07-27 北京三快在线科技有限公司 排序方法及装置、电子设备、计算机可读介质
CN109032375A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 候选文本排序方法、装置、设备及存储介质
CN109032375B (zh) * 2018-06-29 2022-07-19 北京百度网讯科技有限公司 候选文本排序方法、装置、设备及存储介质
CN110737816A (zh) * 2018-07-02 2020-01-31 北京三快在线科技有限公司 排序方法、装置、电子设备及可读存储介质
CN109191229A (zh) * 2018-07-16 2019-01-11 三星电子(中国)研发中心 增强现实装饰物推荐方法及装置
CN110827106A (zh) * 2018-08-08 2020-02-21 北京京东尚科信息技术有限公司 构建搜索模型的方法及装置以及商品搜索方法及装置
CN109189904A (zh) * 2018-08-10 2019-01-11 上海中彦信息科技股份有限公司 个性化搜索方法及系统
CN110968767A (zh) * 2018-09-28 2020-04-07 北京嘀嘀无限科技发展有限公司 排序引擎训练方法及装置、业务卡排序方法及装置
CN110968767B (zh) * 2018-09-28 2023-03-31 北京嘀嘀无限科技发展有限公司 排序引擎训练方法及装置、业务卡排序方法及装置
CN109299344B (zh) * 2018-10-26 2020-12-29 Oppo广东移动通信有限公司 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN109299344A (zh) * 2018-10-26 2019-02-01 Oppo广东移动通信有限公司 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN110175883A (zh) * 2019-04-10 2019-08-27 拉扎斯网络科技(上海)有限公司 一种排序方法、装置、电子设备和非易失性存储介质
CN110377831A (zh) * 2019-07-25 2019-10-25 拉扎斯网络科技(上海)有限公司 检索方法、装置、可读存储介质和电子设备
CN110377831B (zh) * 2019-07-25 2022-05-17 拉扎斯网络科技(上海)有限公司 检索方法、装置、可读存储介质和电子设备
CN110765349A (zh) * 2019-09-27 2020-02-07 上海麦克风文化传媒有限公司 一种自动排序权重操作方法
CN112579767A (zh) * 2019-09-29 2021-03-30 北京搜狗科技发展有限公司 搜索处理方法、装置和用于搜索处理的装置
CN112579767B (zh) * 2019-09-29 2024-05-03 北京搜狗科技发展有限公司 搜索处理方法、装置和用于搜索处理的装置
CN111221943A (zh) * 2020-01-13 2020-06-02 口口相传(北京)网络技术有限公司 查询结果匹配度计算方法及装置
CN111221943B (zh) * 2020-01-13 2023-08-08 口口相传(北京)网络技术有限公司 查询结果匹配度计算方法及装置
CN113536156A (zh) * 2020-04-13 2021-10-22 百度在线网络技术(北京)有限公司 搜索结果排序方法、模型构建方法、装置、设备和介质
CN113536156B (zh) * 2020-04-13 2024-05-28 百度在线网络技术(北京)有限公司 搜索结果排序方法、模型构建方法、装置、设备和介质
CN111581545A (zh) * 2020-05-12 2020-08-25 腾讯科技(深圳)有限公司 一种召回文档的排序方法及相关设备
CN111581545B (zh) * 2020-05-12 2023-09-19 腾讯科技(深圳)有限公司 一种召回文档的排序方法及相关设备
CN112084307A (zh) * 2020-09-14 2020-12-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、服务器及计算机可读存储介质
CN112084307B (zh) * 2020-09-14 2023-11-17 腾讯科技(深圳)有限公司 一种数据处理方法、装置、服务器及计算机可读存储介质
CN112100444A (zh) * 2020-09-27 2020-12-18 四川长虹电器股份有限公司 一种基于机器学习的搜索结果排序方法及系统
CN113744015A (zh) * 2020-10-20 2021-12-03 北京沃东天骏信息技术有限公司 一种排序方法、装置、设备及计算机存储介质
CN112100529A (zh) * 2020-11-17 2020-12-18 北京三快在线科技有限公司 搜索内容排序方法、装置、存储介质和电子设备
CN113781146A (zh) * 2020-11-17 2021-12-10 北京沃东天骏信息技术有限公司 产品信息的推荐方法、装置、设备和存储介质
CN112686695B (zh) * 2020-12-25 2024-06-04 郑州阿帕斯数云信息科技有限公司 广告位的广告填充方法及广告客户端和电子设备
CN112686695A (zh) * 2020-12-25 2021-04-20 郑州阿帕斯数云信息科技有限公司 广告位的广告填充方法及广告客户端和电子设备
CN113177162B (zh) * 2021-06-29 2022-04-22 北京达佳互联信息技术有限公司 搜索结果的排序方法、装置、电子设备和存储介质
CN113177162A (zh) * 2021-06-29 2021-07-27 北京达佳互联信息技术有限公司 搜索结果的排序方法、装置、电子设备和存储介质
CN113673866A (zh) * 2021-08-20 2021-11-19 上海寻梦信息技术有限公司 农作物决策方法、模型训练方法以及相关设备
CN114186682A (zh) * 2021-12-10 2022-03-15 北京达佳互联信息技术有限公司 搜索视频排序网络的训练方法、搜索视频排序方法和装置
CN114282965A (zh) * 2021-12-21 2022-04-05 唯品会(广州)软件有限公司 召回方案评估方法、装置及计算机设备
WO2023142042A1 (zh) * 2022-01-29 2023-08-03 华为技术有限公司 排序模型训练方法、装置及存储介质
CN115186163A (zh) * 2022-06-27 2022-10-14 北京百度网讯科技有限公司 搜索结果排序模型的训练与搜索结果排序方法、装置

Also Published As

Publication number Publication date
US20140297476A1 (en) 2014-10-02
TW201437933A (zh) 2014-10-01
US9818142B2 (en) 2017-11-14
WO2014160648A1 (en) 2014-10-02
JP6152173B2 (ja) 2017-06-21
TWI591556B (zh) 2017-07-11
JP2016511906A (ja) 2016-04-21
CN104077306B (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
CN104077306A (zh) 一种搜索引擎的结果排序方法及系统
CN110400103B (zh) 补货量确定方法、装置、计算机装置及存储介质
CN104679771B (zh) 一种个性化数据搜索方法和装置
US9589277B2 (en) Search service advertisement selection
CN105760400B (zh) 一种基于搜索行为的推送消息排序方法及装置
US7844567B2 (en) System and method for selecting a training sample from a sample test based on data sample proximity
CN106251174A (zh) 信息推荐方法及装置
CN105868847A (zh) 一种购物行为的预测方法及装置
CN102760124A (zh) 一种推荐数据的推送方法及系统
CN104866474A (zh) 个性化数据搜索方法及装置
CN106296257A (zh) 一种基于用户行为分析的固定广告位投放方法及系统
CN104778176A (zh) 一种数据搜索处理方法及装置
CN105159910A (zh) 信息推荐方法和装置
CN105574025A (zh) 用于计算排序分及建立模型的方法、装置及商品推荐系统
CN104268292A (zh) 画像系统的标签词库更新方法
CN103646070A (zh) 搜索引擎的数据处理方法及装置
CN103020289B (zh) 一种基于日志挖掘的搜索引擎用户个性化需求提供方法
CN106296242A (zh) 一种用于电子商务中商品推荐列表的生成方法及生成系统
CN107153656A (zh) 一种信息搜索方法和装置
KR20220151453A (ko) 상품의 가격 예측 방법
CN117455621A (zh) 个性化推荐方法、装置、存储介质及计算机设备
Jianjun Research on collaborative filtering recommendation algorithm based on user behavior characteristics
Pai et al. Modelling visit similarity using click-stream data: A supervised approach
CN112232388A (zh) 基于elm-rfe的购物意图关键因素识别方法
CN108241650A (zh) 训练分类标准的训练方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant