CN106570197A - 基于迁移学习的搜索排序方法和装置 - Google Patents

基于迁移学习的搜索排序方法和装置 Download PDF

Info

Publication number
CN106570197A
CN106570197A CN201611033587.1A CN201611033587A CN106570197A CN 106570197 A CN106570197 A CN 106570197A CN 201611033587 A CN201611033587 A CN 201611033587A CN 106570197 A CN106570197 A CN 106570197A
Authority
CN
China
Prior art keywords
scoring
search results
fitting function
goal
sample searches
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611033587.1A
Other languages
English (en)
Other versions
CN106570197B (zh
Inventor
刘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611033587.1A priority Critical patent/CN106570197B/zh
Publication of CN106570197A publication Critical patent/CN106570197A/zh
Application granted granted Critical
Publication of CN106570197B publication Critical patent/CN106570197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于迁移学习的搜索排序方法和装置,该基于迁移学习的搜索排序方法包括获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;提供预设目标拟合函数,并将评分作为预设目标拟合函数的输入;确定使预设目标拟合函数的所得数值等于目标值的输出数据;将输出数据作为第二排序模型的评分结果,并根据评分结果对每个样本搜索词的多个搜索结果进行排序。通过本发明能够减少服务器的计算量,节省存储空间,且在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。

Description

基于迁移学习的搜索排序方法和装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于迁移学习的搜索排序方法和装置。
背景技术
对搜索结果进行排序是互联网搜索应用的核心问题,为提升排序模型的效果,例如可以增加排序模型各表示层向量的维度,使模型变宽,或者,在相同排序模型结构下采用不同的初始化参数训练多个排序模型,而后对各排序模型的预测值取平均。这些方式下,排序模型结构复杂并且规模庞大,给服务器在计算量和存储上的部署造成较大负担,因此,在一些场景下,需要将这些大规模排序模型的评分结果迁移到规模较小的模型上。
相关技术中,例如,采用回归分析方法的拟合模型,用规模较小的学生模型的评分结果去拟合规模较大的教师模型的评分结果。
这种方式下,回归分析方法输入的样本数据多于单一,拟合结果的可参考性不高,拟合效果不佳。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于迁移学习的搜索排序方法,能够减少服务器的计算量,节省存储空间,且在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
本发明的另一个目的在于提出一种基于迁移学习的搜索排序装置。
本发明的又一个目的在于提出一种基于迁移学习的搜索排序装置。
本发明的另一个目的在于提出一种非临时性计算机可读存储介质。
本发明的另一个目的在于提出一种计算机程序产品。
为达到上述目的,本发明第一方面实施例提出的基于迁移学习的搜索排序方法,包括:获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;提供预设目标拟合函数,并将所述评分作为所述预设目标拟合函数的输入;确定使所述预设目标拟合函数的所得数值等于目标值的输出数据;将所述输出数据作为第二排序模型的评分结果,并根据所述评分结果对所述每个样本搜索词的多个搜索结果进行排序。
本发明第一方面实施例提出的基于迁移学习的搜索排序方法,通过获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;提供预设目标拟合函数,并将评分作为预设目标拟合函数的输入;确定使预设目标拟合函数的所得数值等于目标值的输出数据;将输出数据作为第二排序模型的评分结果,并根据评分结果对每个样本搜索词的多个搜索结果进行排序,能够减少服务器的计算量,节省存储空间,且在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
为达到上述目的,本发明第二方面实施例提出的基于迁移学习的搜索排序装置,包括:获取模块,用于获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;提供模块,用于提供预设目标拟合函数;处理模块,用于将所述评分作为所述预设目标拟合函数的输入;确定模块,用于确定使所述预设目标拟合函数的所得数值等于目标值的输出数据;排序模块,用于将所述输出数据作为第二排序模型的评分结果,并根据所述评分结果对所述每个样本搜索词的多个搜索结果进行排序。
本发明第二方面实施例提出的基于迁移学习的搜索排序装置,通过获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;提供预设目标拟合函数,并将评分作为预设目标拟合函数的输入;确定使预设目标拟合函数的所得数值等于目标值的输出数据;将输出数据作为第二排序模型的评分结果,并根据评分结果对每个样本搜索词的多个搜索结果进行排序,能够减少服务器的计算量,节省存储空间,且在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
为达到上述目的,本发明第三方面实施例提出的基于迁移学习的搜索排序装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;
提供预设目标拟合函数,并将所述评分作为所述预设目标拟合函数的输入;
确定使所述预设目标拟合函数的所得数值等于目标值的输出数据;
将所述输出数据作为第二排序模型的评分结果,并根据所述评分结果对所述每个样本搜索词的多个搜索结果进行排序。
本发明第三方面实施例提出的基于迁移学习的搜索排序装置,通过获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;提供预设目标拟合函数,并将评分作为预设目标拟合函数的输入;确定使预设目标拟合函数的所得数值等于目标值的输出数据;将输出数据作为第二排序模型的评分结果,并根据评分结果对每个样本搜索词的多个搜索结果进行排序,能够减少服务器的计算量,节省存储空间,且在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
为达到上述目的,本发明第四方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够执行一种基于迁移学习的搜索排序方法,所述方法包括:
获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;
提供预设目标拟合函数,并将所述评分作为所述预设目标拟合函数的输入;
确定使所述预设目标拟合函数的所得数值等于目标值的输出数据;
将所述输出数据作为第二排序模型的评分结果,并根据所述评分结果对所述每个样本搜索词的多个搜索结果进行排序。
本发明第四方面实施例提出的非临时性计算机可读存储介质,通过获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;提供预设目标拟合函数,并将评分作为预设目标拟合函数的输入;确定使预设目标拟合函数的所得数值等于目标值的输出数据;将输出数据作为第二排序模型的评分结果,并根据评分结果对每个样本搜索词的多个搜索结果进行排序,能够减少服务器的计算量,节省存储空间,且在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
为达到上述目的,本发明第五方面实施例提出的计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于迁移学习的搜索排序方法,所述方法包括:
获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;
提供预设目标拟合函数,并将所述评分作为所述预设目标拟合函数的输入;
确定使所述预设目标拟合函数的所得数值等于目标值的输出数据;
将所述输出数据作为第二排序模型的评分结果,并根据所述评分结果对所述每个样本搜索词的多个搜索结果进行排序。
本发明第五方面实施例提出的计算机程序产品,通过获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;提供预设目标拟合函数,并将评分作为预设目标拟合函数的输入;确定使预设目标拟合函数的所得数值等于目标值的输出数据;将输出数据作为第二排序模型的评分结果,并根据评分结果对每个样本搜索词的多个搜索结果进行排序,能够减少服务器的计算量,节省存储空间,且在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的基于迁移学习的搜索排序方法的流程示意图;
图2是本发明另一实施例提出的基于迁移学习的搜索排序方法的流程示意图;
图3是本发明一实施例提出的基于迁移学习的搜索排序装置的结构示意图;
图4是本发明另一实施例提出的基于迁移学习的搜索排序装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的基于迁移学习的搜索排序方法的流程示意图。
参见图1,该基于迁移学习的搜索排序方法包括:
S11:获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分。
在本发明的实施例中,第一排序模型为评分结果需要被拟合的规模较大的教师模型,第一排序模型可以例如为相关技术中的词袋(Bag Of Words,BOW)模型,对此不作限制。
其中,用户可以在搜索引擎的搜索框中输入样本搜索词,该样本搜索词用于对第一排序模型的评分结果进行拟合。
样本搜索词的个数可以为一个或者多个,通过输入多个样本搜索词对第一排序模型的评分结果进行拟合,能够有效提升拟合结果的可参考性和精准度。
在本发明的实施例中,与样本搜索词对应的搜索结果为搜索引擎根据一定的策略、运用特定的计算机程序从云服务端上搜集到的与样本搜索词相关的搜索结果。搜索结果的条数可以为一条或者多条,可以理解的是,由于互联网资讯的种类繁多,搜索结果的条数一般为多条。
在用户输入样本搜索词后,该样本搜索词可以由搜索引擎传输给后台系统,后台系统具体可以是指搜索引擎的服务器。搜索引擎的服务器中接收到样本搜索词后,可以在云服务端的数据库中查找与该样本搜索词相关的搜索结果,例如,在云服务端的数据库中查找以该样本搜索词开头的预设数量的新闻消息作为搜索结果,预设数量例如为100个。
其中,云服务端的数据库是预先建立的,具体可以采用统计的方式建立数据库,例如,由后台人员对用户在搜索引擎上的搜索行为进行统计,将搜索次数较多的搜索结果保存在数据库中。或者,也可以采用机器学习的方式建立数据库,例如,用网页相关技术如爬虫技术等从网页上得到用户搜索次数较多的候选搜索结果保存在数据库中。
进一步地,搜索引擎的服务器查找出以该样本搜索词开头的预设数量的新闻消息作为搜索结果之后,可以调用内置的第一排序模型对每个搜索结果进行评分,得到基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分。
在本发明的实施例中,第一排序模型结构复杂并且规模庞大,给服务器在计算量和存储上的部署造成较大负担,因此,在一些场景下,可以将这些大规模排序模型的评分结果迁移到规模较小的模型上,参见下述步骤。
可选地,在本发明的实施例中,在S11之后,还可以包括:
S21:将多个样本搜索词中的每个样本搜索词和对应的一个搜索结果,即搜索结果的评分作为一个三元组,生成与每个样本搜索词对应的多个三元组,其中,对应的多个三元组的组数与搜索结果的个数相同。
在本发明的实施例中,可以对样本搜索词和对应的多个搜索结果及评分进行预处理,预先生成与每个样本搜索词对应的多个三元组。
具体地,根据每个样本搜索词所对应的搜索结果是否被点击的点击状态对搜索结果的评分进行分类;在搜索结果的点击状态为被点击时,将搜索结果对应的评分作为第一评分;在搜索结果的点击状态为未被点击时,将搜索结果对应的评分作为第二评分;根据每个样本搜索词和对应的搜索结果,及搜索结果的第一评分和第二评分,生成与每个样本搜索词对应的多个三元组。
在本发明的实施例中,参考配对学习(Pairwise Learning,PL)对每个三元组的定义可以举例如下,
其中,x(i)是第i个样本搜索词,y(ij)是第i个样本搜索词的第j个搜索结果,y+(ij)表示搜索第i个样本搜索词时第j个搜索结果被点击过,y-(ij)搜索第i个样本搜索词时第j个搜索结果未被点击过,即,y+(ij)与y-(ij)配成包含正例-负例对的三元组,与每个y(ij)匹配的是第一排序模型给对应第i个样本搜索词和第j个搜索结果之间的相关性的评分,表示该第j个搜索结果被点击过,即第一评分,表示该第j个搜索结果未被点击过,即第二评分,i表示样本搜索词的索引,j表示搜索结果的索引,N表示第i个样本搜索词对应的搜索结果的数量。
通常来讲,在一些应用场景下,三元组中的数据元素可能不平衡,例如,对应于每个样本搜索词的多个搜索结果,其中,被点击过的搜索结果的数量通常会远小于未被点击过的搜索结果的数量,因此,相关技术中的拟合模型倾向于拟合占比较多的未被点击过的搜索结果,而忽略拟合占比较少的被点击过的搜索结果,因此,在本发明的实施例中,通过将PL引入三元组的定义,被点击过的搜索结果和未被点击过的搜索结果组合为多个包含正例-负例对的三元组,每个负例映射一个正例,通过对配对数据集做回归分析,有效避免不平衡问题带来的影响。
S12:提供预设目标拟合函数,并将评分作为预设目标拟合函数的输入。
其中,预设目标拟合函数可以是预先配置的。
预设目标拟合函数可以包括:基于回归分析方法的目标拟合函数、基于交叉熵的目标拟合函数,以及基于软间隔的目标拟合函数。
步骤的详细实施过程可以参见下述实施例。
其中,基于回归分析方法的目标拟合函数可以举例如下,
其中,i表示样本搜索词的索引,j表示搜索结果的索引,是第一排序模型给对应第i个样本搜索词和第j个搜索结果之间的相关性的评分,表示该第j个搜索结果被点击过,表示该第j个搜索结果未被点击过,是第二排序模型给对应第i个样本搜索词和第j个搜索结果之间的相关性的评分,第二排序模型为评分结果需要被拟合的规模较小的学生模型,表示该第j个搜索结果被点击过,表示该第j个搜索结果未被点击过,N表示第i个样本搜索词对应的搜索结果的数量。
通过采用基于回归分析方法的目标拟合函数对配对数据集做回归分析,有效避免不平衡问题带来的影响。
其中,基于交叉熵的目标拟合函数可以举例如下,
1、定义第一排序模型对第i个样本搜索词的第j个搜索结果的评分差值δt (ij)为:
定义第二排序模型对第i个样本搜索词的第j个搜索结果的评分差值δθ ij为:
2、假设y+(ij)>y-(ij)表示搜索结果y(ij)被点击的随机事件y+(ij)比搜索结果y(ij)未被点击的随机事件y-(ij)排序更靠前,则第一排序模型和第二排序模型对事件y+(ij)>y-(ij)的概率估计表达式为:
3、基于交叉熵的目标拟合函数可以表示为如下:
可以理解的是,搜索引擎中内置的排序模型通常根据评分结果对每个样本搜索词的多个搜索结果进行排序,即,根据评分的高低顺序对搜索结果进行排序,因此,本发明的实施例中,通过拟合评分的相对高低顺序关系,而不是精确拟合第一排序模型的评分,能够在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
可以理解的是,基于交叉熵的目标拟合函数在第二排序模型的评分差值不等于第一排序模型的评分差值时,采用一些方法惩罚第二排序模型,即,当第二排序模型的评分差值小于第一排序模型的时候,采用随机梯度下降方法使第二排序模型的评分差值趋近于第一排序模型的评分差值。但是,当第二排序模型的评分差值大于第一排序模型的评分差值时,可以确保搜索结果排序的置信度,此时,可以不采用一定的方法逆向惩罚第二排序模型,因此,为了避免逆向惩罚第二排序模型,本发明实施例提出基于软间隔的目标拟合函数。
其中,基于软间隔的目标拟合函数可以举例如下,
通过采用基于软间隔的目标拟合函数,可以有效避免逆向惩罚第二排序模型,减少拟合运算量,提升迁移学习的效率,提升用户体验。
进一步地,可以理解的是,基于软间隔的目标拟合函数对第二排序模型的评分差值小于第一排序模型的评分差值时,惩罚因子为常量-1,而并未将惩罚强度与评分差值之间的关系作为纳入考量范畴。
因此,在本发明的实施例中,还可以对基于交叉熵的目标拟合函数进行优化。
其中,优化后的基于交叉熵的目标拟合函数可以举例如下,
其中,
表示搜索结果y(ij)被点击的随机时间y+(ij),比搜索结果y(ij)未被点击的随
机事件y-(ij)在间隔大于的基础上,排序更靠前。
在本发明的实施例中,通过采用优化后的基于交叉熵的目标拟合函数,在第二排序模型的评分差值小于第一排序模型的评分差值时,根据两个排序模型的评分差值间的差别,即成比例地配置惩罚因子,在第二排序模型的评分差值大于第一排序模型的评分差值时,则将惩罚因子配置为一个较小值,能够实现根据实际情况确定合适的惩罚因子,增强迁移学习的合理性,有效提升迁移学习的效率。
S13:确定使预设目标拟合函数的所得数值等于目标值的输出数据。
在本发明的实施例中,目标值的输出数据为第一排序模型的评分结果。
可选地,确定使预设目标拟合函数的所得数值等于目标值的输出数据,即在经过优化后的基于交叉熵的目标拟合函数的所得数值等于第一排序模型的评分结果,通过拟合评分的相对高低顺序关系,而不是精确拟合第一排序模型的评分,且能达到第一排序模型的迁移学习的效果,能够在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
S14:将输出数据作为第二排序模型的评分结果,并根据排序结果对每个样本搜索词的多个搜索结果进行排序。
在本发明的实施例中,第二排序模型为评分结果需要被拟合的规模较小的学生模型。
可选地,由于第一排序模型结构复杂并且规模庞大,给服务器在计算量和存储上的部署造成较大负担,因此,将这些大规模排序模型的评分结果迁移到规模较小的模型上,将预设目标拟合函数的所得数值作为第二排序模型的评分结果,即最终使得第二排序模型的评分结果等于第一排序模型的评分结果,并根据评分结果对每个样本搜索词的多个搜索结果进行排序,能够减少服务器的计算量,节省存储空间,且在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
本实施例中,通过获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;提供预设目标拟合函数,并将评分作为预设目标拟合函数的输入;确定使预设目标拟合函数的所得数值等于目标值的输出数据;将输出数据作为第二排序模型的评分结果,并根据评分结果对每个样本搜索词的多个搜索结果进行排序,能够减少服务器的计算量,节省存储空间,且在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
图3是本发明一实施例提出的基于迁移学习的搜索排序装置的结构示意图。该基于迁移学习的搜索排序装置30可以通过软件、硬件或者两者的结合来实现。
参见图3,该基于迁移学习的搜索排序装置30包括:获取模块301、提供模块302、处理模块303、确定模块304,以及排序模块305。其中,
获取模块301,用于获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分。
提供模块302,用于提供预设目标拟合函数。
处理模块303,用于将评分作为预设目标拟合函数的输入。
可选地,处理模块303具体用于:将多个三元组中每个三元组中搜索结果的评分作为预设目标拟合函数的输入。
确定模块304,用于确定使预设目标拟合函数的所得数值等于目标值的输出数据。
排序模块305,用于将输出数据作为第二排序模型的评分结果,并根据评分结果对每个样本搜索词的多个搜索结果进行排序。
一些实施例中,参见图4,该基于迁移学习的搜索排序装置30还包括:
生成模块306,用于将每个样本搜索词和对应的一个搜索结果,及搜索结果的评分作为一个三元组,生成与每个样本搜索词对应的多个三元组,其中,对应的多个三元组的组数与搜索结果的个数相同。
可选地,生成模块306包括:
分类子模块3061,用于根据每个样本搜索词所对应的搜索结果是否被点击的点击状态对搜索结果的评分进行分类。
第一处理子模块3062,用于在搜索结果的点击状态为被点击时,将搜索结果对应的评分作为第一评分。
第二处理子模块3063,用于在搜索结果的点击状态为未被点击时,将搜索结果对应的评分作为第二评分。
生成子模块3064,用于根据每个样本搜索词和对应的搜索结果,及搜索结果的第一评分和第二评分,生成与每个样本搜索词对应的多个三元组。
可选地,预设目标拟合函数包括:基于回归分析方法的目标拟合函数,处理模块303具体用于:将每个搜索结果对应的三元组中的第一评分和第二评分作为基于回归分析方法的目标拟合函数的输入。
可选地,预设目标拟合函数还包括:基于交叉熵的目标拟合函数/基于软间隔的目标拟合函数,处理模块303还用于:计算每个样本搜索词对应的一个三元组中的第一评分和第二评分之间的评分差值,得到与每个三元组对应的评分差值;将评分差值作为基于交叉熵的目标拟合函数/基于软间隔的目标拟合函数的输入。
需要说明的是,前述图1-图2实施例中对基于迁移学习的搜索排序方法的解释说明也适用于该实施例的基于迁移学习的搜索排序装置30,其实现原理类似,此处不再赘述。
本实施例中,通过获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;提供预设目标拟合函数,并将评分作为预设目标拟合函数的输入;确定使预设目标拟合函数的所得数值等于目标值的输出数据;将输出数据作为第二排序模型的评分结果,并根据评分结果对每个样本搜索词的多个搜索结果进行排序,能够减少服务器的计算量,节省存储空间,且在保证拟合效果的同时,减少拟合运算量,提升迁移学习的效率,提升用户体验。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种基于迁移学习的搜索排序方法,其特征在于,包括以下步骤:
获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;
提供预设目标拟合函数,并将所述评分作为所述预设目标拟合函数的输入;
确定使所述预设目标拟合函数的所得数值等于目标值的输出数据;
将所述输出数据作为第二排序模型的评分结果,并根据所述评分结果对所述每个样本搜索词的多个搜索结果进行排序。
2.如权利要求1所述的基于迁移学习的搜索排序方法,其特征在于,所述获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分之后,还包括:
将所述每个样本搜索词和对应的一个搜索结果,及所述搜索结果的评分作为一个三元组,生成与所述每个样本搜索词对应的多个三元组,其中,所述对应的多个三元组的组数与所述搜索结果的个数相同。
3.如权利要求2所述的基于迁移学习的搜索排序方法,其特征在于,所述将所述评分作为所述预设目标拟合函数的输入,包括:
将所述多个三元组中每个三元组中所述搜索结果的评分作为所述预设目标拟合函数的输入。
4.如权利要求2所述的基于迁移学习的搜索排序方法,其特征在于,所述将所述每个样本搜索词和对应的一个搜索结果,及所述搜索结果的评分作为一个三元组,生成与所述每个样本搜索词对应的多个三元组,包括:
根据所述每个样本搜索词所对应的搜索结果是否被点击的点击状态对所述搜索结果的评分进行分类;
在所述搜索结果的点击状态为被点击时,将所述搜索结果对应的评分作为第一评分;
在所述搜索结果的点击状态为未被点击时,将所述搜索结果对应的评分作为第二评分;
根据所述每个样本搜索词和对应的搜索结果,及所述搜索结果的第一评分和第二评分,生成与所述每个样本搜索词对应的多个三元组。
5.如权利要求4所述的基于迁移学习的搜索排序方法,其特征在于,所述预设目标拟合函数包括:基于回归分析方法的目标拟合函数,所述将所述评分作为所述预设目标拟合函数的输入,包括:
将所述每个搜索结果对应的三元组中的第一评分和第二评分作为所述基于回归分析方法的目标拟合函数的输入。
6.如权利要求4所述的基于迁移学习的搜索排序方法,其特征在于,所述预设目标拟合函数还包括:基于交叉熵的目标拟合函数/基于软间隔的目标拟合函数,所述将所述评分作为所述预设目标拟合函数的输入,包括:
计算所述每个样本搜索词对应的一个三元组中的第一评分和第二评分之间的评分差值,得到与所述每个三元组对应的评分差值;
将所述评分差值作为所述基于交叉熵的目标拟合函数/所述基于软间隔的目标拟合函数的输入。
7.一种基于迁移学习的搜索排序装置,其特征在于,包括:
获取模块,用于获取基于第一排序模型对多个样本搜索词中每个样本搜索词的多个搜索结果的评分;
提供模块,用于提供预设目标拟合函数;
处理模块,用于将所述评分作为所述预设目标拟合函数的输入;
确定模块,用于确定使所述预设目标拟合函数的所得数值等于目标值的输出数据;
排序模块,用于将所述输出数据作为第二排序模型的评分结果,并根据所述评分结果对所述每个样本搜索词的多个搜索结果进行排序。
8.如权利要求7所述的基于迁移学习的搜索排序装置,其特征在于,所述获取模块后,还包括:
生成模块,用于将所述每个样本搜索词和对应的一个搜索结果,及所述搜索结果的评分作为一个三元组,生成与所述每个样本搜索词对应的多个三元组,其中,所述对应的多个三元组的组数与所述搜索结果的个数相同。
9.如权利要求8所述的基于迁移学习的搜索排序装置,其特征在于,所述处理模块具体用于:
将所述多个三元组中每个三元组中所述搜索结果的评分作为所述预设目标拟合函数的输入。
10.如权利要求8所述的基于迁移学习的搜索排序装置,其特征在于,所述生成模块包括:
分类子模块,用于根据所述每个样本搜索词所对应的搜索结果是否被点击的点击状态对所述搜索结果的评分进行分类;
第一处理子模块,用于在所述搜索结果的点击状态为被点击时,将所述搜索结果对应的评分作为第一评分;
第二处理子模块,用于在所述搜索结果的点击状态为未被点击时,将所述搜索结果对应的评分作为第二评分;
生成子模块,用于根据所述每个样本搜索词和对应的搜索结果,及所述搜索结果的第一评分和第二评分,生成与所述每个样本搜索词对应的多个三元组。
11.如权利要求10所述的基于迁移学习的搜索排序装置,其特征在于,所述预设目标拟合函数包括:基于回归分析方法的目标拟合函数,所述处理模块具体用于:
将所述每个搜索结果对应的三元组中的第一评分和第二评分作为所述基于回归分析方法的目标拟合函数的输入。
12.如权利要求10所述的基于迁移学习的搜索排序装置,其特征在于,所述预设目标拟合函数还包括:基于交叉熵的目标拟合函数/基于软间隔的目标拟合函数,所述处理模块还用于:
计算所述每个样本搜索词对应的一个三元组中的第一评分和第二评分之间的评分差值,得到与所述每个三元组对应的评分差值;
将所述评分差值作为所述基于交叉熵的目标拟合函数/所述基于软间隔的目标拟合函数的输入。
CN201611033587.1A 2016-11-15 2016-11-15 基于迁移学习的搜索排序方法和装置 Active CN106570197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611033587.1A CN106570197B (zh) 2016-11-15 2016-11-15 基于迁移学习的搜索排序方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611033587.1A CN106570197B (zh) 2016-11-15 2016-11-15 基于迁移学习的搜索排序方法和装置

Publications (2)

Publication Number Publication Date
CN106570197A true CN106570197A (zh) 2017-04-19
CN106570197B CN106570197B (zh) 2020-05-19

Family

ID=58542899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611033587.1A Active CN106570197B (zh) 2016-11-15 2016-11-15 基于迁移学习的搜索排序方法和装置

Country Status (1)

Country Link
CN (1) CN106570197B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108398266A (zh) * 2018-01-22 2018-08-14 武汉科技大学 一种基于集成迁移学习的轴承故障诊断方法
CN109582868A (zh) * 2018-11-27 2019-04-05 湖南大学 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法
CN111104482A (zh) * 2019-12-18 2020-05-05 北京百度网讯科技有限公司 数据处理方法和装置
CN111382367A (zh) * 2018-12-27 2020-07-07 北京搜狗科技发展有限公司 一种搜索结果排序方法和装置
CN111782950A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 样本数据集获取方法、装置、设备及存储介质
CN112784141A (zh) * 2019-10-23 2021-05-11 腾讯科技(深圳)有限公司 搜索结果质量确定方法、装置、存储介质和计算机设备
CN114416513A (zh) * 2022-03-25 2022-04-29 百度在线网络技术(北京)有限公司 搜索数据的处理方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100011025A1 (en) * 2008-07-09 2010-01-14 Yahoo! Inc. Transfer learning methods and apparatuses for establishing additive models for related-task ranking
CN104391883A (zh) * 2014-11-05 2015-03-04 北京航空航天大学 一种基于迁移学习的在线广告受众排序方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100011025A1 (en) * 2008-07-09 2010-01-14 Yahoo! Inc. Transfer learning methods and apparatuses for establishing additive models for related-task ranking
CN104391883A (zh) * 2014-11-05 2015-03-04 北京航空航天大学 一种基于迁移学习的在线广告受众排序方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CRAIG MACDONALD 等: "Transferring Learning To Rank Models for Web Search", 《ACM》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108398266A (zh) * 2018-01-22 2018-08-14 武汉科技大学 一种基于集成迁移学习的轴承故障诊断方法
CN109582868A (zh) * 2018-11-27 2019-04-05 湖南大学 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法
CN111382367A (zh) * 2018-12-27 2020-07-07 北京搜狗科技发展有限公司 一种搜索结果排序方法和装置
CN111382367B (zh) * 2018-12-27 2024-04-30 北京搜狗科技发展有限公司 一种搜索结果排序方法和装置
CN112784141A (zh) * 2019-10-23 2021-05-11 腾讯科技(深圳)有限公司 搜索结果质量确定方法、装置、存储介质和计算机设备
CN112784141B (zh) * 2019-10-23 2023-10-31 腾讯科技(深圳)有限公司 搜索结果质量确定方法、装置、存储介质和计算机设备
CN111104482A (zh) * 2019-12-18 2020-05-05 北京百度网讯科技有限公司 数据处理方法和装置
JP2021096813A (ja) * 2019-12-18 2021-06-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド データ処理方法及び装置
CN111782950A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 样本数据集获取方法、装置、设备及存储介质
CN114416513A (zh) * 2022-03-25 2022-04-29 百度在线网络技术(北京)有限公司 搜索数据的处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN106570197B (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN106570197A (zh) 基于迁移学习的搜索排序方法和装置
EP4080889A1 (en) Anchor information pushing method and apparatus, computer device, and storage medium
CN106547871A (zh) 基于神经网络的搜索结果的召回方法和装置
CN102799635B (zh) 一种用户驱动的图像集合排序方法
CN101556553B (zh) 基于需求变更的缺陷预测方法和系统
CN103810299B (zh) 基于多特征融合的图像检索方法
CN109635083B (zh) 一种用于搜索ted演讲中话题式查询的文档检索方法
KR20180011221A (ko) 비디오들에 대해 대표 비디오 프레임들 선택
CN107480642A (zh) 一种基于时域分段网络的视频动作识别方法
CN107563500A (zh) 一种基于用户头像的视频推荐方法及系统
CN106649761A (zh) 基于深度问答的搜索结果展现方法和装置
CN104994424B (zh) 一种构建音视频标准数据集的方法和装置
CN106682035A (zh) 一种个性化学习推荐方法及装置
US20100145941A1 (en) Rules and method for improving image search relevance through games
CN105868298A (zh) 一种基于二叉决策树的手机游戏推荐方法
CN108563749B (zh) 基于多维度信息和知识网络的在线教育系统资源推荐方法
CN111090809A (zh) 题目推荐方法、装置、计算机设备和存储介质
CN107463698A (zh) 基于人工智能推送信息的方法和装置
CN107168991A (zh) 一种搜索结果展示方法和装置
CN110532351A (zh) 推荐词展示方法、装置、设备及计算机可读存储介质
WO2020224220A1 (zh) 基于知识图谱的问答方法、电子装置、设备及存储介质
CN107341548A (zh) 一种数据处理方法、装置及电子设备
CN110288350A (zh) 用户价值预测方法、装置、设备及存储介质
CN111445008A (zh) 一种基于知识蒸馏的神经网络搜索方法及系统
US20160098437A1 (en) Information retrieval method and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant