CN115186163A - 搜索结果排序模型的训练与搜索结果排序方法、装置 - Google Patents

搜索结果排序模型的训练与搜索结果排序方法、装置 Download PDF

Info

Publication number
CN115186163A
CN115186163A CN202210744647.XA CN202210744647A CN115186163A CN 115186163 A CN115186163 A CN 115186163A CN 202210744647 A CN202210744647 A CN 202210744647A CN 115186163 A CN115186163 A CN 115186163A
Authority
CN
China
Prior art keywords
search
target
search result
training
data pairs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210744647.XA
Other languages
English (en)
Other versions
CN115186163B (zh
Inventor
王海峰
�田�浩
吴华
吴甜
刘璟
陈维政
戴岱
王佳康
庞超
王文华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210744647.XA priority Critical patent/CN115186163B/zh
Publication of CN115186163A publication Critical patent/CN115186163A/zh
Priority to JP2023038515A priority patent/JP2024003752A/ja
Application granted granted Critical
Publication of CN115186163B publication Critical patent/CN115186163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种搜索结果排序模型的训练与搜索结果排序方法,涉及自然语言处理、深度学习等领域。包括:获取多个第一数据对、多个第一数据对中搜索结果对应多个搜索目标的单目标特征、多个第一数据对分别对应多个搜索目标的标注得分;基于上述获取的数据,训练得到多个单搜索目标排序模型;获取多个第二数据对、多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征;使用与多个搜索目标对应的多个单搜索目标排序模型对第二数据对中的每个搜索结果进行打分,确定第二数据对的训练搜索目标;基于多个第二数据对中的查询词、每个搜索结果对应全部搜索目标的多目标特征、每个搜索结果对应训练搜索目标的得分,训练得到搜索结果排序模型。

Description

搜索结果排序模型的训练与搜索结果排序方法、装置
技术领域
本公开涉及计算机技术领域,尤其涉及自然语言处理、深度学习等人工智能技术领域。具体涉及一种搜索结果排序模型的训练与搜索结果排序方法、装置、电子设备和可读存储介质。
背景技术
随着搜索引擎技术的快速发展,用户越来越多地通过搜索引擎进行搜索的方式来获取各种各样的搜索结果。在面对海量的搜索结果时,就会涉及到排序问题,即依据搜索结果的排序结果向用户进行展示。
发明内容
根据本公开的第一方面,提供了一种搜索结果排序模型的训练方法,包括:获取多个第一数据对、所述多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征以及所述多个第一数据对分别对应所述多个搜索目标的标注得分,每个第一数据对包含查询词及其对应的一个搜索结果;针对每个搜索目标,基于所述多个第一数据对中的查询词、所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及所述多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型;获取多个第二数据对以及所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征,每个第二数据对包含查询词及其对应的两个搜索结果;针对每个第二数据对,使用与所述多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据所述每个搜索结果对应所述多个搜索目标的得分,确定该第二数据对的训练搜索目标;基于所述多个第二数据对中的查询词、所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及所述多个第二数据对中的每个搜索结果对应所述训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型。
根据本公开的第二方面,提供了一种搜索结果排序方法,包括:获取待处理查询词及其对应的多个搜索结果;针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征;针对每个搜索结果,将所述待处理查询词与该搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型,得到所述搜索结果排序模型针对该搜索结果输出的得分;根据所述多个搜索结果的得分,对所述多个搜索结果进行排序。
根据本公开的第三方面,提供了一种搜索结果排序模型的训练装置,包括:第一获取单元,用于获取多个第一数据对、所述多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征以及所述多个第一数据对分别对应所述多个搜索目标的标注得分,每个第一数据对包含查询词及其对应的一个搜索结果;第一训练单元,用于针对每个搜索目标,基于所述多个第一数据对中的查询词、所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及所述多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型;第二获取单元,用于获取多个第二数据对以及所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征,每个第二数据对包含查询词及其对应的两个搜索结果;处理单元,用于针对每个第二数据对,使用与所述多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据所述每个搜索结果对应所述多个搜索目标的得分,确定该第二数据对的训练搜索目标;第二训练单元,用于基于所述多个第二数据对中的查询词、所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及所述多个第二数据对中的每个搜索结果对应所述训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型。
根据本公开的第四方面,提供了一种搜索结果排序装置,包括:第三获取单元,用于获取待处理查询词及其对应的多个搜索结果;第四获取单元,用于针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征;打分单元,用于针对每个搜索结果,将所述待处理查询词与该搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型,得到所述搜索结果排序模型针对该搜索结果输出的得分;排序单元,用于根据所述多个搜索结果的得分,对所述多个搜索结果进行排序。
根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
由以上技术方案可以看出,本公开仅需要对单个搜索目标的训练数据进行标注,无需对多个搜索目标的训练数据进行标注,因此降低了数据的标注成本与标注难度,且训练得到的搜索结果排序模型,能够实现对搜索结果在多个搜索目标上进行融合打分的目的,从而提升了搜索结果排序模型在对搜索结果进行排序时的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是根据本公开第六实施例的示意图;
图7是根据本公开第七实施例的示意图;
图8是用来实现本公开实施例的搜索结果排序模型的训练或者搜索结果排序方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和机构的描述。
图1是根据本公开第一实施例的示意图。如图1所示,本实施例的搜索结果排序模型的训练方法,具体包括如下步骤:
S101、获取多个第一数据对、所述多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征以及所述多个第一数据对分别对应所述多个搜索目标的标注得分,每个第一数据对包含查询词及其对应的一个搜索结果;
S102、针对每个搜索目标,基于所述多个第一数据对中的查询词、所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及所述多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型;
S103、获取多个第二数据对以及所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征,每个第二数据对包含查询词及其对应的两个搜索结果;
S104、针对每个第二数据对,使用与所述多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据所述每个搜索结果对应所述多个搜索目标的得分,确定该第二数据对的训练搜索目标;
S105、基于所述多个第二数据对中的查询词、所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及所述多个第二数据对中的每个搜索结果对应所述训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型。
本实施例的搜索结果排序模型的训练方法,首先根据对应单个搜索目标的训练数据,训练得到与不同的搜索目标对应的单搜索目标排序模型,然后通过多个单搜索目标排序模型,构建对应多个搜索目标的训练数据,最后基于对应多个搜索目标的训练数据,训练得到与全部搜索目标对应的搜索结果排序模型,由于本实施例仅需要对单个搜索目标的训练数据进行标注,无需对多个搜索目标的训练数据进行标注,因此降低了数据的标注成本与标注难度,且训练得到的搜索结果排序模型,能够实现对搜索结果在多个搜索目标上进行融合打分的目的,从而提升了搜索结果排序模型在对搜索结果进行排序时的准确性。
本实施例执行S101获取的第一数据对,由查询词(query)及其对应的一个搜索结果组成;其中,第一数据对中的该搜索结果可以为整个网页、整个文档或者整个多媒体数据,也可以为网页、文档或者多媒体数据中的一个段落(para)。
在实际应用场景中,搜索引擎获取与查询词对应的多个搜索结果之后,需要对每个搜索结果进行打分,从而根据打分结果对多个搜索结果进行排序。搜索引擎需要结合相关性目标、权威性目标、时效性目标等多个搜索目标,对每个搜索结果进行打分,才能够获取更为准确的打分结果。
因此,本实施例中预设的多个搜索目标,即为上述相关性目标(用于表示搜索结果与查询词之间的相关性)、权威性目标(用于表示搜索结果的权威性)与时效性目标(用于表示搜索结果的时效性)等多个目标。
本实施例在执行S101获取第一数据对之后,可以首先确定多个搜索目标,然后再获取多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征以及多个第一数据对分别对应多个搜索目标的标注得分。
本实施例在执行S101获取多个第一数据对分别对应多个搜索目标的标注得分时,可以通过预设的标注方式,获取多个第一数据对对应每个搜索目标的标注得分。
举例来说,若本实施例执行S101获取的多个第一数据对中包含数据对1(query1,para1),多个搜索目标为相关性目标、权威性目标与时效性目标;本实施例在执行S101时,可以通过人工标注的方式,分别获取数据对1对应相关性目标的标注得分、数据对1对应权威性目标的标注得分以及数据对1对应时效性目标的标注得分。
本实施例在执行S101获取多个第一数据对中的搜索结果对应多个搜索目标的单目标特征时,可以采用的可选实现方式为:获取多个第一数据对中的搜索结果的属性信息,该属性信息可以包含搜索结果的标题、摘要、发布时间、发布站点、发布作者与发布地址等信息;针对每个搜索目标,将属性信息中与该搜索目标对应的属性信息,作为多个第一数据对中的搜索结果对应该搜索目标的单目标特征。
也就是说,本实施例中获取的不同的单目标特征与不同的搜索目标相对应,搜索结果对应同一个搜索目标的单目标特征中包含的属性信息可以为一个,也可以为多个。
举例来说,本实施例执行S101获取的对应相关性目标的属性信息可以为搜索结果的标题和/或摘要、对应时效性目标的属性信息可以为搜索结果的发布时间、对应权威性目标的属性信息可以为搜索结果的发布站点、发布作者与发布地址等中的至少一种。
本实施例在执行S101针对每个搜索目标,将属性信息中与该搜索目标对应的信息,作为多个第一数据对中的搜索结果对应该搜索目标的单目标特征时,还可以包含以下内容:针对每个搜索目标,在确定属性信息中与该搜索目标对应的属性信息不为文本的情况下,将与该搜索目标对应的属性信息转化为文本;将文本转化结果,作为多个第一数据对中的搜索结果对应该搜索目标的单目标特征。
也就是说,本实施例能够确保所获取的单目标特征为文本,避免使用其他形式复杂的内容,从而降低模型的训练难度、提升模型的训练效率。
本实施例在执行S101时,可以通过预设的搜索目标与属性信息之间的对应关系,从搜索结果的属性信息中获取与搜索目标对应的属性信息,作为搜索结果对应每个搜索目标的单目标特征,从而提升所获取的单目标特征的准确性。
举例来说,若本实施例执行S101获取的多个第一数据对中包含数据对1(query1,para1),多个搜索目标分别为相关性目标、权威性目标与时效性目标;本实施例在执行S101时,可以获取para1的标题与摘要作为para1对应相关性目标的单目标特征、获取para1的发布时间作为para1对应时效性目标的单目标特征、获取para1的发布站点作为para1对应权威性目标的单目标特征。
本实施例在执行S101获取多个第一数据对、多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征以及多个第一数据对分别对应多个搜索目标的标注得分之后,执行S102针对每个搜索目标,基于多个第一数据对中的查询词、多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型。
可以理解的是,本实施例执行S102会得到多个单搜索目标排序模型,不同的单搜索目标排序模型与不同的搜索目标相对应。
具体地,本实施例在执行S102针对每个搜索目标,基于多个第一数据对中的查询词、多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型时,可以采用的可选实现方式为:针对每个搜索目标,将多个第一数据对中的查询词以及多个第一数据对中的搜索结果对应该搜索目标的单目标特征输入第一预训练语言模型,得到第一预训练语言模型针对每个第一数据对输出的预测得分;根据多个第一数据对的预测得分与多个第一数据对对应该搜索目标的标注得分,计算损失函数值,本实施例可以使用交叉熵损失函数的计算方法计算损失函数值;根据计算得到的损失函数值,调整第一预训练语言模型的参数,直至第一预训练语言模型收敛,得到与该搜索目标对应的单搜索目标排序模型。
举例来说,若多个搜索目标分别为相关性目标、权威性目标与时效性目标,本实施例执行S102会分别得到与相关性目标对应的单搜索目标排序模型、与权威性目标对应的单搜索目标排序模型以及与时效性目标对应的单搜索目标排序模型,上述三个单搜索目标排序模型用于分别输出搜索结果的相关性打分结果、权威性打分结果与时效性打分结果。
也就是说,本实施例根据不同的搜索目标,得到不同的单搜索目标排序模型,而对应不同的搜索目标的单搜索目标排序模型,能够根据所输入的查询词及其搜索结果对应不同的搜索目标的单目标特征,输出搜索结果对应不同的搜索目标的打分结果。
可以理解的是,本实施例执行S102所训练的第一预训练语言模型为基于变换网络(Transformer)的神经网络模型,该第一预训练语言模型可以为Ernie模型。
本实施例在执行S102得到与多个搜索目标对应的单搜索目标排序模型之后,执行S103获取多个第二数据对以及多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征。
本实施例执行S103获取的第二数据对,由查询词及其对应的两个搜索结果组成;其中,第二数据对中的两个搜索结果可以为整个网页、整个文档或者整个多媒体数据,也可以为网页、文档或者多媒体数据中的一个段落(para)。
本实施例在执行S103获取多个第二数据对时,可以首先获取多个查询词,然后再获取与每个查询词对应的多个搜索结果,最后针对同一个查询词,从与该查询词对应的多个搜索结果中任意选取两个进行组合,从而得到多个包含查询词及其对应的两个搜索结果的第二数据对。
本实施例在执行S103获取多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征时,可以采用的可选实现方式为:获取多个第二数据对中的每个搜索结果的属性信息;将每个搜索结果的属性信息,作为多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征。
也就是说,本实施例获取的多目标特征为搜索结果的全部属性信息,即该多目标特征中包含搜索结果对应不同的搜索目标的全部单目标特征。
本实施例在执行S103将每个搜索结果的属性信息,作为多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征时,还可以包含以下内容:针对每个搜索结果,在确定该搜索结果的属性信息不为文本的情况下,将该搜索结果的属性信息转化为文本;将文本转化结果,作为该搜索结果对应全部搜索目标的多目标特征。
也就是说,本实施例能够确保所获取的多目标特征为文本,避免了使用其他形式复杂的内容,从而降低了模型的训练难度、提升了模型的训练效率。
本实施例在执行S103获取多个第二数据对以及多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征之后,执行S104针对每个第二数据对,使用与多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据每个搜索结果对应多个搜索目标的得分,确定该第二数据对的训练搜索目标。
本实施例在执行S104针对每个第二数据对,使用与多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据每个搜索结果对应多个搜索目标的得分,确定该第二数据对的训练搜索目标时,可以采用的可选实现方式为:按照搜索目标的优先级,确定多个单搜索目标排序模型的打分顺序;针对每个第二数据对,按照所确定的打分顺序,依次使用单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分;在确定两个搜索结果之间的得分分差超过与当前单搜索目标排序模型对应的搜索目标的分差阈值的情况下,将与当前单搜索目标排序模型对应的搜索目标作为该第二数据对的训练搜索目标。
也就是说,本实施例按照预设的优先级,使用不同的单搜索目标排序模型依次为第二数据对中的两个搜索结果进行打分,从而确定第二数据对的训练搜索目标,能够提升所得到的训练搜索目标的准确性;且所确定的训练搜索目标用于下一步骤的搜索结果排序模型的训练,因此无需对第二数据对中两个搜索结果对应不同的搜索目标的得分进行标注,降低了模型的训练难度与训练成本,提升了模型的训练效率。
其中,本实施例在执行S104时会预设不同的搜素目标的优先级,例如预设的优先级为“相关性目标>时效性目标>权威性目标”;本实施例执行S104确定的打分顺序即为,首先使用与相关性目标对应的单搜索目标排序模型进行打分,然后再使用与时效性目标对应的单搜素目标排序模型进行打分,最后使用与权威性目标对应的单搜索目标排序模型进行打分。
本实施例在执行S104使用单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分时,可以针对第二数据对中的每个搜索结果,将第二数据对中的查询词以及该搜索结果对应当前搜索目标的单目标特征,输入与当前搜索目标对应的单搜索目标排序模型,从而获取该单搜索目标排序模型针对该搜索结果输出的得分。
本实施例在执行S104时,还会预设与不同的搜索目标对应的分差阈值,进而实现根据搜索结果之间的得分分差与分差阈值的比较结果,来确定第二数据对的训练搜索目标的目的。
举例来说,若与相关性目标对应的单搜索目标排序模型为模型1、与时效性目标对应的单搜索目标排序模型为模型2、与权威性目标对应的单搜索目标排序模型为模型3;若本实施例执行S104确定的打分顺序为模型1-模型2-模型3,则使用模型1对两个搜索结果进行打分,若确定第二数据对中的两个搜索结果之间的得分分差超过相关性目标的分差阈值,将相关性目标作为该第二数据对的训练搜索目标,否则继续使用模型2对两个搜索结果进行打分;若确定第二数据对中的两个搜索结果之间的得分分差超过时效性目标的分差阈值,将时效性目标作为该第二数据对的训练搜索目标,否则继续使用模型3对两个搜索结果进行打分;若确定第二数据对中的两个搜索结果之间的得分分差超过权威性目标的分差阈值,将权威性目标作为该第二数据对的训练搜索目标。
本实施例在执行S104根据得分分差与分差阈值来确定第二数据对的训练搜素目标时,存在两个搜索结果之间的得分分差均未超过不同的搜索目标的分差阈值的情况,则本实施例在执行S104时,可以将优先级最高的搜索目标,作为此类第二数据对的训练搜索目标。
另外,本实施例在执行S104针对每个第二数据对,使用与多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据每个搜索结果对应多个搜索目标的得分,确定该第二数据对的训练搜索目标时,可以采用的可选实现方式为:针对每个第二数据对,使用与多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分;将与两个搜索结果之间的最大得分分差对应的搜索目标,作为该第二数据对的训练搜索目标。
也就是说,本实施例还会根据由全部的单搜索目标排序模型针对每个第二数据对所输出的搜索结果的得分,来确定每个第二数据对的训练搜索目标,使得第二数据对中的两个搜索结果在所确定的训练搜索目标上,具有最明显的差别,从而提升搜索结果排序模型的训练效果。
本实施例在执行S104确定多个第二数据对的训练搜索目标之后,执行S105基于多个第二数据对中的查询词、多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及多个第二数据对中的每个搜索结果对应训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型。
本实施例在执行S105时所使用的第二预训练语言模型,可以为基于转换网络(Transformer)的神经网络模型,例如Ernie模型。
本实施例在执行S105基于多个第二数据对中的查询词、多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及多个第二数据对中的每个搜索结果对应训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型时,可以采用的可选实现方式为:针对每个第二数据对,将该第二数据对中的查询词、以及与该第二数据对中对应训练搜索目标的得分较高的搜索结果组成正例数据对,将该第二数据对中的查询词、以及与该第二数据对中对应训练搜索目标的得分较低的搜索结果组成负例数据对;将正例数据对中的查询词以及搜索结果对应全部搜索目标的多目标特征、负例数据对中的查询词以及搜索结果对应全部搜索目标的多目标特征分别输入第二预训练语言模型,得到第二预训练语言模型针对正例数据对输出的正例预测得分以及针对负例数据对输出的负例预测得分;根据正例预测得分与负例预测得分,计算损失函数值,本实施例可以采用交叉熵损失函数、合页损失函数的计算方式计算损失函数值;根据计算得到的损失函数值,调整第二预训练语言模型的参数,直至第二预训练语言模型收敛,得到搜索结果排序模型。
也就是说,本实施例根据第二数据对的训练搜索目标,得到对应第二数据对的正例数据对与负例数据对,进而使用所得到的正例数据对与负例数据对完成第二预训练语言模型的训练,无需对第二数据对中每个搜索结果进行标注,从而降低了模型的训练成本与训练难度,提升了模型的训练效率。
举例来说,若第二数据对为数据对2(query1,para1,para2),数据对2的训练搜索目标为相关性目标,para1对应相关性目标的得分为0.7,para2对应相关性目标的得分为0.3,;本实施例执行S105时,将(query1,para1)作为正例数据对,将(query1,para2)作为负例数据对。
基于Transformer的第二预训练语言模型中的注意力(attention)机制,在进行注意力计算时,不会区分与不同的搜索目标对应的特征,即使搜索目标1与搜索目标2是两个完全无关的维度,现有的第二预训练语言模型也会对搜索目标1与搜索目标2的特征进行注意力计算。
而不同的搜索目标实际上对应不同的匹配程度,例如时效性目标用于刻画搜索结果的时间与查询词之间的匹配程度,权威性目标用于刻画搜索结果的发布作者与查询词之间的匹配程度,因此在对时效性建模时,无需考虑权威性目标。
为了进一步提升预训练语言模型在学习多搜索目标时的效果,本实施例在执行S105时,还可以对第二预训练语言模型中的注意力机制进行调整,以使得第二预训练语言模型只进行查询词与不同的目标特征之间的注意力计算、查询词与查询词之间的注意力计算以及相同的目标特征之间的注意力计算。
也就是说,本实施例的第二预训练语言模型在进行训练时,能够避免对应不同的搜索目标的目标特征之间进行注意力计算,从而降低了不同的搜索目标的目标特征之间的相互干扰,提升训练得到的搜索结果排序模型的排序准确性。
举例来说,若第二预训练语言模型的输入包含查询词、目标特征1、目标特征2与目标特征3,则本实施例中的第二预训练语言模型在进行注意力计算时,仅会对查询词与目标特征1、查询词与目标特征2、查询词与目标特征2、查询词与查询词、目标特征1与目标特征1、以及目标特征2与目标特征2进行注意力计算。
图2是根据本公开第二实施例的示意图。如图2所示,本实施例示出了在训练得到单搜索目标排序模型的结构图:将第一数据对中的查询词(query)与该第一数据对中的搜索结果与当前搜索目标对应的单目标特征进行拼接,将拼接结果作为预训练语言模型的输入,得到预训练语言模型针对该第一数据对输出的预测得分;其中,[CLS]表示起始符,[SEP]表示分隔符。
图3是根据本公开第三实施例的示意图。如图3所示,本实施例示出了在确定第二数据对的训练搜索目标时的流程图:本实施例将多个搜索目标划分为主要搜索目标与多个次要搜索目标,依次由对应不同的搜索目标的单搜索目标排序模型对第二数据对中的两个搜索结果进行打分;若确定两个搜索结果之间的得分分差超过主要搜索目标的分差阈值,将主要搜索目标作为该第二数据对的训练搜索目标;否则,继续使用与次要搜索目标1对应的单搜索目标排序模型对第二数据对中的两个搜索结果进行打分,若确定两个搜索结果之间的得分分差超过次要搜索目标1的分差阈值时,将次要搜索目标1作为该第二数据对的训练搜索目标;以此类推,便能够确定第二数据对的训练搜索目标;特别地,若第二数据对在所有次要搜索目标上的得分分差均未超过相应的分差阈值,则将主要搜索目标作为该第二数据对的训练搜索目标。
图4是根据本公开第四实施例的示意图。如图4所示,本实施例示出了在训练得到搜索结果排序模型的结构图:将第二数据对中的查询词(query)与该第二数据对中的一个搜索结果与全部搜索目标对应的多目标特征(主要搜索目标的主要目标特征、次要搜索目标1的次要目标1特征...次要搜索目标n的次要目标n特征)进行拼接,将拼接结果作为预训练语言模型的输入,得到预训练语言模型针对该第二数据对输出的预测得分;其中,[CLS]表示起始符,[SEP]表示分隔符。
图5是根据本公开第五实施例的示意图。如图5所示,本实施例的搜索结果排序方法,具体包括如下步骤:
S501、获取待处理查询词及其对应的多个搜索结果;
S502、针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征;
S503、针对每个搜索结果,将所述待处理查询词与该搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型,得到所述搜索结果排序模型针对该搜索结果输出的得分;
S504、根据所述多个搜索结果的得分,对所述多个搜索结果进行排序。
本实施例的搜索结果排序方法,在获取与查询词对应的多个搜索结果之后,首先获取每个搜索结果对应全部搜索目标的多目标特征,然后将查询词与每个搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型,得到搜索结果排序模型针对每个搜索结果输出的得分,最后根据搜索结果的得分完成对搜索结果的排序,本实施例通过获取搜索结果对应全部搜索目标的多目标特征的方式,使得用于排序的得分能够融合多种搜索目标,从而简化了搜索结果的排序步骤、提升了搜索结果的排序准确性。
本实施例在执行S501获取待处理查询词时,可以将输入端输入的查询词作为待处理查询词,也可以将输入端在网络上所选择的查询词作为待处理查询词;本实施例执行S501获取的与待处理查询词对应的搜索结果,可以为以为整个网页、整个文档或者整个多媒体数据,也可以为网页、文档或者多媒体数据中的一个段落。
本实施例在执行S501获取待处理查询词及其对应的多个搜索结果之后,执行S502针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征;其中,本实施例中的多个搜索目标可以为预设的相关性目标、时效性目标与权威性目标等。
本实施例在执行S502针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征时,可以采用的可选实现方式为:针对每个搜索结果,获取该搜索结果的属性信息;将该搜索结果的属性信息,作为该搜索结果对应全部搜索目标的多目标特征。
本实施例在执行S502将该搜索结果的属性信息,作为该搜索结果对应全部搜索目标的多目标特征时,还可以包含以下内容:在确定该搜索结果的属性信息不为文本的情况下,将该搜索结果的属性信息转化为文本;将文本转化结果,作为该搜索结果对应全部搜索目标的多目标特征。
本实施例在执行S502获取多个搜索结果分别对应全部搜索目标的多目标特征之后,执行S503针对每个搜索结果,将待处理查询词与该搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型,得到搜索结果排序模型针对该搜索结果输出的得分。
本实施例在执行S503将待处理查询词与该搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型时,可以将两者之间的拼接结果输入搜索结果排序模型,以使得搜索结果排序模型对搜索结果进行打分,得到搜索结果排序模型针对该搜索结果输出的得分。
本实施例在执行S503得到多个搜索结果的得分之后,执行S504根据多个搜索结果的得分,进行多个搜索结果的排序。
本实施例在执行S504根据搜索结果的得分进行搜索结果的排序时,可以按照得分从高到低的顺序,对多个搜索结果进行排序。
图6是根据本公开第六实施例的示意图。如图6所示,本实施例的搜索结果排序模型的训练装置600,包括:
第一获取单元601、用于获取多个第一数据对、所述多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征以及所述多个第一数据对分别对应所述多个搜索目标的标注得分,每个第一数据对包含查询词及其对应的一个搜索结果;
第一训练单元602、用于针对每个搜索目标,基于所述多个第一数据对中的查询词、所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及所述多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型;
第二获取单元603、用于获取多个第二数据对以及所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征,每个第二数据对包含查询词及其对应的两个搜索结果;
处理单元604、用于针对每个第二数据对,使用与所述多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据所述每个搜索结果对应所述多个搜索目标的得分,确定该第二数据对的训练搜索目标;
第二训练单元605、用于基于所述多个第二数据对中的查询词、所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及所述多个第二数据对中的每个搜索结果对应所述训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型。
第一获取单元601获取的第一数据对,由查询词(query)及其对应的一个搜索结果组成;其中,第一数据对中的该搜索结果可以为整个网页、整个文档或者整个多媒体数据,也可以为网页、文档或者多媒体数据中的一个段落(para)。
本实施例中预设的多个搜索目标,即为相关性目标(用于表示搜索结果与查询词之间的相关性)、权威性目标(用于表示搜索结果的权威性)与时效性目标(用于表示搜索结果的时效性)等多个目标。
第一获取单元601在获取第一数据对之后,可以首先确定多个搜索目标,然后再获取多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征以及多个第一数据对分别对应多个搜索目标的标注得分。
第一获取单元601在获取多个第一数据对分别对应多个搜索目标的标注得分时,可以通过预设的标注方式,获取多个第一数据对对应每个搜索目标的标注得分。
第一获取单元601在获取多个第一数据对中的搜索结果对应多个搜索目标的单目标特征时,可以采用的可选实现方式为:获取多个第一数据对中的搜索结果的属性信息;针对每个搜索目标,将属性信息中与该搜索目标对应的属性信息,作为多个第一数据对中的搜索结果对应该搜索目标的单目标特征。
也就是说,第一获取单元601获取的不同的单目标特征与不同的搜索目标相对应,搜索结果对应同一个搜索目标的单目标特征中包含的属性信息可以为一个,也可以为多个。
第一获取单元601在针对每个搜索目标,将属性信息中与该搜索目标对应的信息,作为多个第一数据对中的搜索结果对应该搜索目标的单目标特征时,还可以包含以下内容:针对每个搜索目标,在确定属性信息中与该搜索目标对应的属性信息不为文本的情况下,将与该搜索目标对应的属性信息转化为文本;将文本转化结果,作为多个第一数据对中的搜索结果对应该搜索目标的单目标特征。
也就是说,第一获取单元601能够确保所获取的单目标特征为文本,避免使用其他形式复杂的内容,从而降低模型的训练难度、提升模型的训练效率。
第一获取单元601可以通过预设的搜索目标与属性信息之间的对应关系,从搜索结果的属性信息中获取与搜索目标对应的属性信息,作为搜索结果对应每个搜索目标的单目标特征,从而提升所获取的单目标特征的准确性。
本实施例在由第一获取单元601获取多个第一数据对、多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征以及多个第一数据对分别对应多个搜索目标的标注得分之后,由第一训练单元602针对每个搜索目标,基于多个第一数据对中的查询词、多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型。
可以理解的是,第一训练单元602会得到多个单搜索目标排序模型,不同的单搜索目标排序模型与不同的搜索目标相对应。
具体地,第一训练单元602在针对每个搜索目标,基于多个第一数据对中的查询词、多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型时,可以采用的可选实现方式为:针对每个搜索目标,将多个第一数据对中的查询词以及多个第一数据对中的搜索结果对应该搜索目标的单目标特征输入第一预训练语言模型,得到第一预训练语言模型针对每个第一数据对输出的预测得分;根据多个第一数据对的预测得分与多个第一数据对对应该搜索目标的标注得分,计算损失函数值;根据计算得到的损失函数值,调整第一预训练语言模型的参数,直至第一预训练语言模型收敛,得到与该搜索目标对应的单搜索目标排序模型。
也就是说,第一训练单元602根据不同的搜索目标,得到不同的单搜索目标排序模型,而对应不同的搜索目标的单搜索目标排序模型,能够根据所输入的查询词及其搜索结果对应不同的搜索目标的单目标特征,输出搜索结果对应不同的搜索目标的打分结果。
可以理解的是,第一训练单元602所训练的第一预训练语言模型为基于变换网络(Transformer)的神经网络模型,该第一预训练语言模型可以为Ernie模型。
本实施例在由第一训练单元602得到与多个搜索目标对应的单搜索目标排序模型之后,由第二获取单元603获取多个第二数据对以及多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征。
第二获取单元603获取的第二数据对,由查询词及其对应的两个搜索结果组成;其中,第二数据对中的两个搜索结果可以为整个网页、整个文档或者整个多媒体数据,也可以为网页、文档或者多媒体数据中的一个段落(para)。
第二获取单元603在获取多个第二数据对时,可以首先获取多个查询词,然后再获取与每个查询词对应的多个搜索结果,最后针对同一个查询词,从与该查询词对应的多个搜索结果中任意选取两个进行组合,从而得到多个包含查询词及其对应的两个搜索结果的第二数据对。
第二获取单元603在获取多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征时,可以采用的可选实现方式为:获取多个第二数据对中的每个搜索结果的属性信息;将每个搜索结果的属性信息,作为多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征。
也就是说,第二获取单元603获取的多目标特征为搜索结果的全部属性信息,即该多目标特征中包含搜索结果对应不同的搜索目标的全部单目标特征。
第二获取单元603在将每个搜索结果的属性信息,作为多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征时,还可以包含以下内容:针对每个搜索结果,在确定该搜索结果的属性信息不为文本的情况下,将该搜索结果的属性信息转化为文本;将文本转化结果,作为该搜索结果对应全部搜索目标的多目标特征。
也就是说,第二获取单元603能够确保所获取的多目标特征为文本,避免了使用其他形式复杂的内容,从而降低了模型的训练难度、提升了模型的训练效率。
本实施例在由第二获取单元603获取多个第二数据对以及多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征之后,由处理单元604针对每个第二数据对,使用与多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据每个搜索结果对应多个搜索目标的得分,确定该第二数据对的训练搜索目标。
处理单元604在针对每个第二数据对,使用与多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据每个搜索结果对应多个搜索目标的得分,确定该第二数据对的训练搜索目标时,可以采用的可选实现方式为:按照搜索目标的优先级,确定多个单搜索目标排序模型的打分顺序;针对每个第二数据对,按照所确定的打分顺序,依次使用单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分;在确定两个搜索结果之间的得分分差超过与当前单搜索目标排序模型对应的搜索目标的分差阈值的情况下,将与当前单搜索目标排序模型对应的搜索目标作为该第二数据对的训练搜索目标。
也就是说,处理单元604按照预设的优先级,使用不同的单搜索目标排序模型依次为第二数据对中的两个搜索结果进行打分,从而确定第二数据对的训练搜索目标,能够提升所得到的训练搜索目标的准确性;且所确定的训练搜索目标用于下一步骤的搜索结果排序模型的训练,因此无需对第二数据对中两个搜索结果对应不同的搜索目标的得分进行标注,降低了模型的训练难度与训练成本,提升了模型的训练效率。
其中,处理单元604会预设不同的搜素目标的优先级,例如预设的优先级为“相关性目标>时效性目标>权威性目标”;处理单元604确定的打分顺序即为,首先使用与相关性目标对应的单搜索目标排序模型进行打分,然后再使用与时效性目标对应的单搜素目标排序模型进行打分,最后使用与权威性目标对应的单搜索目标排序模型进行打分。
处理单元604在使用单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分时,可以针对第二数据对中的每个搜索结果,将第二数据对中的查询词以及该搜索结果对应当前搜索目标的单目标特征,输入与当前搜索目标对应的单搜索目标排序模型,从而获取该单搜索目标排序模型针对该搜索结果输出的得分。
处理单元604还会预设与不同的搜索目标对应的分差阈值,进而实现根据搜索结果之间的得分分差与分差阈值的比较结果,来确定第二数据对的训练搜索目标的目的。
处理单元604在根据得分分差与分差阈值来确定第二数据对的训练搜素目标时,存在两个搜索结果之间的得分分差均未超过不同的搜索目标的分差阈值的情况,则处理单元604可以将优先级最高的搜索目标,作为此类第二数据对的训练搜索目标。
另外,处理单元604在针对每个第二数据对,使用与多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据每个搜索结果对应多个搜索目标的得分,确定该第二数据对的训练搜索目标时,可以采用的可选实现方式为:针对每个第二数据对,使用与多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分;将与两个搜索结果之间的最大得分分差对应的搜索目标,作为该第二数据对的训练搜索目标。
也就是说,处理单元604还会根据由全部的单搜索目标排序模型针对每个第二数据对所输出的搜索结果的得分,来确定每个第二数据对的训练搜索目标,使得第二数据对中的两个搜索结果在所确定的训练搜索目标上,具有最明显的差别,从而提升搜索结果排序模型的训练效果。
本实施例在由处理单元604确定多个第二数据对的训练搜索目标之后,由第二训练单元605基于多个第二数据对中的查询词、多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及多个第二数据对中的每个搜索结果对应训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型。
第二训练单元605所使用的第二预训练语言模型,可以为基于转换网络(Transformer)的神经网络模型,例如Ernie模型。
第二训练单元605在基于多个第二数据对中的查询词、多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及多个第二数据对中的每个搜索结果对应训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型时,可以采用的可选实现方式为:针对每个第二数据对,将该第二数据对中的查询词、以及与该第二数据对中对应训练搜索目标的得分较高的搜索结果组成正例数据对,将该第二数据对中的查询词、以及与该第二数据对中对应训练搜索目标的得分较低的搜索结果组成负例数据对;将正例数据对中的查询词以及搜索结果对应全部搜索目标的多目标特征、负例数据对中的查询词以及搜索结果对应全部搜索目标的多目标特征分别输入第二预训练语言模型,得到第二预训练语言模型针对正例数据对输出的正例预测得分以及针对负例数据对输出的负例预测得分;根据正例预测得分与负例预测得分,计算损失函数值;根据计算得到的损失函数值,调整第二预训练语言模型的参数,直至第二预训练语言模型收敛,得到搜索结果排序模型。
也就是说,第二训练单元605根据第二数据对的训练搜索目标,得到对应第二数据对的正例数据对与负例数据对,进而使用所得到的正例数据对与负例数据对完成第二预训练语言模型的训练,无需对第二数据对中每个搜索结果进行标注,从而降低了模型的训练成本与训练难度,提升了模型的训练效率。
基于Transformer的第二预训练语言模型中的注意力(attention)机制,在进行注意力计算时,不会区分与不同的搜索目标对应的特征,即使搜索目标1与搜索目标2是两个完全无关的维度,现有的第二预训练语言模型也会对搜索目标1与搜索目标2的特征进行注意力计算。
而不同的搜索目标实际上对应不同的匹配程度,例如时效性目标用于刻画搜索结果的时间与查询词之间的匹配程度,权威性目标用于刻画搜索结果的发布作者与查询词之间的匹配程度,因此在对时效性建模时,无需考虑权威性目标。
为了进一步提升预训练语言模型在学习多搜索目标时的效果,本实施例的搜索结果排序模型训练装置600中,还可以包含调整单元606,用于执行:对第二预训练语言模型中的注意力机制进行调整,以使得第二预训练语言模型只进行查询词与不同的目标特征之间的注意力计算、查询词与查询词之间的注意力计算以及相同的目标特征之间的注意力计算。
也就是说,本实施例的第二预训练语言模型在进行训练时,能够避免对应不同的搜索目标的目标特征之间进行注意力计算,从而降低了不同的搜索目标的目标特征之间的相互干扰,提升训练得到的搜索结果排序模型的排序准确性。
图7是根据本公开第七实施例的示意图。如图7所示,本实施例的搜索结果排序装置700,包括:
第三获取单元701、用于获取待处理查询词及其对应的多个搜索结果;
第四获取单元702、用于针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征;
打分单元703、用于针对每个搜索结果,将所述待处理查询词与该搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型,得到所述搜索结果排序模型针对该搜索结果输出的得分;
排序单元704、用于根据所述多个搜索结果的得分,对所述多个搜索结果进行排序。
第三获取单元701在获取待处理查询词时,可以将输入端输入的查询词作为待处理查询词,也可以将输入端在网络上所选择的查询词作为待处理查询词;第三获取单元701获取的与待处理查询词对应的搜索结果,可以为以为整个网页、整个文档或者整个多媒体数据,也可以为网页、文档或者多媒体数据中的一个段落。
本实施例在由第三获取单元701获取待处理查询词及其对应的多个搜索结果之后,由第四获取单元702针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征;其中,本实施例中的多个搜索目标可以为预设的相关性目标、时效性目标与权威性目标等。
第四获取单元702在针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征时,可以采用的可选实现方式为:针对每个搜索结果,获取该搜索结果的属性信息;将该搜索结果的属性信息,作为该搜索结果对应全部搜索目标的多目标特征。
第四获取单元702在将该搜索结果的属性信息,作为该搜索结果对应全部搜索目标的多目标特征时,还可以包含以下内容:在确定该搜索结果的属性信息不为文本的情况下,将该搜索结果的属性信息转化为文本;将文本转化结果,作为该搜索结果对应全部搜索目标的多目标特征。
本实施例在由第四获取单元702获取多个搜索结果分别对应全部搜索目标的多目标特征之后,由打分单元703针对每个搜索结果,将待处理查询词与该搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型,得到搜索结果排序模型针对该搜索结果输出的得分。
打分单元703在将待处理查询词与该搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型时,可以将两者之间的拼接结果输入搜索结果排序模型,以使得搜索结果排序模型对搜索结果进行打分,得到搜索结果排序模型针对该搜索结果输出的得分。
本实施例在由打分单元703得到多个搜索结果的得分之后,由排序单元704根据多个搜索结果的得分,进行多个搜索结果的排序。
排序单元704在根据搜索结果的得分进行搜索结果的排序时,可以按照得分从高到低的顺序,对多个搜索结果进行排序。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
如图8所示,是根据本公开实施例的搜索结果排序模型的训练或者搜索结果排序方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的展示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如搜索结果排序模型的训练或者搜索结果排序方法。例如,在一些实施例中,搜索结果排序模型的训练或者搜索结果排序方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。
在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的搜索结果排序模型的训练或者搜索结果排序方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行搜索结果排序模型的训练或者搜索结果排序方法。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程搜索结果排序模型的训练或者搜索结果排序装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户展示信息的展示装置(例如,CRT(阴极射线管)或者LCD(液晶展示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(“Virtual Private Server”,或简称“VPS”)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (25)

1.一种搜索结果排序模型的训练方法,包括:
获取多个第一数据对、所述多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征以及所述多个第一数据对分别对应所述多个搜索目标的标注得分,每个第一数据对包含查询词及其对应的一个搜索结果;
针对每个搜索目标,基于所述多个第一数据对中的查询词、所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及所述多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型;
获取多个第二数据对以及所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征,每个第二数据对包含查询词及其对应的两个搜索结果;
针对每个第二数据对,使用与所述多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据所述每个搜索结果对应所述多个搜索目标的得分,确定该第二数据对的训练搜索目标;
基于所述多个第二数据对中的查询词、所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及所述多个第二数据对中的每个搜索结果对应所述训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型。
2.根据权利要求1所述的方法,其中,所述获取所述多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征包括:
获取所述多个第一数据对中的搜索结果的属性信息;
针对每个搜索目标,将所述属性信息中与该搜索目标对应的属性信息,作为所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征。
3.根据权利要求2所述的方法,其中,所述针对每个搜索目标,将所述属性信息中与该搜索目标对应的属性信息,作为所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征包括:
针对每个搜索目标,在确定所述属性信息中与该搜索目标对应的属性信息不为文本的情况下,将与该搜索目标对应的属性信息转化为文本;
将文本转化结果,作为所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征。
4.根据权利要求1-3中任一项所述的方法,其中,所述针对每个搜索目标,基于所述多个第一数据对中的查询词、所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及所述多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型包括:
针对每个搜索目标,将所述多个第一数据对中的查询词以及所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征输入第一预训练语言模型,得到所述第一预训练语言模型针对每个第一数据对输出的预测得分;
根据所述多个第一数据对的预测得分与所述多个第一数据对对应该搜索目标的标注得分,计算损失函数值;
根据所述损失函数值,调整所述第一预训练语言模型的参数,直至所述第一预训练语言模型收敛,得到所述与该搜索目标对应的单搜索目标排序模型。
5.根据权利要求1-4中任一项所述的方法,其中,所述获取所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征包括:
获取所述多个第二数据对中的每个搜索结果的属性信息;
将所述每个搜索结果的属性信息,作为所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征。
6.根据权利要求5所述的方法,其中,所述将所述每个搜索结果的属性信息,作为所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征包括:
针对每个搜索结果,在确定该搜索结果的所述属性信息不为文本的情况下,将所述属性信息转化为文本;
将文本转化结果,作为该搜索结果对应全部搜索目标的多目标特征。
7.根据权利要求1-6中任一项所述的方法,其中,所述针对每个第二数据对,使用与所述多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据所述每个搜索结果对应所述多个搜索目标的得分,确定该第二数据对的训练搜索目标包括:
按照搜索目标的优先级,确定所述多个单搜索目标排序模型的打分顺序;
针对每个第二数据对,按照所述打分顺序,依次使用单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分;
在确定该第二数据对中的两个搜索结果之间的得分分差超过与当前单搜索目标排序模型对应的搜索目标的分差阈值的情况下,将与当前单搜索目标排序模型对应的搜索目标,作为该第二数据对的训练搜索目标。
8.根据权利要求1-7中任一项所述的方法,其中,所述基于所述多个第二数据对中的查询词、所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及所述多个第二数据对中的每个搜索结果对应所述训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型包括:
针对每个第二数据对,将该第二数据对中的查询词、以及与该第二数据对中对应所述训练搜索目标的得分较高的搜索结果组成正例数据对,将该第二数据对中的查询词、以及与该第二数据对中对应所述训练搜索目标的得分较低的搜索结果组成负例数据对;
将所述正例数据对中的查询词以及搜索结果对应全部搜索目标的多目标特征、所述负例数据对中的查询词以及搜索结果对应全部搜索目标的多目标特征分别输入所述第二预训练语言模型,得到所述第二预训练语言模型针对所述正例数据对输出的正例预测得分以及针对所述负例数据对输出的负例预测得分;
根据所述正例预测得分与所述负例预测得分,计算损失函数值;
根据所述损失函数值,调整所述第二预训练语言模型的参数,直至所述第二预训练语言模型收敛,得到所述搜索结果排序模型。
9.根据权利要求1-8中任一项所述的方法,还包括,
对所述第二预训练语言模型中的注意力机制进行调整,以使得所述第二预训练语言模型只进行所述查询词与不同的目标特征之间的注意力计算、所述查询词与所述查询词之间的注意力计算以及相同的目标特征之间的注意力计算。
10.一种搜索结果排序方法,包括:
获取待处理查询词及其对应的多个搜索结果;
针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征;
针对每个搜索结果,将所述待处理查询词与该搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型,得到所述搜索结果排序模型针对该搜索结果输出的得分;
根据所述多个搜索结果的得分,对所述多个搜索结果进行排序;
其中,所述搜索结果排序模型是根据权利要求1-9中任一项所述的方法训练得到的。
11.根据权利要求10所述的方法,其中,所述针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征包括:
针对每个搜索结果,获取该搜索结果的属性信息;
将所述属性信息,作为该搜索结果对应全部搜索目标的多目标特征。
12.一种搜索结果排序模型的训练装置,包括:
第一获取单元,用于获取多个第一数据对、所述多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征以及所述多个第一数据对分别对应所述多个搜索目标的标注得分,每个第一数据对包含查询词及其对应的一个搜索结果;
第一训练单元,用于针对每个搜索目标,基于所述多个第一数据对中的查询词、所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及所述多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型;
第二获取单元,用于获取多个第二数据对以及所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征,每个第二数据对包含查询词及其对应的两个搜索结果;
处理单元,用于针对每个第二数据对,使用与所述多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据所述每个搜索结果对应所述多个搜索目标的得分,确定该第二数据对的训练搜索目标;
第二训练单元,用于基于所述多个第二数据对中的查询词、所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及所述多个第二数据对中的每个搜索结果对应所述训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型。
13.根据权利要求12所述的装置,其中,所述第一获取单元在获取所述多个第一数据对中的搜索结果分别对应多个搜索目标的单目标特征时,具体执行:
获取所述多个第一数据对中的搜索结果的属性信息;
针对每个搜索目标,将所述属性信息中与该搜索目标对应的属性信息,作为所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征。
14.根据权利要求13所述的装置,其中,所述第一获取单元在针对每个搜索目标,将所述属性信息中与该搜索目标对应的属性信息,作为所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征时,具体执行:
针对每个搜索目标,在确定所述属性信息中与该搜索目标对应的属性信息不为文本的情况下,将与该搜索目标对应的属性信息转化为文本;
将文本转化结果,作为所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征。
15.根据权利要求12-14中任一项所述的装置,其中,所述第一训练单元在针对每个搜索目标,基于所述多个第一数据对中的查询词、所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征以及所述多个第一数据对对应该搜索目标的标注得分,训练第一预训练语言模型,得到与该搜索目标对应的单搜索目标排序模型时,具体执行:
针对每个搜索目标,将所述多个第一数据对中的查询词以及所述多个第一数据对中的搜索结果对应该搜索目标的单目标特征输入第一预训练语言模型,得到所述第一预训练语言模型针对每个第一数据对输出的预测得分;
根据所述多个第一数据对的预测得分与所述多个第一数据对对应该搜索目标的标注得分,计算损失函数值;
根据所述损失函数值,调整所述第一预训练语言模型的参数,直至所述第一预训练语言模型收敛,得到所述与该搜索目标对应的单搜索目标排序模型。
16.根据权利要求12-15中任一项所述的装置,其中,所述第二获取单元在获取所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征时,具体执行:
获取所述多个第二数据对中的每个搜索结果的属性信息;
将所述每个搜索结果的属性信息,作为所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征。
17.根据权利要求16所述的装置,其中,所述第二获取单元在将所述每个搜索结果的属性信息,作为所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征时,具体执行:
针对每个搜索结果,在确定该搜索结果的所述属性信息不为文本的情况下,将所述属性信息转化为文本;
将文本转化结果,作为该搜索结果对应全部搜索目标的多目标特征。
18.根据权利要求12-17中任一项所述的装置,其中,所述处理单元在针对每个第二数据对,使用与所述多个搜索目标对应的多个单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分,根据所述每个搜索结果对应所述多个搜索目标的得分,确定该第二数据对的训练搜索目标时,具体执行:
按照搜索目标的优先级,确定所述多个单搜索目标排序模型的打分顺序;
针对每个第二数据对,按照所述打分顺序,依次使用单搜索目标排序模型对该第二数据对中的每个搜索结果进行打分;
在确定该第二数据对中的两个搜索结果之间的得分分差超过与当前单搜索目标排序模型对应的搜索目标的分差阈值的情况下,将与当前单搜索目标排序模型对应的搜索目标,作为该第二数据对的训练搜索目标。
19.根据权利要求12-18中任一项所述的装置,其中,所述第二训练单元在基于所述多个第二数据对中的查询词、所述多个第二数据对中的每个搜索结果对应全部搜索目标的多目标特征以及所述多个第二数据对中的每个搜索结果对应所述训练搜索目标的得分,训练第二预训练语言模型,得到搜索结果排序模型时,具体执行:
针对每个第二数据对,将该第二数据对中的查询词、以及与该第二数据对中对应所述训练搜索目标的得分较高的搜索结果组成正例数据对,将该第二数据对中的查询词、以及与该第二数据对中对应所述训练搜索目标的得分较低的搜索结果组成负例数据对;
将所述正例数据对中的查询词以及搜索结果对应全部搜索目标的多目标特征、所述负例数据对中的查询词以及搜索结果对应全部搜索目标的多目标特征分别输入所述第二预训练语言模型,得到所述第二预训练语言模型针对所述正例数据对输出的正例预测得分以及针对所述负例数据对输出的负例预测得分;
根据所述正例预测得分与所述负例预测得分,计算损失函数值;
根据所述损失函数值,调整所述第二预训练语言模型的参数,直至所述第二预训练语言模型收敛,得到所述搜索结果排序模型。
20.根据权利要求12-19中任一项所述的装置,还包括调整单元,用于执行:
对所述第二预训练语言模型中的注意力机制进行调整,以使得所述第二预训练语言模型只进行所述查询词与不同的目标特征之间的注意力计算、所述查询词与所述查询词之间的注意力计算以及相同的目标特征之间的注意力计算。
21.一种搜索结果排序装置,包括:
第三获取单元,用于获取待处理查询词及其对应的多个搜索结果;
第四获取单元,用于针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征;
打分单元,用于针对每个搜索结果,将所述待处理查询词与该搜索结果对应全部搜索目标的多目标特征输入搜索结果排序模型,得到所述搜索结果排序模型针对该搜索结果输出的得分;
排序单元,用于根据所述多个搜索结果的得分,对所述多个搜索结果进行排序;
其中,所述搜索结果排序模型是根据权利要求12-20中任一项所述的装置训练得到的。
22.根据权利要求21所述的装置,其中,所述第四获取单元在针对每个搜索结果,获取该搜索结果对应全部搜索目标的多目标特征时,具体执行:
针对每个搜索结果,获取该搜索结果的属性信息;
将所述属性信息,作为该搜索结果对应全部搜索目标的多目标特征。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。
CN202210744647.XA 2022-06-27 2022-06-27 搜索结果排序模型的训练与搜索结果排序方法、装置 Active CN115186163B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210744647.XA CN115186163B (zh) 2022-06-27 2022-06-27 搜索结果排序模型的训练与搜索结果排序方法、装置
JP2023038515A JP2024003752A (ja) 2022-06-27 2023-03-13 検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210744647.XA CN115186163B (zh) 2022-06-27 2022-06-27 搜索结果排序模型的训练与搜索结果排序方法、装置

Publications (2)

Publication Number Publication Date
CN115186163A true CN115186163A (zh) 2022-10-14
CN115186163B CN115186163B (zh) 2023-04-07

Family

ID=83515670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210744647.XA Active CN115186163B (zh) 2022-06-27 2022-06-27 搜索结果排序模型的训练与搜索结果排序方法、装置

Country Status (2)

Country Link
JP (1) JP2024003752A (zh)
CN (1) CN115186163B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253998A (zh) * 2011-07-12 2011-11-23 武汉大学 基于Web时间不一致的过时网页自动发现与排序方法
US20140280081A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Part-of-speech tagging for ranking search results
CN104077306A (zh) * 2013-03-28 2014-10-01 阿里巴巴集团控股有限公司 一种搜索引擎的结果排序方法及系统
CN104462293A (zh) * 2014-11-27 2015-03-25 百度在线网络技术(北京)有限公司 搜索处理方法、生成搜索结果排序模型的方法和装置
CN104615767A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 搜索排序模型的训练方法、搜索处理方法及装置
CN109299344A (zh) * 2018-10-26 2019-02-01 Oppo广东移动通信有限公司 排序模型的生成方法、搜索结果的排序方法、装置及设备
US20190102481A1 (en) * 2017-09-29 2019-04-04 Rovi Guides, Inc. Recommending language models for search queries based on user profile
CN111783452A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 模型训练方法、信息处理方法、装置、设备及存储介质
CN112084435A (zh) * 2020-08-07 2020-12-15 北京三快在线科技有限公司 搜索排序模型训练方法及装置、搜索排序方法及装置
CN112100529A (zh) * 2020-11-17 2020-12-18 北京三快在线科技有限公司 搜索内容排序方法、装置、存储介质和电子设备
CN112307762A (zh) * 2020-12-24 2021-02-02 完美世界(北京)软件科技发展有限公司 搜索结果的排序方法及装置、存储介质、电子装置
CN113360796A (zh) * 2021-05-20 2021-09-07 北京三快在线科技有限公司 数据排序方法及装置、数据排序模型训练方法及装置
CN114281935A (zh) * 2021-09-16 2022-04-05 腾讯科技(深圳)有限公司 搜索结果分类模型的训练方法、装置、介质及设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253998A (zh) * 2011-07-12 2011-11-23 武汉大学 基于Web时间不一致的过时网页自动发现与排序方法
US20140280081A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Part-of-speech tagging for ranking search results
CN104077306A (zh) * 2013-03-28 2014-10-01 阿里巴巴集团控股有限公司 一种搜索引擎的结果排序方法及系统
CN104462293A (zh) * 2014-11-27 2015-03-25 百度在线网络技术(北京)有限公司 搜索处理方法、生成搜索结果排序模型的方法和装置
CN104615767A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 搜索排序模型的训练方法、搜索处理方法及装置
US20190102481A1 (en) * 2017-09-29 2019-04-04 Rovi Guides, Inc. Recommending language models for search queries based on user profile
CN109299344A (zh) * 2018-10-26 2019-02-01 Oppo广东移动通信有限公司 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN111783452A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 模型训练方法、信息处理方法、装置、设备及存储介质
CN112084435A (zh) * 2020-08-07 2020-12-15 北京三快在线科技有限公司 搜索排序模型训练方法及装置、搜索排序方法及装置
CN112100529A (zh) * 2020-11-17 2020-12-18 北京三快在线科技有限公司 搜索内容排序方法、装置、存储介质和电子设备
CN112307762A (zh) * 2020-12-24 2021-02-02 完美世界(北京)软件科技发展有限公司 搜索结果的排序方法及装置、存储介质、电子装置
CN113360796A (zh) * 2021-05-20 2021-09-07 北京三快在线科技有限公司 数据排序方法及装置、数据排序模型训练方法及装置
CN114281935A (zh) * 2021-09-16 2022-04-05 腾讯科技(深圳)有限公司 搜索结果分类模型的训练方法、装置、介质及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李金忠 等: "排序学习研究进展与展望", 《自动化学报》 *

Also Published As

Publication number Publication date
CN115186163B (zh) 2023-04-07
JP2024003752A (ja) 2024-01-15

Similar Documents

Publication Publication Date Title
US20220198327A1 (en) Method, apparatus, device and storage medium for training dialogue understanding model
JP7430820B2 (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN112925883B (zh) 搜索请求处理方法、装置、电子设备及可读存储介质
CN112925900B (zh) 搜索信息处理方法、装置、设备及存储介质
CN113836925A (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
EP3992814A2 (en) Method and apparatus for generating user interest profile, electronic device and storage medium
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN113609847B (zh) 信息抽取方法、装置、电子设备及存储介质
CN113326450B (zh) 一种兴趣点召回方法、装置、电子设备和存储介质
CN113033194B (zh) 语义表示图模型的训练方法、装置、设备和存储介质
CN112506864B (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN115186163B (zh) 搜索结果排序模型的训练与搜索结果排序方法、装置
CN113515932B (zh) 处理问答信息的方法、装置、设备和存储介质
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN112925912A (zh) 文本处理方法、同义文本召回方法及装置
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置
CN113377921B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN113377922B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN114422584B (zh) 资源的推送方法、设备和存储介质
CN114925185B (zh) 交互方法、模型的训练方法、装置、设备及介质
CN109977392B (zh) 一种文本特征分析的方法和装置
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant