CN117370682A - 对象排序方法、装置、设备及存储介质 - Google Patents

对象排序方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117370682A
CN117370682A CN202210745380.6A CN202210745380A CN117370682A CN 117370682 A CN117370682 A CN 117370682A CN 202210745380 A CN202210745380 A CN 202210745380A CN 117370682 A CN117370682 A CN 117370682A
Authority
CN
China
Prior art keywords
recall
information
query information
recall object
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210745380.6A
Other languages
English (en)
Inventor
艾长青
吴君彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210745380.6A priority Critical patent/CN117370682A/zh
Publication of CN117370682A publication Critical patent/CN117370682A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种对象排序方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:获取查询信息,以及查询信息对应的多个召回对象;对于多个召回对象中的第一召回对象,获取第一召回对象在匹配特征下的预测结果,该匹配特征用于表征查询信息和召回对象之间的相关性;获取第一召回对象在行为特征下的预测结果,该行为特征用于表征召回对象的受欢迎程度;基于第一召回对象在匹配特征下的预测结果,以及在行为特征下的预测结果,获取第一召回对象对应的综合评分;基于综合评分,对多个召回对象进行排序。本申请实施例能够在充分利用行为特征的情况下,提高匹配特征在排序过程(如粗排)中的利用率,从而提高召回对象的排序准确性。

Description

对象排序方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种对象排序方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,其在搜索领域的研究和应用也越来越多。搜索是指根据使用者的意图,检索与使用者的意图相匹配的结果的过程。
以零售行业的粗排阶段为例,相关技术通过基于询问信息(如query)与询问信息对应的召回商品之间的匹配特征(表征相关性),以及召回商品对应的行为特征(表征点击率、购买率等)训练得到的粗排模型,对召回商品进行粗排。
然而,在实际应用场景中,相关技术中的粗排模型的权重严重倾向于行为特征,粗排的准确性不高。
发明内容
本申请实施例提供了一种对象排序方法、装置、设备及存储介质,能够提高召回对象的排序准确性,所述技术方案可以包括如下内容。
根据本申请实施例的一个方面,提供了一种对象排序方法,所述方法包括:
获取查询信息,以及所述查询信息对应的多个召回对象;
对于所述多个召回对象中的第一召回对象,基于所述查询信息和所述第一召回对象之间的匹配特征,获取所述第一召回对象在所述匹配特征下的预测结果;其中,所述匹配特征用于表征所述查询信息和所述召回对象之间的相关性,所述预测结果用于表征所述召回对象被选择的预测可能性;
基于所述查询信息,获取所述第一召回对象在行为特征下的预测结果;其中,所述行为特征用于表征所述召回对象的受欢迎程度;
基于所述第一召回对象在所述匹配特征下的预测结果,以及所述第一召回对象在行为特征下的预测结果,获取所述第一召回对象对应的综合评分;
基于所述多个召回对象分别对应的综合评分,对所述多个召回对象进行排序,得到召回对象序列。
根据本申请实施例的一个方面,提供了一种对象排序装置,所述装置包括:
查询信息获取模块,用于获取查询信息,以及所述查询信息对应的多个召回对象;
第一结果获取模块,用于对于所述多个召回对象中的第一召回对象,基于所述查询信息和所述第一召回对象之间的匹配特征,获取所述第一召回对象在所述匹配特征下的预测结果;其中,所述匹配特征用于表征所述查询信息和所述召回对象之间的相关性,所述预测结果用于表征所述召回对象被选择的预测可能性;
第二结果获取模块,用于基于所述查询信息,获取所述第一召回对象在行为特征下的预测结果;其中,所述行为特征用于表征所述召回对象的受欢迎程度;
综合评分获取模块,用于基于所述第一召回对象在所述匹配特征下的预测结果,以及所述第一召回对象在行为特征下的预测结果,获取所述第一召回对象对应的综合评分;
召回对象排序模块,用于基于所述多个召回对象分别对应的综合评分,对所述多个召回对象进行排序,得到召回对象序列。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述对象排序方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述对象排序方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述对象排序方法。
本申请实施例提供的技术方案至少包括如下有益效果。
通过先分别获取召回对象在匹配特征下的预测结果和召回对象在行为特征下的预测结果,再基于召回对象在匹配特征下的预测结果和召回对象在行为特征下的预测结果,获取召回对象对应的综合评分,使得排序过程中能够在充分利用行为特征的同时,充分利用匹配特征,从而大大提高了匹配特征的利用率(即重要性),进而提高了排序过程(如粗排)中,召回对象的排序准确性,尤其是在搜索或推荐场景的初期(存在新的询问信息、询问信息较少、行为数据较少等),召回对象的排序效果更加明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的对象排序方法的流程图;
图3是本申请一个实施例提供的本申请实施例在零售行业下的部署的示意图;
图4是本申请一个实施例提供的匹配特征模型的训练方法的流程图;
图5是本申请一个实施例提供的行为特征模型的训练方法的示意图;
图6是本申请一个实施例提供的对象排序装置的框图;
图7是本申请另一个实施例提供的对象排序装置的框图;
图8是本申请一个实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的技术方案涉及人工智能的机器学习技术,利用机器学习技术基于询问信息与召回对象之间的匹配特征,训练得到可获取匹配特征下的预测结果的匹配特征模型,以及基于召回对象对应的行为特征,训练得到可获取行为特征下的预测结果的行为特征模型。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如PC(PersonalComputer,个人计算机)、平板电脑、智能手机、可穿戴设备、智能机器人、车载等终端;也可以是服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
本申请实施例提供技术方案适用于任何需要对象排序的场景中,诸如零售行业的搜索场景、对象(如商品、文章、视频等)的推荐场景、知识(如医疗知识、实用知识等)检索场景等。本申请实施例提供的技术方案能够提高了排序过程(如粗排)中,召回对象的排序准确性,尤其是在搜索或推荐场景的初期(存在新的询问信息、询问信息较少、行为数据较少等),排序效果更加明显。
在一个示例中,请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以实现成为对象排序系统架构。该实施环境可以包括:终端10和服务器20。
终端10可以是诸如手机、电脑、智能语音交互设备、智能家电、多媒体播放设备、PC、车载终端、智能机器人等电子设备。终端10中可以安装目标应用程序的客户端,使用者可以通过目标应用程序的客户端输入询问信息。例如,该目标应用程序可以是购物类应用程序、生活娱乐类应用程序、音视频播放类应用程序、检索类应用程序等,本申请实施例对此不作限定。可选地,终端10还可以获取针对询问信息对应的结果的行为数据,诸如点击率、购买率、复购率等。
服务器20用于为终端10中的目标应用程序(如购物类应用程序)的客户端提供后台服务。例如,服务器20可以是上述应用程序(如购物类应用程序)的后台服务器。服务器20可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。
终端10和服务器20之间可通过网络30进行互相通信。该网络30可以是有线网络,也可以是无线网络。
示例性地,以零售行业的搜索场景为例,终端10中的目标应用程序(如购物类应用程序)的目标客户端获取使用者输入的询问信息,并将该询问信息发送至服务器20,服务器20获取该询问信息,以及该询问信息对应的多个召回商品(即召回对象,对应召回阶段),然后获取多个召回商品分别在匹配特征下的预测结果,以及多个召回商品分别在行为特征下的预测结果,进而获取多个召回商品分别对应的综合评分,最后基于综合评分,对多个召回商品进行排序,得到商品排序结果,服务器20再基于商品排序结果进行后续的搜索流程(如筛选、精排、重排等),得到搜索结果,并将搜索结果发送至目标客户端,以进行展示。可选地,上述搜索过程也可以由目标客户端单独完成,本申请实施例对此不作限定。
请参考图2,其示出了本申请一个实施例提供的对象排序方法的流程图。该方法各步骤的执行主体可以是图1所示方案实施环境中的终端10或服务器20,该方法可以包括如下几个步骤(201~205)。
步骤201,获取查询信息,以及查询信息对应的多个召回对象。
在本申请实施例中,查询信息是指用于表征使用者的意图的信息。示例性地,该查询信息可以通过使用者输入的搜索词、查询词(即query)等来获取。例如,以零售行业为例,使用者可以通过购买类应用程序的客户端所提供的搜索功能,输入query,以使得该客户端能够获取使用者对应的查询信息(即意图)。可选地,query可以是文字形式,也可以是语音形式,本申请实施例对此不作限定。
召回对象是指根据查询信息,召回的与使用者的意图可能相匹配的对象。本申请实施例对召回对象不作限定,其可以是指召回的商品、文章、视频、音乐、词条等。示例性地,以零售行业为例,商品的数量往往是百万级别的,而为了给使用者提供一个良好的体验,可以将商品的搜索或推荐划分为召回、粗排、精排和重排这几个阶段。在召回阶段,可以基于规则或内容的方案,从百万级别的商品库中,召回用户可能感兴趣的数万或数千的商品,即召回商品。
步骤202,对于多个召回对象中的第一召回对象,基于查询信息和第一召回对象之间的匹配特征,获取第一召回对象在匹配特征下的预测结果;其中,匹配特征用于表征查询信息和召回对象之间的相关性,预测结果用于表征召回对象被选择的预测可能性。
第一召回对象可以是指多个召回对象中的任一召回对象。查询信息和第一召回对象之间的匹配特征用于表征该查询信息和第一召回对象之间的相关性。例如,查询信息对应的意图包括脱脂牛奶,而第一召回对象为脱脂牛奶,则该查询信息和第一召回对象之间的相关性就很高。
预测结果可以以0-1之间的数值表示,第一召回对象对应的预测结果的数值越大,使用者对第一召回对象进行操作(如点击、购买、选择等)的可能性就越大。
可选地,匹配特征可以包括多个维度,例如类目、产品词、品牌词等维度。其中,可以通过对询问信息进行语义理解,得到询问信息对应的类目信息、产品词信息和品牌词信息等,可以通过对召回对象进行语义理解,得到召回对象对应的类目信息、产品词信息和品牌词信息等。
在一个示例中,第一召回对象在匹配特征下的预测结果的获取过程可以如下:
1、基于查询信息对应的类目信息和第一召回对象对应的类目信息,获取查询信息和第一召回对象之间的第一匹配特征。
可以采用用于表征是否相等的二值特征来表示第一匹配特征。示例性地,若查询信息对应的类目信息与第一召回对象对应的类目信息之间相同,则可以将1确定为查询信息和第一召回对象之间的第一匹配特征。否则,可以将0确定为查询信息和第一召回对象之间的第一匹配特征。
也可以基于查询信息对应的类目信息与第一召回对象对应的类目信息之间的相似性,确定查询信息和第一召回对象之间的第一匹配特征。示例性地,可以先获取类目信息对应的词嵌入,再采用余弦相似度,计算查询信息对应的类目信息的词嵌入与第一召回对象对应的类目信息的词嵌入之间的相似度,若相似度大于阈值,则可以将1确定为查询信息和第一召回对象之间的第一匹配特征。否则,可以将0确定为查询信息和第一召回对象之间的第一匹配特征。
本申请实施例对相似度的计算方式不作限定,任何适用于计算向量之间的距离的方法都可适用,如欧式距离、曼哈顿距离、切比雪夫距离等算法等。
2、基于查询信息对应的产品词信息和第一召回对象对应的产品词信息,获取查询信息和第一召回对象之间的第二匹配特征。
可选地,若查询信息对应的产品词信息与第一召回对象对应的产品词信息之间相同,则可以将1确定为查询信息和第一召回对象之间的第二匹配特征。否则,可以将0确定为查询信息和第一召回对象之间的第二匹配特征。
3、基于查询信息对应的品牌词信息和第一召回对象对应的品牌词信息,获取查询信息和第一召回对象之间的第三匹配特征。
可选地,若查询信息对应的品牌词信息与第一召回对象对应的品牌词信息之间相同,则可以将1确定为查询信息和第一召回对象之间的第三匹配特征。否则,可以将0确定为查询信息和第一召回对象之间的第三匹配特征。
4、分别获取查询信息对应的类目信息、产品词信息和品牌词信息,与第一召回对象的标题之间的连续特征;其中,连续特征用于表征自然语言与自然语言之间的重合度。
类目信息与第一召回对象的标题之间的连续特征,用于表征类目信息对应的分词与第一召回对象的标题对应的分词之间的重合度,产品词信息与第一召回对象的标题之间的连续特征,用于表征产品词信息对应的分词与第一召回对象的标题对应的分词之间的重合度,品牌词信息与第一召回对象的标题之间的连续特征,用于表征品牌词信息对应的分词与第一召回对象的标题对应的分词之间的重合度。
询问信息对应的连续特征,以及询问信息对应的类目信息、产品词信息和品牌词信息分别对应的连续特征的获取方法相同,下面以询问信息对应的连续特征的获取过程为例进行说明。
示例性地,设query=“进口脱脂牛奶”,则query对应的分词为:进口、脱脂和牛奶,分词长度为3。第一召回对象的标题(即title)为“脱脂纯牛奶整箱250ml”,则第一召回对象的标题对应的分词为:脱脂、纯、牛奶、整箱和250ml,分词长度为5。由于分词脱脂和牛奶,query和第一召回对象的标题均具有,因此,query与第一召回对象的标题之间的连续特征为:2/5=0.4。
5、基于第一匹配特征、第二匹配特征、第三匹配特征、连续特征、查询信息对应的词嵌入和第一召回对象对应的词嵌入,获取第一召回对象在匹配特征下的预测结果。
查询信息对应的词嵌入用于表征查询信息,第一召回对象对应的词嵌入用于表征第一召回对象,词嵌入可以以向量的形式构建。查询信息对应的词嵌入和第一召回对象对应的词嵌入获取方法相同,下面以查询信息对应的词嵌入获取过程为例进行说明。
示例性地,设query=“进口脱脂牛奶”,则query对应的分词为:进口、脱脂和牛奶。各个分词的词嵌入可以分别表示为:进口:[0.0,1.0,0.2,0.3]、脱脂:[0.0,0.2,0.5,0.3]和牛奶:[0.3,0.0,0.2,0.6],query的词嵌入则可以是各个分词的词嵌入在对应维度上的平均值:[0.1,0.4,0.3,0.4]。
可选地,可以将第一匹配特征、第二匹配特征、第三匹配特征、连续特征、查询信息对应的词嵌入和第一召回对象对应的词嵌入输入预先训练好的匹配特征模型中,该匹配特征模型即可输出第一召回对象在匹配特征下的预测结果。其中,匹配特征模型可以是一个二分类模型,诸如SVM(Support Vector Machine,支持向量机)、Xgboost(ExtremeGradient Boosting,基于决策树的集成机器学习算法)、深度学习模型等,匹配特征模型是由历史查询信息与历史查询信息对应的召回对象之间的匹配特征,在历史查询信息对应的目标指标数据(如点击率,以反映是否被点击)下训练完成的,匹配特征模型的训练过程,下文将做详细介绍,这里不再赘述。
可选地,第一召回对象在匹配特征下的预测结果可以由匹配特征模型在线获取。召回对象对应的词嵌入、类目信息、产品词信息、品牌词信息等,可以在客户端投入使用前,通过语义理解服务模块,离线获取,如此有利于提高预测结果的获取效率,进而提高召回对象的排序效率。
步骤203,基于查询信息,获取第一召回对象在行为特征下的预测结果;其中,行为特征用于表征召回对象的受欢迎程度。
在本申请实施例中,行为特征与使用者针对召回对象的行为数据相关,该行为特征可基于使用者的行为数据进行构建,诸如点击、购买、复购、查阅、搜索、查询等行为数据。示例性地,当使用者搜索“牛奶”,并点击了“牛奶”对应的某个召回对象,则认为使用者喜欢该召回对象,也即该召回对象比较受使用者的欢迎。又例如,行为特征与召回对象对应的指标数据相关,某个召回对象对应的指标数据越好,该召回对象受欢迎程度越高,该指标数据可以包括点击率、购买率、加购率、复购率等。
在一个示例中,第一召回对象在行为特征下的预测结果的获取过程可以如下:
1、将查询信息,分别与数据库中的各个历史查询信息进行匹配。
历史查询信息可以是指在历史时段中所获取的所有查询信息。数据库可用于以键值对的形式,存储历史查询信息和历史查询信息对应的搜索结果在行为特征下的历史预测结果。示例性地,以零售行业为例,与历史查询信息相关的内容,可以以<query,商品,行为特征下的历史预测结果>的形式存储在诸如Redis(Remote Dictionary Server,远程字典服务)数据库、内存、其他Key-Value数据库中。历史预测结果是指历史查询信息对应的搜索结果,在行为特征下的预测结果。
可选地,可以根据查询信息对应的语义理解,和各个历史查询信息分别对应的语义理解进行匹配,也可以根据查询信息对应的分词,和各个历史查询信息分别对应的分词进行匹配,本申请实施例对此不作限定。若两者的匹配度大于阈值,则可以判断查询信息与历史查询信息相匹配。否则,可以判断查询信息与历史查询信息不匹配。
2、在存在与查询信息对应的目标历史查询信息的情况下,获取目标历史查询信息对应的第一召回对象在行为特征下的历史预测结果。
其中,目标历史查询信息是指与查询信息相匹配的历史查询信息。示例性地,在存在与查询信息对应的目标历史查询信息的情况下,从数据库中,提取目标历史查询信息对应的搜索结果在行为特征下的历史预测结果,然后从中确定出第一召回对象在行为特征下的历史预测结果。
3、将历史预测结果,确定为第一召回对象在行为特征下的预测结果。
可选地,可以将第一召回对象在行为特征下的历史预测结果,确定为查询信息对应的,第一召回对象在行为特征下的预测结果。
由于行为数据是离线数据,可以预先离线将搜索结果在行为特征下的预测结果计算出来,如此在实际使用中,可以降低召回对象在行为特征下的预测结果的获取时延,从而提高召回对象的排序效率,进而提高用户体验。
在另一个示例中,在不存在目标历史查询信息的情况下,第一召回对象在行为特征下的预测结果的获取过程可以如下:
1、获取查询信息对应的词嵌入,以及第一召回对象对应的词嵌入。
可选地,可以根据查询信息对应的分词的词嵌入,确定查询信息对应的词嵌入,可以根据第一召回对象对应的分词的词嵌入,确定第一召回对象对应的词嵌入。
2、基于查询信息对应的词嵌入和第一召回对象对应的词嵌入,获取第一召回对象在行为特征下的预测结果。
可选地,可以将查询信息对应的词嵌入和第一召回对象对应的词嵌入输入预先训练好的行为特征模型中,该行为特征模型即可输出第一召回对象在行为特征下的预测结果。其中,行为特征模型也可以是一个二分类模型,诸如SVM、Xgboost、深度学习模型等,行为特征模型是基于行为特征训练得到的,行为特征模型的训练过程,下文将做详细介绍,这里不再赘述。
可选地,在目标历史查询信息对应的搜索结果中不存在第一召回对象(如新的对象)的情况下,也可以基于查询信息对应的词嵌入和第一召回对象对应的词嵌入,获取第一召回对象在行为特征下的预测结果。
步骤204,基于第一召回对象在匹配特征下的预测结果,以及第一召回对象在行为特征下的预测结果,获取第一召回对象对应的综合评分。
综合评分用于表征使用者选择召回对象的最终可能性,该综合评分充分利用了查询信息与第一召回对象的相关性,和使用者对第一召回对象的感兴趣程度,尤其是在粗排阶段,可以大大增加查询信息与第一召回对象的相关性的重要性,如此可以提高召回对象的排序准确性和有效性。
可选地,可以对第一召回对象在匹配特征下的预测结果和第一召回对象在行为特征下的预测结果进行加权求和,获取第一召回对象对应的综合评分。
示例性地,第一召回对象对应的综合评分获取过程可以表示如下:
score=α*f(X)+β*g(Z);
其中,X为匹配特征,Z为行为特征,α和β为权重参数,f(X)和g(Z)分别表示匹配特征模型和行为特征模型。
步骤205,基于多个召回对象分别对应的综合评分,对多个召回对象进行排序,得到召回对象序列。
在一个示例中,本申请实施例提供的技术方案对应于搜索或推荐场景中的粗排阶段。粗排可以是指从召回对象中,确定出与使用者的意图很相关的目标对象的过程。
可选地,在召回对象序列中的各个召回对象按照综合评分从大到小的顺序排序的情况下,可以将召回对象序列中的前阈值数量的召回对象,确定为排序结果。例如,按照综合评分,对数万或数千召回对象进行排序,并从中确定出数百或数十个与询问信息对应的意图很相关的目标对象。
也可以将综合评分大于或等于第一阈值的召回对象,确定为排序结果。第一阈值可以根据实际使用需求进行适应性设置与调整。
在得到排序结果之后,可以对排序结果进行精排、重排等步骤,已得到最终的搜索结果或推荐结果。
在一个示例性实施例中,以零售行业为例(即召回对象为召回商品),参考图3,本申请实施例提供的技术方案,可以部署如下:匹配特征模型302在线部署,行为特征模型303离线部署,具体运行过程可以包括如下内容。
客户端获取使用者输入的query(即获取查询信息),通过内置的语义理解服务模块301,对query进行语义理解服务,得到query对应的词嵌入、类目信息、产品词信息和品牌词信息等。
获取query对应的多个召回商品,并从客户端对应的数据库中,获取该多个召回商品分别对应的词嵌入、类目信息、产品词信息和品牌词信息等(这些信息可以离线提起获取)。
通过匹配特征模型302,基于query对应的词嵌入、类目信息、产品词信息和品牌词信息、以及多个召回商品分别对应的词嵌入、类目信息、产品词信息和品牌词信息(中间的匹配特征、连续特征的获取过程与上述相同,这里不再赘述),得到各个召回商品分别在匹配特征下的预测结果。其中,匹配特征模型302可以是基于匹配特征离线训练得到。
从Redis数据库304中,提取各个召回商品分别在行为特征下的预测结果。其中,各个召回商品分别在行为特征下的预测结果,可以是通过行为特征模型303提前离线预测得到,并以键值对的形式存在Redis数据库304中的。行为特征模型303可以基于历史行为数据离线训练得到。
对于每个召回商品,进行行为特征下的预测结果和匹配特征下的预测结果的融合,得到每个召回商品分别对应的综合评分。根据综合评分,按照从大到小的顺序,对各个召回商品进行排序,得到召回商品序列,最后将召回商品序列中top N个召回商品,确定为排序结果,并将排序结果推送给精排服务。
由于行为特征模型是离线部署,可以采用更为复杂的神经网络,进行行为特征模型的构建,诸如ResNet(Residual Network,残差网络)、Attention机制等,以优化行为特征模型,提高行为特征模型的预测精度,从而进一步提高召回对象的排序准确性。
综上所述,本申请实施例提供的技术方案,通过先分别获取召回对象在匹配特征下的预测结果和召回对象在行为特征下的预测结果,再基于召回对象在匹配特征下的预测结果和召回对象在行为特征下的预测结果,获取召回对象对应的综合评分,使得排序过程中能够在充分利用行为特征的同时,充分利用匹配特征,从而大大提高了匹配特征的利用率(即重要性),进而提高了排序过程(如粗排)中,召回对象的排序准确性,尤其是在搜索或推荐场景的初期(存在新的询问信息、询问信息较少、行为数据较少等),召回对象的排序效果更加明显。
另外,由于行为数据是离线数据,可以预先离线将召回对象在行为特征下的预测结果计算出来,如此在实际使用中,可以降低召回对象在行为特征下的预测结果的获取时延,从而提高召回对象的排序效率,进而提高用户体验。
在一个示例性实施例中,上述的匹配特征模型和行为特征模型的训练过程可以如下:
匹配特征模型用于获取召回对象在匹配特征下的预测结果。示例性地,匹配特征模型是由历史查询信息与历史查询信息对应的召回对象之间的匹配特征,在历史查询信息对应的目标指标数据下训练完成的。其中,目标指标数据可以是指点击、选择、查阅、购买等。例如,若某召回对象被点击了,则该召回对象的标签可以设置为1,否则设置为0。
在一个示例中,匹配特征模型的训练过程可以如下:
1、获取匹配特征模型对应的正样本和负样本。
在本申请实施例中,正样本和负样本可以以<样本询问信息,召回对象>的形式进行构建,在<样本询问信息,召回对象>中的召回对象被点击的情况下,可以将<样本询问信息,召回对象>设置为正样本,其余的<样本询问信息,召回对象>可以设置为负样本。
在一个示例中,正样本和负样本其具体过程可以如下:
获取历史询问信息集合;历史询问信息集合可以包括历史时段中所有的历史询问信息。
按照点击率对历史询问信息集合中的各个历史询问信息进行分类,得到n类询问信息;其中,n类询问信息中的第m类询问信息对应的点击率大于第m-1类询问信息对应的点击率,n为大于1的整数,m为小于或等于m的整数。
例如,可以将各个历史询问信息分成高频、中频和低频三类询问信息。其中,高频询问信息对应的点击率大于第二阈值,中频询问信息对应的点击率小于或等于第二阈值、且大于第三阈值,低频询问信息对应的点击率小于第三阈值,第二阈值大于第三阈值,第二阈值和第三阈值可以根据实际使用需求进行适应性设置与调整。
分别从n类询问信息中选择多个样本询问信息,生成样本询问信息集合,该样本询问信息集合用于对匹配特征模型进行训练。例如,分别从高频询问信息、中频询问信息和低频询问信息中,随机选择多个样本询问信息,生成样本询问信息集合。如此,可以保证匹配特征模型的训练效果,提高匹配特征模型的合理性和准确性。
对于样本询问信息集合中的目标样本询问信息,获取目标样本询问信息对应的多个样本召回对象。目标样本询问信息可以是指样本询问信息集合中的任一样本询问信息。
基于目标样本询问信息和多个样本召回对象,构建多个样本对,每个样本对包括目标样本询问信息和一个样本召回对象。例如,以<目标样本询问信息,样本召回对象>的形式构建样本对。
将样本召回对象被点击过的样本对,确定为匹配特征模型的初始正样本。由于一个历史询问信息和对应的召回对象之间的相关性是确定的,不会随着时间变化而变化,将使用者点击过的样本对,确定为初始正样本,可以减少样本获取过程中的工作量。
将通过合规校验的初始正样本,确定为匹配特征模型的正样本,以及将正样本之外的样本对,确定为匹配特征模型的负样本。合规校验可以排除虚假的正样本,如可以排除使用者误点、无意义点击等下的初始正样本,从而进一步提高正样本的准确性。负样本可以包括曝光未点击的召回对象和未曝光的召回对象对应的样本对,以及未通过合规校验的初始正样本。
2、对匹配特征模型的多个样本(包括正样本和负样本),进行特征计算,得到多个样本分别对应的匹配特征、连续特征和词嵌入。
例如,对于目标样本:<目标样本询问信息,目标样本召回对象>,基于目标样本询问信息对应的类目信息和目标样本召回对象对应的类目信息,获取目标样本询问信息和目标样本召回对象之间的第一匹配特征;基于目标样本询问信息对应的产品词信息和目标样本召回对象对应的产品词信息,获取目标样本查询信息和目标样本召回对象之间的第二匹配特征;基于目标样本查询信息对应的品牌词信息和目标样本召回对象对应的品牌词信息,获取目标样本查询信息和目标样本召回对象之间的第三匹配特征。
分别获取目标样本查询信息对应的类目信息、产品词信息和品牌词信息,与目标样本召回对象的标题之间的连续特征。
3、通过匹配特征模型,基于多个样本分别对应的匹配特征、连续特征和词嵌入,获取多个样本分别在匹配特征下的预测结果。
可选地,可以采用LR(Logistic Regression,逻辑回归)、Xgboost等算法,构建匹配特征模型的输出层,来获取样本分别在匹配特征下的预测结果,以保证匹配特征模型的预测性能。
4、基于多个样本分别在匹配特征下的预测结果和标签信息,构建匹配特征模型的损失函数。
可选地,可以采用焦点损失函数,基于多个样本分别在匹配特征下的预测结果和标签信息,获取多个样本分别对应的焦点损失,再对多个样本分别对应的焦点损失进行求和,得到匹配特征模型的损失函数。
5、基于匹配特征模型的损失函数,对匹配特征模型进行训练,得到训练完成的匹配特征模型。
示例性地,参考图4,以零售行业为例。将样本:<样本query,样本商品>输入匹配特征模型400中,匹配特征模型400中的特征计算模块,基于<样本query,样本商品>,获取<样本query,样本商品>分别在类目、产品词和品牌词下的匹配特征,样本query对应的类目、产品词和品牌词分别与样本商品的标题之间的连续特征,以及样本query的词嵌入和样本商品的词嵌入。再基于输出层(如LR或Xgboost),获取<样本query,样本商品>对应的在匹配特征下的预测结果。最后基于预测结果和标签数据,计算匹配特征模型的训练损失,以对匹配特征模型进行迭代训练。
可选地,行为特征模型用于获取召回对象在行为特征下的预测结果。示例性地,行为特征模型是由历史查询信息对应的分布特征和历史查询信息对应的召回对象对应的指标数据特征,在历史查询信息对应的目标指标数据下训练完成的。
其中,分布特征用于表征历史查询信息与历史查询信息对应的点击对象之间的类目映射、产品词映射和品牌词映射,在行为数据下的分布,指标数据特征用于表征召回对象对应的指标数据,诸如点击率、购买率、加购率、复购率等。
在一个示例中,行为特征模型的训练过程可以如下:
1、获取行为特征模型对应的正样本和负样本。
获取历史询问信息集合。由于粗排阶段关注的是召回对象与询问信息之间的相关性,不需要考虑个性化信息,因此可以将所有的询问信息看成是同一个使用者产生的,也即历史询问信息集合可包括不同使用者对应的历史询问信息。
对于样本询问信息集合中的目标样本询问信息,获取目标样本询问信息对应的多个样本召回对象。基于目标样本询问信息和多个样本召回对象,构建多个样本对,每个样本对包括目标样本询问信息和一个样本召回对象。
将样本召回对象的点击数大于或等于第四阈值,和/或点击率大于或等于第五阈值的样本对,确定为行为特征模型的正样本,以及将正样本之外的样本对,确定为行为特征模型的负样本。
2、对行为特征模型的多个样本(包括正样本和负样本),进行特征计算,得到多个样本分别对应的分布特征和指标数据特征。
例如,对于目标样本:<目标样本询问信息,目标样本召回对象>,设目标样本询问信息的类目信息为:牛奶和食品,目标样本询问信息对应有两个点击召回对象:第一目标样本召回对象和第二目标样本召回对象。第一目标样本召回对象的类目信息为:牛奶,第二目标样本召回对象的类目信息为:牛奶和食品。则目标样本询问信息到点击召回对象的映射为:(牛奶,牛奶)、(牛奶,食品)、(食品,牛奶)和(食品,食品)。
由于第一目标样本召回对象和第二目标样本召回对象都包含“牛奶”,则映射(牛奶,牛奶)对应的分布特征为:2/2=1.0,由于,只有第二目标样本召回对象都包含“食品”,则映射(牛奶,食品)对应的分布特征为:1/2=0.5。“牛奶”为使用者实质所需,确定“牛奶”对应的分布特征即可。
其中,点击召回对象也可以替换为曝光召回对象、购买召回对象、加购召回对象等,本申请实施例对此不作限定。可选地,点击找对象的确定过程中,也可以分不同周期进行统计,本申请实施例对此不作限定。采用相同的方法,即可得到目标样本在产品词下的分布特征,以及目标样本在品牌词下的分布特征。
可以统计不同周期(诸如7天、15天、30天等)的点击率、购买率、加购率和复购率,以生成目标样本对应的指标数据特征。
3、通过行为特征模型,基于多个样本分别对应的分布特征和指标数据特征,获取多个样本分别在行为特征下的预测结果。
可选地,也可以通过行为特征模型,基于多个样本分别对应的分布特征、指标数据特征和词嵌入,获取多个样本分别在行为特征下的预测结果。
可选地,可以采用LR、Xgboost等算法,构建行为特征模型的输出层,来获取样本分别在行为特征下的预测结果,以保证行为特征模型的预测性能。
4、基于多个样本分别在行为特征下的预测结果和标签信息,构建行为特征模型的损失函数。
可选地,可以采用焦点损失函数,基于多个样本分别在行为特征下的预测结果和标签信息,获取多个样本分别对应的焦点损失,再对多个样本分别对应的焦点损失进行求和,得到行为特征模型的损失函数。
5、基于行为特征模型的损失函数,对行为特征模型进行训练,得到训练完成的行为特征模型
示例性地,参考图5,以零售行业为例。将样本:<样本query,样本商品>输入行为特征模型500中,行为特征模型500中的特征计算模块,基于<样本query,样本商品>,获取<样本query,样本商品>分别在类目、产品词和品牌词下的分布特征,以及样本query对应的指标数据特征(如点击率、购买率、加购率和复购率)。再基于输出层(如LR或Xgboost),获取<样本query,样本商品>对应的在行为特征下的预测结果。最后基于预测结果和标签数据,计算行为特征模型的训练损失,以对行为特征模型进行迭代训练。
综上所述,本申请实施例提供的技术方案,通过分别构建匹配特征模型和行为特征模型,再分别获取召回对象在匹配特征下的预测结果和召回对象在行为特征下的预测结果,使得排序过程中能够在充分利用行为特征的同时,充分利用匹配特征,从而大大提高了匹配特征的利用率(即重要性),进而提高了排序过程(如粗排)中,召回对象的排序准确性,尤其是在搜索或推荐场景的初期(存在新的询问信息、询问信息较少、行为数据较少等),召回对象的排序效果更加明显。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图6,其示出了本申请一个实施例提供的对象排序装置的框图。该装置可用于实现上述对象排序方法。该装置600可以包括:查询信息获取模块601、第一结果获取模块602、第二结果获取模块603、综合评分获取模块604和召回对象排序模块605。
查询信息获取模块601,用于获取查询信息,以及所述查询信息对应的多个召回对象。
第一结果获取模块602,用于对于所述多个召回对象中的第一召回对象,基于所述查询信息和所述第一召回对象之间的匹配特征,获取所述第一召回对象在所述匹配特征下的预测结果;其中,所述匹配特征用于表征所述查询信息和所述召回对象之间的相关性,所述预测结果用于表征所述召回对象被选择的预测可能性。
第二结果获取模块603,用于基于所述查询信息,获取所述第一召回对象在行为特征下的预测结果;其中,所述行为特征用于表征所述召回对象的受欢迎程度。
综合评分获取模块604,用于基于所述第一召回对象在所述匹配特征下的预测结果,以及所述第一召回对象在行为特征下的预测结果,获取所述第一召回对象对应的综合评分。
召回对象排序模块605,用于基于所述多个召回对象分别对应的综合评分,对所述多个召回对象进行排序,得到召回对象序列。
在一个示例性实施例中,所述第二结果获取模块603,用于:
将所述查询信息,分别与数据库中的各个历史查询信息进行匹配;
在存在与所述查询信息对应的目标历史查询信息的情况下,获取所述目标历史查询信息对应的所述第一召回对象在行为特征下的历史预测结果;
将所述历史预测结果,确定为所述第一召回对象在行为特征下的预测结果。
在一个示例性实施例中,所述第二结果获取模块603,还用于:
在不存在所述目标历史查询信息的情况下,获取所述查询信息对应的词嵌入,以及所述第一召回对象对应的词嵌入;
基于所述查询信息对应的词嵌入和所述第一召回对象对应的词嵌入,获取所述第一召回对象在行为特征下的预测结果。
在一个示例性实施例中,所述第一结果获取模块602,用于:
基于所述查询信息对应的类目信息和所述第一召回对象对应的类目信息,获取所述查询信息和所述第一召回对象之间的第一匹配特征;
基于所述查询信息对应的产品词信息和所述第一召回对象对应的产品词信息,获取所述查询信息和所述第一召回对象之间的第二匹配特征;
基于所述查询信息对应的品牌词信息和所述第一召回对象对应的品牌词信息,获取所述查询信息和所述第一召回对象之间的第三匹配特征;
分别获取所述查询信息对应的类目信息、产品词信息和品牌词信息,与所述第一召回对象的标题之间的连续特征;其中,所述连续特征用于表征自然语言与自然语言之间的重合度;
基于所述第一匹配特征、所述第二匹配特征、所述第三匹配特征、所述连续特征、所述查询信息对应的词嵌入和所述第一召回对象对应的词嵌入,获取所述第一召回对象在所述匹配特征下的预测结果。
在一个示例性实施例中,所述第一召回对象在所述匹配特征下的预测结果由匹配特征模型在线获取,所述第一召回对象在行为特征下的预测结果由行为特征模型在线或离线获取;
其中,所述匹配特征模型是由历史查询信息与所述历史查询信息对应的召回对象之间的匹配特征,在所述历史查询信息对应的目标指标数据下训练完成的;
所述行为特征模型是由所述历史查询信息对应的分布特征和所述历史查询信息对应的召回对象对应的指标数据特征,在所述历史查询信息对应的目标指标数据下训练完成的,所述分布特征用于表征所述历史查询信息与所述历史查询信息对应的点击对象之间的类目映射、产品词映射和品牌词映射,在行为数据下的分布,所述指标数据特征用于表征所述召回对象对应的指标数据。
在一个示例性实施例中,如图7所示,所述装置600,还包括:历史信息获取模块606、历史信息分类模块607和样本集合获取模块608。
历史信息获取模块606,用于获取历史询问信息集合。
历史信息分类模块607,用于按照点击率对所述历史询问信息集合中的各个历史询问信息进行分类,得到n类询问信息;其中,所述n类询问信息中的第m类询问信息对应的点击率大于第m-1类询问信息对应的点击率,n为大于1的整数,m为小于或等于m的整数。
样本集合获取模块608,用于分别从所述n类询问信息中选择多个样本询问信息,生成样本询问信息集合,所述样本询问信息集合用于对所述匹配特征模型进行训练。
在一个示例性实施例中,如图7所示,所述装置600,还包括:样本对象获取模块609、样本对构建模块610、初始样本确定模块611和正负样本确定模块612。
样本对象获取模块609,用于对于所述样本询问信息集合中的目标样本询问信息,获取所述目标样本询问信息对应的多个样本召回对象。
样本对构建模块610,用于基于所述目标样本询问信息和所述多个样本召回对象,构建多个样本对,每个所述样本对包括所述目标样本询问信息和一个样本召回对象。
初始样本确定模块611,用于将所述样本召回对象被点击过的样本对,确定为所述匹配特征模型的初始正样本。
正负样本确定模块612,用于将通过合规校验的初始正样本,确定为所述匹配特征模型的正样本,以及将所述正样本之外的样本对,确定为所述匹配特征模型的负样本。
综上所述,本申请实施例提供的技术方案,通过先分别获取召回对象在匹配特征下的预测结果和召回对象在行为特征下的预测结果,再基于召回对象在匹配特征下的预测结果和召回对象在行为特征下的预测结果,获取召回对象对应的综合评分,使得排序过程中能够在充分利用行为特征的同时,充分利用匹配特征,从而大大提高了匹配特征的利用率(即重要性),进而提高了排序过程(如粗排)中,召回对象的排序准确性,尤其是在搜索或推荐场景的初期(存在新的询问信息、询问信息较少、行为数据较少等),召回对象的排序效果更加明显。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图8,其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备可以用于实施上述实施例中提供的对象排序方法。具体来讲可以包括如下内容。
该计算机设备800包括中央处理单元(如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和FPGA(Field Programmable GateArray,现场可编程逻辑门阵列)等)801、包括RAM(Random-Access Memory,随机存取存储器)802和ROM(Read-Only Memory,只读存储器)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。该计算机设备800还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input Output System,I/O系统)806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
在一些实施例中,该基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中,该显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。该基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
该大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。该大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说,该大容量存储设备807可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
根据本申请实施例,该计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在该系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述对象排序方法。
在一个示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上述对象排序方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在一个示例性实施例中,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述对象排序方法。
需要说明的是,本申请所涉及的信息(包括但不限于对象设备信息、对象个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经对象授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的询问信息、召回对象、匹配特征、行为数据等都是在充分授权的情况下获取的。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种对象排序方法,其特征在于,所述方法包括:
获取查询信息,以及所述查询信息对应的多个召回对象;
对于所述多个召回对象中的第一召回对象,基于所述查询信息和所述第一召回对象之间的匹配特征,获取所述第一召回对象在所述匹配特征下的预测结果;其中,所述匹配特征用于表征所述查询信息和所述召回对象之间的相关性,所述预测结果用于表征所述召回对象被选择的预测可能性;
基于所述查询信息,获取所述第一召回对象在行为特征下的预测结果;其中,所述行为特征用于表征所述召回对象的受欢迎程度;
基于所述第一召回对象在所述匹配特征下的预测结果,以及所述第一召回对象在行为特征下的预测结果,获取所述第一召回对象对应的综合评分;
基于所述多个召回对象分别对应的综合评分,对所述多个召回对象进行排序,得到召回对象序列。
2.根据权利要求1所述的方法,其特征在于,所述基于所述查询信息,获取所述第一召回对象在行为特征下的预测结果,包括:
将所述查询信息,分别与数据库中的各个历史查询信息进行匹配;
在存在与所述查询信息对应的目标历史查询信息的情况下,获取所述目标历史查询信息对应的所述第一召回对象在行为特征下的历史预测结果;
将所述历史预测结果,确定为所述第一召回对象在行为特征下的预测结果。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在不存在所述目标历史查询信息的情况下,获取所述查询信息对应的词嵌入,以及所述第一召回对象对应的词嵌入;
基于所述查询信息对应的词嵌入和所述第一召回对象对应的词嵌入,获取所述第一召回对象在行为特征下的预测结果。
4.根据权利要求1所述的方法,其特征在于,所述基于所述查询信息和所述第一召回对象之间的匹配特征,获取所述第一召回对象在所述匹配特征下的预测结果,包括:
基于所述查询信息对应的类目信息和所述第一召回对象对应的类目信息,获取所述查询信息和所述第一召回对象之间的第一匹配特征;
基于所述查询信息对应的产品词信息和所述第一召回对象对应的产品词信息,获取所述查询信息和所述第一召回对象之间的第二匹配特征;
基于所述查询信息对应的品牌词信息和所述第一召回对象对应的品牌词信息,获取所述查询信息和所述第一召回对象之间的第三匹配特征;
分别获取所述查询信息对应的类目信息、产品词信息和品牌词信息,与所述第一召回对象的标题之间的连续特征;其中,所述连续特征用于表征自然语言与自然语言之间的重合度;
基于所述第一匹配特征、所述第二匹配特征、所述第三匹配特征、所述连续特征、所述查询信息对应的词嵌入和所述第一召回对象对应的词嵌入,获取所述第一召回对象在所述匹配特征下的预测结果。
5.根据权利要求1所述的方法,其特征在于,所述第一召回对象在所述匹配特征下的预测结果由匹配特征模型在线获取,所述第一召回对象在行为特征下的预测结果由行为特征模型在线或离线获取;
其中,所述匹配特征模型是由历史查询信息与所述历史查询信息对应的召回对象之间的匹配特征,在所述历史查询信息对应的目标指标数据下训练完成的;
所述行为特征模型是由所述历史查询信息对应的分布特征和所述历史查询信息对应的召回对象对应的指标数据特征,在所述历史查询信息对应的目标指标数据下训练完成的,所述分布特征用于表征所述历史查询信息与所述历史查询信息对应的点击对象之间的类目映射、产品词映射和品牌词映射,在行为数据下的分布,所述指标数据特征用于表征所述召回对象对应的指标数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取历史询问信息集合;
按照点击率对所述历史询问信息集合中的各个历史询问信息进行分类,得到n类询问信息;其中,所述n类询问信息中的第m类询问信息对应的点击率大于第m-1类询问信息对应的点击率,n为大于1的整数,m为小于或等于m的整数;
分别从所述n类询问信息中选择多个样本询问信息,生成样本询问信息集合,所述样本询问信息集合用于对所述匹配特征模型进行训练。
7.根据权利要求6所述的方法,其特征在于,所述分别从所述n类询问信息中选择多个样本询问信息,生成样本询问信息集合之后,还包括:
对于所述样本询问信息集合中的目标样本询问信息,获取所述目标样本询问信息对应的多个样本召回对象;
基于所述目标样本询问信息和所述多个样本召回对象,构建多个样本对,每个所述样本对包括所述目标样本询问信息和一个样本召回对象;
将所述样本召回对象被点击过的样本对,确定为所述匹配特征模型的初始正样本;
将通过合规校验的初始正样本,确定为所述匹配特征模型的正样本,以及将所述正样本之外的样本对,确定为所述匹配特征模型的负样本。
8.一种对象排序装置,其特征在于,所述装置包括:
查询信息获取模块,用于获取查询信息,以及所述查询信息对应的多个召回对象;
第一结果获取模块,用于对于所述多个召回对象中的第一召回对象,基于所述查询信息和所述第一召回对象之间的匹配特征,获取所述第一召回对象在所述匹配特征下的预测结果;其中,所述匹配特征用于表征所述查询信息和所述召回对象之间的相关性,所述预测结果用于表征所述召回对象被选择的预测可能性;
第二结果获取模块,用于基于所述查询信息,获取所述第一召回对象在行为特征下的预测结果;其中,所述行为特征用于表征所述召回对象的受欢迎程度;
综合评分获取模块,用于基于所述第一召回对象在所述匹配特征下的预测结果,以及所述第一召回对象在行为特征下的预测结果,获取所述第一召回对象对应的综合评分;
召回对象排序模块,用于基于所述多个召回对象分别对应的综合评分,对所述多个召回对象进行排序,得到召回对象序列。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的对象排序方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至7任一项所述的对象排序方法。
CN202210745380.6A 2022-06-27 2022-06-27 对象排序方法、装置、设备及存储介质 Pending CN117370682A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210745380.6A CN117370682A (zh) 2022-06-27 2022-06-27 对象排序方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210745380.6A CN117370682A (zh) 2022-06-27 2022-06-27 对象排序方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117370682A true CN117370682A (zh) 2024-01-09

Family

ID=89404538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210745380.6A Pending CN117370682A (zh) 2022-06-27 2022-06-27 对象排序方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117370682A (zh)

Similar Documents

Publication Publication Date Title
CN109299396B (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
WO2022041979A1 (zh) 一种信息推荐模型的训练方法和相关装置
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
Kang et al. Candidate generation with binary codes for large-scale top-n recommendation
CN110532479A (zh) 一种信息推荐方法、装置及设备
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Liu et al. Fast recommendation on latent collaborative relations
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN111209469A (zh) 一种个性化推荐方法、装置、计算机设备及存储介质
CN114417058A (zh) 一种视频素材的筛选方法、装置、计算机设备和存储介质
CN112163149A (zh) 推荐消息的方法及装置
Alves Gomes et al. Will this online shopping session succeed? predicting customer's purchase intention using embeddings
Althbiti et al. Addressing data sparsity in collaborative filtering based recommender systems using clustering and artificial neural network
Nazari et al. Scalable and data-independent multi-agent recommender system using social networks analysis
Biswal et al. Music recommender system using restricted Boltzmann machine with implicit feedback
Liu et al. [Retracted] Deep Learning and Collaborative Filtering‐Based Methods for Students’ Performance Prediction and Course Recommendation
Ez-Zahout et al. A hybrid big data movies recommendation model based knearest neighbors and matrix factorization
Latha et al. Product recommendation using enhanced convolutional neural network for e-commerce platform
CN115827990B (zh) 搜索方法及装置
CN116484105A (zh) 业务处理方法、装置及计算机设备、存储介质、程序产品
Kilani et al. Using artificial intelligence techniques in collaborative filtering recommender systems: Survey
Meng et al. Variational Bayesian representation learning for grocery recommendation
Shen et al. A deep embedding model for co-occurrence learning
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
CN113704617A (zh) 物品推荐方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination