CN113220974B - 点击率预测模型训练、搜索召回方法、装置、设备及介质 - Google Patents

点击率预测模型训练、搜索召回方法、装置、设备及介质 Download PDF

Info

Publication number
CN113220974B
CN113220974B CN202110603128.7A CN202110603128A CN113220974B CN 113220974 B CN113220974 B CN 113220974B CN 202110603128 A CN202110603128 A CN 202110603128A CN 113220974 B CN113220974 B CN 113220974B
Authority
CN
China
Prior art keywords
sample
article
search
point data
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110603128.7A
Other languages
English (en)
Other versions
CN113220974A (zh
Inventor
陈伟桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing IQIYI Science and Technology Co Ltd
Original Assignee
Beijing IQIYI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing IQIYI Science and Technology Co Ltd filed Critical Beijing IQIYI Science and Technology Co Ltd
Priority to CN202110603128.7A priority Critical patent/CN113220974B/zh
Publication of CN113220974A publication Critical patent/CN113220974A/zh
Application granted granted Critical
Publication of CN113220974B publication Critical patent/CN113220974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种点击率预测模型训练、搜索召回方法、装置、设备及介质。方案如下:获取预设训练集;基于样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征;以样本稠密特征和样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率;计算预设点击率预测模型的损失值;当损失值大于预设损失值阈值时,调节预设点击率预测模型的参数,当损失值不大于预设损失值阈值时,将当前的预设点击率预测模型确定为训练好的点击率预测模型。通过本发明实施例提供的技术方案,充分考虑了用户个性化对搜索排序结果的影响,这提高了搜索排序结果的个性化,提升了搜索排序质量。

Description

点击率预测模型训练、搜索召回方法、装置、设备及介质
技术领域
本发明涉及互联网技术领域,特别是涉及一种点击率预测模型训练、搜索召回方法、装置、设备及介质。
背景技术
目前,当用户在显示界面的搜索栏中输入需要搜索的物品所对应的搜索词后,电子设备可以基于该搜索词在显示界面展现或推荐相应的物品,即搜索召回过程。在此过程中,不可或缺的需要对搜索到的多个物品进行排序,即搜索排序。基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型的排序学习(learning to rank)方法是目前在搜索排序中使用最普遍的方法之一。
但是在利用GBDT模型进行搜索排序时,由于上述GBDT模型本身存在无法处理稀疏特征的特性,这将导致搜索排序的结果缺乏个性化,影响搜索排序的质量。
发明内容
本发明实施例的目的在于提供一种点击率预测模型训练、搜索召回方法、装置、设备及介质,以提高搜索排序结果的个性化,提升搜索排序质量。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种点击率预测模型训练方法,所述方法包括:
获取预设训练集;所述预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,所述展点数据包括搜索展现记录以及搜索点击记录;
基于所述样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征;
针对每一样本物品,以所述样本稠密特征和所述样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率;
根据每一样本物品的真实点击率和预测点击率,计算所述预设点击率预测模型的损失值;
当所述损失值大于预设损失值阈值时,调节所述预设点击率预测模型的参数,并返回执行所述针对每一样本物品,将所述样本稠密特征和所述样本稀疏特征输入预设点击率预测模型,得到每一样本物品的预测点击率的步骤;
当所述损失值不大于所述预设损失值阈值时,将当前的预设点击率预测模型确定为训练好的点击率预测模型。
可选的,所述基于所述样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征的步骤,包括:
对所述样本展点数据和每一样本物品的样本物品信息进行稠密特征提取,得到样本稠密特征;
对所述样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取,得到样本稀疏特征。
可选的,所述样本稠密特征包括搜索词特征、和/或物品特征、和/或搜索词与物品间的召回特征;
所述对所述样本展点数据和每一样本物品的样本物品信息进行稠密特征提取,得到样本稠密特征的步骤,包括:
针对每一样本搜索词,根据该样本搜索词对应的样本展点数据,至少获取该样本搜索词的第一展现次数和点击熵,作为所述搜索词特征;和/或
针对每一样本物品,根据该样本物品的物品信息以及该样本物品对应的样本展点数据,至少获取该样本物品的元数据信息、第二展现次数和第一点击次数,作为该样本物品的物品特征;和/或
根据所述样本展点数据,至少获取每一样本搜索词下样本物品对应的第三展现次数和第二点击次数,以及每一样本搜索词与样本物品间的相关性,作为所述搜索词与物品间的召回特征。
可选的,所述样本稀疏特征包括搜索词侧特征、和/或物品侧特征、和/或用户侧特征;
所述对所述样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取,得到样本稀疏特征的步骤,包括:
根据所述样本展点数据中包括的样本搜索词,对所述样本搜索词进行分词处理,得到多个分词,并将每一分词对应的标识作为所述搜索词侧特征;和/或
对所述样本物品的样本物品信息包括的物品名称进行分词处理,得到多个分词,并将每一分词对应的标识作为所述物品侧特征;和/或
针对每一样本用户,根据所述样本展点数据,至少获取该样本用户对应的样本搜索词以及点击的样本物品,作为所述用户侧特征。
在本发明实施的第二方面,还提供了一种搜索召回方法,所述方法包括:
获取第一搜索词以及所述第一搜索词对应的用户信息;
获取预设物品库中与所述第一搜索词匹配的待展现物品的物品信息;
从历史展点数据中获取与所述第一搜索词匹配的第一展点数据,以及与所述用户信息匹配的第二展点数据;所述展点数据包括搜索展现记录和搜索点击记录;
针对每一待展现物品,以所述第一展点数据、所述第二展点数据和该待展现物品的物品信息作为所述训练好的点击率预测模型的输入数据,输出该待展现物品的用户点击率的预测值;所述点击率预测模型是利用预设训练集训练得到的,所述预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,所述展点数据包括搜索展现记录以及搜索点击记录;
根据每一待展现物品对应的预测值,展现所述待展现物品的物品信息。
可选的,所述第一展点数据和所述第二展点数据为当前时间点前预设时长内的展点数据。
可选的,所述根据每一待展现物品对应的预测值,展现所述待展现物品的物品信息的步骤,包括:
根据每一待展现物品对应的预测值,按照所述预测值从大到小的顺序,对所述待展现物品进行排序;
展现排序在前预设数量个的待展现物品的物品信息。
在本发明实施的第三方面,还提供了一种点击率预测模型训练装置,所述装置包括:
获取模块,用于获取预设训练集;所述预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,所述展点数据包括搜索展现记录以及搜索点击记录;
提取模块,用于基于所述样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征;
预测模块,用于针对每一样本物品,以所述样本稠密特征和所述样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率;
计算模块,用于根据每一样本物品的真实点击率和预测点击率,计算所述预设点击率预测模型的损失值;
调节模块,用于当所述损失值大于预设损失值阈值时,调节所述预设点击率预测模型的参数,并返回执行所述针对每一样本物品,将所述样本稠密特征和所述样本稀疏特征输入预设点击率预测模型,得到每一样本物品的预测点击率的步骤;
确定模块,用于当所述损失值不大于所述预设损失值阈值时,将当前的预设点击率预测模型确定为训练好的点击率预测模型。
在本发明实施的第四方面,还提供了一种搜索召回装置,所述装置包括:
第二获取模块,用于获取第一搜索词以及所述第一搜索词对应的用户信息;
第三获取模块,用于获取预设物品库中与所述第一搜索词匹配的待展现物品的物品信息;
第四获取模块,用于从历史展点数据中获取与所述第一搜索词匹配的第一展点数据,以及与所述用户信息匹配的第二展点数据;所述展点数据包括搜索展现记录和搜索点击记录;
第二预测模块,用于针对每一待展现物品,以所述第一展点数据、所述第二展点数据和该待展现物品的物品信息作为所述训练好的点击率预测模型的输入数据,输出该待展现物品的用户点击率的预测值;所述点击率预测模型是利用预设训练集训练得到的,所述预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,所述展点数据包括搜索展现记录以及搜索点击记录;
展现模块,用于根据每一待展现物品对应的预测值,展现所述待展现物品的物品信息。
在本发明实施例的第五方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的点击率预测模型训练方法步骤或搜索召回方法步骤。
在本发明实施的第六方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的点击率预测模型训练方法或搜索召回方法步骤。
在本发明实施的第七方面,还提供了一种包含指令的计算机程序,当其在计算机上运行时,使得计算机执行上述任一所述的点击率预测模型训练方法或搜索召回方法步骤。
本发明实施例提供的点击率预测模型训练、搜索召回方法、装置、设备及介质,通过对预设训练数据中样本展点数据和每一样本物品的样本物品信息进行特征提取,从而得到样本稠密特征和样本稀疏特征,并利用提取到的样本稠密特征和样本稀疏特征对预设点击率预测模型进行训练,得到训练好的预测模型。由于用于训练预设点击率预测模型的数据除了包括预设训练集所中样本展点数据和样本物品信息所对应的稠密特征以外,还包括稀疏特征,这使得训练得到的点击率预测模型的预测结果可以充分展现了用户个性化对预测结果的影响,从而使得在搜索召回场景中,利用训练好的点击率预测模型所预测得到的用户点击率的预测值的准确性得到提高的同时,充分考虑了用户个性化对搜索排序结果的影响,这提高了搜索排序结果的个性化,提升了搜索排序质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的点击率预测模型训练方法的一种流程示意图;
图2为本发明实施例提供的点击率预测模型训练方法的第二种流程示意图;
图3为本发明实施例提供的样本稠密特征提取方法的一种流程示意图;
图4为本发明实施例提供的样本稀疏特征提取方法的一种流程示意图;
图5为本发明实施例提供的预设Wide&Deep模型的一种结构示意图;
图6为本发明实施例提供的搜索召回方法的第一种流程示意图;
图7为本发明实施例提供的搜索召回方法的第二种流程示意图;
图8为本发明实施例提供的点击率预测模型训练装置的一种结构示意图;
图9为本发明实施例提供的搜索召回装置的一种结构示意图;
图10为本发明实施例提供的电子设备的第一种结构示意图;
图11为本发明实施例提供的电子设备的第二种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了解决相关技术中搜索排序结果缺乏个性化,影响搜索排序的质量的问题,本发明实施例提供了一种点击率预测模型训练方法。该方法可以应用于任一电子设备,该电子设备包括但不限于手机、电脑、服务器等。如图1所示,图1为本发明实施例提供的点击率预测模型训练方法的一种流程示意图。该方法包括以下步骤。
步骤S101,获取预设训练集;预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,展点数据包括搜索展现记录以及搜索点击记录。
步骤S102,基于样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征。
步骤S103,针对每一样本物品,以样本稠密特征和样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率。
步骤S104,根据每一样本物品的真实点击率和预测点击率,计算预设点击率预测模型的损失值。
步骤S105,当损失值大于预设损失值阈值时,调节预设点击率预测模型的参数,并返回执行步骤S103。
步骤S106,当损失值不大于预设损失值阈值时,将当前的预设点击率预测模型确定为训练好的点击率预测模型。
在本发明实施例提供的方法中,通过对预设训练集中样本展点数据和每一样本物品的样本物品信息进行特征提取,从而得到样本稠密特征和样本稀疏特征,并利用提取到的样本稠密特征和样本稀疏特征对预设点击率预测模型进行训练,得到训练好的预测模型。由于用于训练预设点击率预测模型的数据除了包括预设训练集所中样本展点数据和样本物品信息所对应的稠密特征以外,还包括稀疏特征,这使得训练得到的点击率预测模型的预测结果可以充分展现了用户个性化对预测结果的影响,从而使得在搜索召回场景中,利用训练好的点击率预测模型所预测得到的用户点击率的预测值的准确性得到提高的同时,充分考虑了用户个性化对搜索排序结果的影响,这提高了搜索排序结果的个性化,提升了搜索排序质量。
下面通过具体的实施例,对本发明实施例进行说明。为便于描述,下面以电子设备为执行主体进行说明,并不起任何限定作用。
针对上述步骤S101,即获取预设训练集;预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,展点数据包括搜索展现记录以及搜索点击记录。
一个可选的实施例中,为了保证上述预设训练集的有效性,可以根据当前时间点前第一预设时间段内多个用户(即上述样本用户)执行搜索操作时搜索召回的情况,以及每一用户对搜索召回的点击情况,获取得到上述预设训练集。
为便于理解,以用户搜索的物品为视频为例进行说明,电子设备可以获取当前时间点前第一预设时间段内所有进行视频搜索的用户所对应的搜索展现记录(即每一搜索词对应展现在显示界面上的视频所对应的记录)和搜索点击记录(即用户对每一次展现在显示界面中的视频的点击记录)。其中,每一用户都是一位样本用户,所有用户在显示界面中输入的搜索词即为上述样本搜索词,所有用户的搜索展现记录和搜索点击记录即为上述样本展点数据。搜索展现记录中展现在显示界面中的每一视频即为上述样本物品。电子设备获取上述样本展点数据,并获取每一样本物品所对应的样本物品信息和真实点击率。
在本发明实施例中,上述第一预设时间段可以根据用户的具体需求进行设定,在此,对上述第一预设时间段不作具体限定。
上述显示界面可以为上述电子设备所提供的显示界面,也可以为其他设备所提供的显示界面。在此,对上述显示界面不作具体限定。
一个可选的实施例中,为了提高上述预设训练集中样本展点数据的区分性和准确性,上述预设训练集中的样本展点数据可以包括正样本展点数据和负样本展点数据。为便于理解,以样本物品为视频为例对上述正样本展点数据和负样本展点数据进行举例说明。
上述正样本展点数据可以为样本用户点击后播放时长大于预设时长(如5秒等)的样本展点数据,上述负样本展点数据可以为样本用户点击后播放时长小于等于预设时长的样本展点数据。在此,对预设时长不作具体限定。
在本发明实施例中,根据训练好的点击率预测模型的具体应用场景的不同,上述样本搜索词、样本展点数据、样本物品、样本物品信息均有所区别。
例如,当上述训练好的点击率预测模型可以用于对视频搜索召回过程的点击率的预测时,上述样本搜索词可以为视频名称、导演姓名或演员姓名等,上述样本展点数据为样本用户对视频进行搜索时对应的搜索展现记录和搜索点击记录,样本物品为搜索召回的每一视频,样本物品信息可以为视频所对应的时长、类别等信息。
再例如,上述训练好的点击率预测模型可以用于对电商平台的商品搜索召回过程的点击率的预测时,上述样本搜索词可以为电商的店铺名称、商品名称等,上述样本展点数据为样本用户对商品进行搜索时对应的搜索展现记录和搜索点击记录,样本物品为搜索召回的每一商品,样本物品信息可以为商品的种类、颜色等信息。
上述训练好的点击率预测模型除了应用于上述视频搜索召回过程和商品搜索召回过程以外,还可以应用于音频搜索召回过程,图片搜索召回过程,电子书搜索召回过程等。根据具体应用场景的不同,上述预设训练集也有所不同,在此,对上述预设训练集不作具体限定。
针对上述步骤S102,即基于样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征。
一个可选的实施例中,如图2所示,图2为本发明实施例提供的点击率预测模型训练方法的第二种流程示意图。具体将上述步骤S102细化为步骤S1021-步骤S1022。
步骤S1021,对样本展点数据和每一样本物品的样本物品信息进行稠密特征提取,得到样本稠密特征。
步骤S1022,对样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取,得到样本稀疏特征。
在本发明实施例中,对上述步骤S1021和步骤S1022的执行顺序不作具体限定。
一个可选的实施例中,上述样本稠密特征可以包括搜索词特征、物品特征和/或搜索词与物品间的召回特征。
为便于理解,以上述样本稠密特征包括搜索词特征、物品特征和搜索词与物品间的召回特征为例进行说明。如图3所示,图3为本发明实施例提供的样本稠密特征提取方法的一种流程示意图。具体将上述步骤S1021细化为以下步骤。即步骤S301-步骤S303。
步骤S301,针对每一样本搜索词,根据该样本搜索词对应的样本展点数据,至少获取该样本搜索词的第一展现次数和点击熵,作为搜索词特征。
上述搜索词特征具体可以表示为上述样本用户输入的样本搜索词的统计类特征。
一个可选的实施例中,在获取上述搜索词特征时,电子设备可以根据上述获取到的样本展点数据包括的搜索展现记录,统计每一样本搜索词所对应的展现次数,记为第一展现次数。
另一个可选的实施例中,在获取上述搜索词特征时,电子设备可以基于上述获取到的样本展点数据包括的搜索点击记录,统计与每一样本搜索词匹配的物品展现后被点击的概率,从而计算得到点击熵。
上述点击熵用于指示显示界面中展现的样本物品被样本用户点击的概率。该点击熵可以通过熵函数计算得到。在此,对上述点击熵的计算方式不作具体说明。
上述统计得到的第一展现次数和计算得到的点击熵为上述搜索词特征。
步骤S302,针对每一样本物品,根据该样本物品的物品信息以及该样本物品对应的样本展点数据,至少获取该样本物品的元数据信息、第二展现次数和第一点击次数,作为该样本物品的物品特征。
上述样本物品的物品特征可以包括该样本物品的元数据信息和统计类特征。
一个可选的实施例中,在获取每一样本物品的物品特征时,针对每一样本物品,电子设备可以根据该样本物品的物品信息,获取该样本物品的元数据信息。
在本发明实施例中,根据上述样本物品的种类的不同,上述获取到的样本物品的元数据信息也有所不同。例如,当样本物品为视频时,上述样本物品的元数据信息包括但不限于视频的频道和视频的时长。再例如,当样本物品为商品时,上述样本物品的元数据信息包括但不限于商品的类别和商品的价格。在此,对上述样本物品的元数据信息不作具体限定。
另一个可选的实施例中,在获取每一样本物品的物品特征时,针对每一样本物品,电子设备可以根据上述样本展点数据包括的搜索展现记录,统计该样本物品所对应的展现次数,记为第二展现次数。
再一个可选的实施例中,在获取每一样本物品的物品特征时,针对每一样本物品,电子设备还可以根据上述样本展点数据包括的搜索点击记录,统计该样本物品所对应的点击次数,记为第一点击次数。
针对每一样本物品,电子设备可以将上述获取到的该样本物品的元数据信息,统计得到的该样本物品的第二展现次数和第一点击次数,作为该样本物品的物品特征。
在本发明实施例中,上述物品特征所包括的统计类特征除了上述第二展现次数和第一点击次数以外,还可以包括其他统计类特征。例如,当样本物品为视频时,其他统计类特征包括但不限于该视频的点赞数、弹幕数和评论数。再例如,当上述样本物品为商品时,其他统计类特征包括但不限于销售数和评价数。在此,对上述统计类特征不作具体限定。
步骤S303,根据样本展点数据,至少获取每一样本搜索词下样本物品对应的第三展现次数和第二点击次数,以及每一样本搜索词与样本物品间的相关性,作为搜索词与物品间的召回特征。
上述搜索词与物品间的召回特征可以包括搜索词-物品维度统计特征和搜索词-物品维度计算特征。
一个可选的实施例中,在获取上述搜索词与物品间的召回特征时,电子设备可以根据上述样本展点数据包括的搜索展现记录,在样本用户输入的搜索词为上述每一样本搜索词的情况下,统计每一样本物品所对应的展现次数,记为第三展现次数。
另一个可选的实施例中,在获取上述搜索词与物品间的召回特征时,电子设备可以根据第一展点数据包括的搜索点击记录,在样本用户输入的搜索词为每一样本搜索词的情况下,统计展现的每一样本物品所对应的点击次数,记为第二点击次数。
上述第三展现次数和第二点击次数可以为上述搜索词-物品维度统计特征。
再一个可选的实施例中,在获取上述搜索词与物品关联特征时,电子设备可以根据上述样本展点数据,计算每一样本搜索词与每一样本物品间的相关性。该相关性为上述搜索词-物品维度计算特征。关于相关性的计算在此不作具体说明。
上述每一样本搜索词与样本物品间的相关性可以表示为文本相关性。针对每一样本搜索词,电子设备可以分别计算该样本搜索词与每一样本物品所对应的搜索词在文本内容上的一致程度,得到该样本搜索词与每一样本物品间的相关性。
例如,当某一样本物品对应的搜索词中包括与某一样本搜索词文本内容相同的搜索词时,该样本搜索词与该样本物品间的相关性较高。当某一样本物品对应的搜索词中未包括与某一样本搜索词文本内容相同的搜索词时,该样本搜索词与该样本物品间的相关性较低。
在本发明实施例中,上述搜索词-物品维度计算特征除了包括上述相关性以外,还可以包括基于上述样本展点数据,通过训练完成的相关性模型计算得到的输出值,其中,相关性模型包括但不限于GBDT模型和深层结构语义模型(Deep Structured SemanticModels,DSSM)。
上述相关性模型的输出值可以是融合了文本相关性和语义相关性后的综合得分。例如,文本内容不一样,但文本内容所表达含义一样,则相关性模型的输出值较高,也就是相关性较高。
在本发明实施例中,对上述步骤S301-步骤S303的执行顺序不作具体限定。
通过图3所示的方法,电子设备可以准确的获得上述样本稠密特征,从而提高基于样本稠密特征预测得到的点击率的准确性,提高了训练好的点击率预测模型的准确性。
一个可选的实施例中,上述样本稀疏特征可以包括搜索词侧特征、和/或物品侧特征、和/或用户侧特征。
为便于理解,以样本稀疏特征包括搜索词侧特征、物品侧特征和用户侧特征为例进行说明,如图4所示,图4为本发明实施例提供的样本稀疏特征提取方法的一种流程示意图。具体将上述步骤S1022细化为以下步骤。即步骤S401-步骤S403。
步骤S401,根据样本展点数据中包括的样本搜索词,对样本搜索词进行分词处理,得到多个分词,并将每一分词对应的标识作为搜索词侧特征。
在本步骤中,电子设备可以从上述样本展点数据包括的搜索展现记录中,获取展现在显示界面中的每一样本物品所对应的样本搜索词,并对该样本搜索词进行分词处理,得到多个分词。电子设备可以将分词处理得到的多个分词所对应的标识作为上述搜索词侧特征。
步骤S402,对样本物品的样本物品信息包括的物品名称进行分词处理,得到多个分词,并将每一分词对应的标识作为物品侧特征。
在本步骤中,针对每一样本物品,电子设备可以对该样本物品的样本物品信息中包括的物品名称进行分词处理,得到多个分词。电子设备可以将分词处理得到的多个分词所对应的标识作为该样本物品的物品侧特征。
上述物品侧特征还可以包括每一样本物品的类型标签。以样本物品为视频为例,视频的类型标签可以包括三级类型标签,例如,某一视频的一级类型标签可以为影视,二级类型标签可以为电影,三级标签可以为剧情类。电子设备可以获取该视频的一级类型标签、二级类型标签和三级类型标签作为上述物品侧特征。
一个可选的实施例中,当上述样本物品为视频时,在将视频的类型标签作为物品侧特征时,考虑到上述二级类型标签的对后期点击率预测的贡献较小,且增加了特征计算的复杂度,电子设备可以将上述一级类型标签和三级类型标签作为视频的物品侧特征。
在本发明实施例中,上述物品侧特征处理包括上述物品名称分词后得到的多个分词和类型标签以外,还可以包括其他物品侧特征。根据样本物品的不同,提取到的其他物品侧特征也有所不同。仍以样本物品为视频为例进行说明,该视频可以为预设视频库中用户上传的视频。此时,预设视频库中可以存储该视频对应的上传者名称,如用户的账号名称,电子设备可以对该上传者名称进行分词处理,得到多个分词处理,并将分词处理得到的多个分词所对应的标识作为该视频的物品侧特征。
在本发明实施例中,对上述物品侧特征不作具体限定。
步骤S403,针对每一样本用户,根据样本展点数据,至少获取该样本用户对应的样本搜索词以及点击的样本物品,作为用户侧特征。
在本步骤中,电子设备可以根据上述样本展点数据包括的搜索展现记录,获取上述样本用户输入的样本搜索词,也就是该样本用户在上述当前时间点前第二预设时间段内进行搜索操作所对应的样本搜索词,记为第二搜索词。电子设备还可以根据上述样本展点数据包括的搜索点击记录,获取样本用户点击的样本物品。电子设备可以上述样本用户输入的第二搜索词和样本用户点击的样本物品为上述用户侧特征。
在本发明实施例中,对上述步骤S401-步骤S403的执行顺序不作具体限定。
通过上述图4所示的方法,电子设备可以准确的获得上述稀疏特征,从而提高了基于稀疏特征预测得到的点击率的准确性,提高了训练得到的点击率预测模型的准确性。
针对上述步骤S103,即针对每一样本物品,以样本稠密特征和样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率。
在本步骤中,上述预设点击率预测模型可以为预设Wide&Deep模型。针对每一样本物品,电子设备可以将上述步骤S102提取到的样本稠密特征和样本稀疏特征输入预设Wide&Deep模型,得到每一样本物品对应的预测点击率。关于上述Wide&Deep模型的描述可参见下文描述,在此不作具体说明。
针对上述步骤S104,即根据每一样本物品的真实点击率和预测点击率,计算预设点击率预测模型的损失值。
在本步骤中,电子设备可以基于每一样本物品的预测点击率,以及上述预设训练集中每一样本物品的真实点击率,利用交叉熵损失函数,计算预设Wide&Deep模型的损失值。在此,对上述损失值的计算过程不作具体限定。
针对上述步骤S105,即当损失值大于预设损失值阈值时,调节预设点击率预测模型的参数,并返回执行步骤S103。
在本步骤中,电子设备可以将上述步骤S104计算得到的损失值与预设损失值阈值进行比较。当上述损失值大于预设损失值阈值时,电子设备可以确定上述预设Wide&Deep模型未收敛。此时,电子设备可以调节预设Wide&Deep模型的参数,并返回执行上述步骤S103。也就是返回执行上述针对每一样本物品,以样本稠密特征和样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率的步骤。
一个可选的实施例中,在对上述预设Wide&Deep模型的参数进行调节时,电子设备可以利用自适应梯度优化器(AdagradOptimizer)进行参数调节。关于参数调节的过程在此不作具体说明。
针对上述步骤S106,即当损失值不大于预设损失值阈值时,将当前的预设点击率预测模型确定为训练好的点击率预测模型。
在本步骤中,当上述损失值不大于上述预设损失值阈值时,电子设备可以确定预设Wide&Deep模型收敛。此时,电子设备可以将当前的预设Wide&Deep模型确定为训练好的Wide&Deep模型,即训练好的点击率预测模型。
为便于理解,结合图5对上述预设Wide&Deep模型进行说明。图5为本发明实施例提供的预设Wide&Deep模型的一种结构示意图。
上述预设Wide&Deep模型包括Wide侧和Deep侧,如图5所示,节点517以下的左半部分为预设Wide&Deep模型的Deep侧,节点517以下的右半部分为预设Wide&Deep模型的Wide侧。其中,Wide为深度神经网络(Deep Neural Networks,DNN)模型,具有较好的泛化能力,Deep侧为线性模型,具有较好的记忆能力。
电子设备在提取到上述样本稠密特征和样本稀疏特征后,电子设备可以从预设Wide&Deep模型的输入层将提取到的特征输入至预设Wide&Deep模型。如图5所示,Deep侧的输入层输入的特征包括稠密特征501、关键词侧稀疏特征502、物品侧稀疏特征503和用户侧稀疏特征504。Wide侧的输入层输入的特征包括关键词侧稀疏特征502、物品侧稀疏特征503和用户侧稀疏特征504。
在Deep侧的隐藏层中,输入的稀疏特征进行交叉特征提取。如图5所示,提取关键词侧稀疏特征502的交叉特征,即搜索词侧交叉特征505;提取物品侧稀疏特征503的交叉特征,即物品侧交叉特征507;提取关键词侧稀疏特征502和物品侧稀疏特征503的交叉特征,即搜索词-物品侧交叉特征506;并且提取用户侧稀疏特征504的交叉特征,即用户侧交叉特征508。
在本发明实施例中,上述交叉特征的计算可以为不同稀疏特征按位相乘得到。在此,上述交叉特征的计算不作具体说明。
Deep侧中的DNN模型接收输入层输入的稠密特征501,隐藏层输入的搜索词侧交叉特征505、搜索词-物品侧交叉特征506、物品侧交叉特征507和用户侧交叉特征508通过三层DNN模型,即图5所示的节点512、节点513和节点514,对输入的特征进行处理。例如,可以将线性整流函数(Rectified Linear Unit,ReLU)作为激活函数,用每一层的输入向量与矩阵进行矩阵乘法计算,得到处理结果。将处理结果传输至节点515。
在本发明实施例中,图5所示的节点512、节点513和节点514所示的256、128、64表示对应节点中矩阵的列数。为便于理解,以节点512为例进行说明。
在节点512处,输入向量为1*N的向量,节点512的矩阵为N*256的矩阵,节点512处理后输出向量为1*256的向量。
在图5所示的节点514处输出一1*64的矩阵,在节点515处该1*64的矩阵与64*1的矩阵进行矩阵乘法,以ReLU作为激活函数,得到1*1的矩阵,该1*1矩阵的值节点515的输出值。
在Wide侧可以通过One-Hot编码方式,对输入的稀疏特征进行处理,得到编码后的特征向量。如图5所示,将关键词侧稀疏特征502编码为关键词侧特征向量509,将物品侧稀疏特征503编码为物品侧特征向量510,并将用户侧稀疏特征504编码为用户侧特征向量511。在此,对One-Hot编码的过程不作具体说明。
Wide侧的节点516接收并处理关键词侧特征向量509、物品侧特征向量510和用户侧特征向量511。例如,节点516可以为关键词侧特征向量509、物品侧特征向量510和用户侧特征向量511分配对应的权重值,从而将关键词侧特征向量509、物品侧特征向量510和用户侧特征向量511的加权和作为节点516的输出值。
Deep侧节点515的输出值与Wide侧节点516的输出值在传输至节点517进行相加,通过S型生长曲线(Sigmoid)函数在输出层的节点518输出预测得到的点击率。
基于同一种发明构思,根据上述训练好的点击率预测模型,本发明实施例还提供了一种搜索召回方法。如图6所示,图6为本发明实施例提供的搜索召回方法的第一种流程示意图。该方法包括以下步骤。
步骤S601,获取第一搜索词以及第一搜索词对应的用户信息。
在本步骤中,用户可以在显示界面的搜索栏中输入需要搜索的物品所对应的搜索词,即第一搜索词。此时,电子设备可以获取该第一搜索词,并获取该用户的用户信息。
上述用户信息包括但不限于用户的用户账号和用户姓名。在此,对上述用户信息不作具体限定。上述第一搜索词可参照上述样本搜索词的描述,在此不作具体说明。
步骤S602,获取预设物品库中与第一搜索词匹配的待展现物品的物品信息。
在本步骤中,预设物品库中存储有大量物品对应的搜索词和物品信息,电子设备可以基于上述用户输入的搜索词,从该预设物品库中获取与用户输入的搜索词匹配的物品,作为待展现物品。电子设备从预设物品库中获取待展现物品的物品信息。
为便于理解,以物品为视频,上述第一搜索词为视频名称中的某一关键词为例进行说明。电子设备在获取上述待展现物品时,可以遍历预设物品库中的所有物品的物品信息,选取视频名称或视频描述信息等物品信息中包括该关键词的视频,作为该关键词匹配的视频,得到待排序视频。
上述预设物品库中处理存储有上述搜索词和物品信息以外,还可以存储物品的其他信息。例如,预设物品库为上述预设视频库时,还可以包括上述上传者名称或者上传时间等信息。根据预设物品库所对应存储的物品的种类的不同,上述预设物品库中存储的信息也有所不同。在此,对上述预设物品库中存储的信息不作具体限定。
一个可选的实施例中,为了提高上述待展现物品获取的准确性,在获取上述待展现物品时,关于预设物品库中获取与第一搜索词匹配的物品,除了包括上述物品信息中包括第一搜索词的物品,还可以包括物品信息与第一搜索词相似的物品。
为便于理解,以上述物品为商品,第一搜索词为耳饰为例,则预设商品库中获取到的待展现物品可以包括物品信息包括耳夹或耳钉等商品。在此,对上述物品信息与第一搜索词相似的物品不作具体限定。
另一个可选的实施例中,由于上述预设物品库中包括大量的物品,因此,上述从预设物品库中获取与第一搜索词匹配的物品时,可能获取到大量的物品。此时,为了减少获取到的待展现物品的数量,提高待展现物品获取的效率,电子设备可以根据每一物品所对应的点击率、新鲜度等信息,对获取到的与第一搜索词匹配的物品进行筛选,得到上述待展现物品。
仍以物品为视频为例进行说明,电子设备可以从获取到的与第一搜索词匹配的物品中,筛选点击率大于预设点击率阈值,当前时间与视频的上线时间之间的时间差小于预设时间差的视频,作为上述待展现物品。其中,当前时间与视频的上线时间之间的时间差可以表示为该视频的新鲜度。
在本发明实施例中,根据用户的需求、用户输入的第一搜索词以及物品等的不同,电子设备可以采用不同的方式获取得到上述待展现物品。在此,对上述待展现物品的获取方式不作具体限定。
步骤S603,从历史展点数据中获取与第一搜索词匹配的第一展点数据,以及与用户信息匹配的第二展点数据;展点数据包括搜索展现记录和搜索点击记录。
在本发明实施例中,当用户在搜索栏中输入某一搜索词后,在上述显示界面上将会展现该搜索词所对应的搜索结果,此时,将会生成一搜索展现记录。当用户在显示界面中对该搜索词所对应的展现结果中,点击查看某一物品时,该物品将被展现在显示界面中。此时,将会生成一搜索点击记录以及搜索展现记录。上述展点数据包括搜索展现记录和搜索点击记录。
一个可选的实施例中,为了保证获取到的第一展点数据和第二展点数据的有效性,上述第一展点数据和上述第二展点数据为当前时间点前预设时长内的展点数据。
一个可选的实施例中,在获取上述第一展点数据时,电子设备可以从当前时间点前第二预设时间段内产生的所有历史展点数据中,获取与上述第一搜索词匹配的展点数据,作为第一展点数据。
例如,电子设备可以根据当前时间点前第二预设时间段内产生的所有历史展点数据所对应的搜索词,选取出搜索词为第一搜索词的历史展点数据,作为第一展点数据。
再例如,电子设备可以根据当前时间点前第二预设时间段内产生的所有历史展点数据所对应的搜索词,选取搜索词与第一搜索词相似的历史展点数据,作为第一展点数据。
一个可选的实施例中,在获取上述第二展点数据时,电子设备可以从当前时间点前第二预设时间段内产生的所有历史展点数据中,获取与上述用户信息匹配的历史展点数据,作为第二展点数据。也就是电子设备从当前时间点前第二预设时间段内产生的所有历史展点数据中,获取上述用户输入的搜索词所对应的历史展点数据,作为第二展点数据。
上述当前时间点前第二预设时间段内产生的所有历史展点数据为当前时间点前第二预设时间段内各个用户进行搜索点击操作所产生的搜索展现记录和搜索点击记录。上述展点数据所对应的搜索词为用户在上述显示界面中输入的搜索词。
步骤S604,针对每一待展现物品,以第一展点数据、第二展点数据和该待展现物品的物品信息作为训练好的点击率预测模型的输入数据,输出该待展现物品的用户点击率的预测值。
在本步骤中,针对每一待展现物品,电子设备将上述获取到的第一展点数据、第二展点数据和待展现物品的输入至上述步骤S106训练好的点击率预测模型,利用该点击率预测模型的对输入的数据进行特征提取,从而得到第一展点数据、第二展点数据和待展现物品所对应的稠密特征和稀疏特征,并利用该训练好的点击率预测模型,根据提取到的稠密特征和稀疏特征,预测该待展现物品的用户点击率的预测值。
在本发明实施例中,电子设备可以对上述第一展点数据和待展现物品的物品信息进行特征提取,得到上述稠密特征。电子设备可以对上述第一展点数据、第二展点数据和待展现物品的物品信息进行特征提取,得到上述稀疏特征。关于上述稠密特征和稀疏特征的提取可参照上述样本稠密特征和样本稀疏特征的提取,在此,对上述稠密特征和稀疏特征的提取不作具体说明。
步骤S605,根据每一待展现物品对应的预测值,展现待展现物品的物品信息。
在本步骤中,电子设备可以根据上述步骤S604输出的每一待展现物品对应的用户点击率的预测值,在上述显示界面中展现待展现物品的物品信息。
采用图6所示的方法,由于用于训练预设点击率预测模型的数据除了包括预设训练集所中样本展点数据和样本物品信息所对应的稠密特征以外,还包括稀疏特征,这使得训练得到的点击率预测模型的预测结果可以充分展现了用户个性化对预测结果的影响,从而使得在搜索召回场景中,利用训练好的点击率预测模型所预测得到的用户点击率的预测值的准确性得到提高的同时,充分考虑了用户个性化对搜索排序结果的影响,这提高了搜索排序结果的个性化,提升了搜索排序质量。
一个可选的实施例中,根据图6所示的方法,本发明实施例还提供了一种搜索召回方法。如图7所示,图7为本发明实施例提供的搜索召回方法的第二种流程示意图。具体在上述步骤S605细化为以下步骤,即步骤S6051-步骤S6052。
步骤S6051,根据每一待展现物品对应的预测值,按照预测值从大到小的顺序,对待展现物品进行排序。
在本步骤中,电子设备可以根据上述训练好的点击率预测模型所输出的每待展现物品所对应用户点击率的预测值的大小,按照预测值从大到小的顺序,对每一待展现物品进行排序,得到排序结果。
步骤S6052,展现排序在前预设数量个的待展现物品的物品信息。
在本步骤中,电子设备可以根据上述排序结果,在上述显示界面中展现排序在前预设数量个的待展现物品的物品信息。
为便于理解,以待展现物品为商品,预设数量为100为例进行说明。电子设备可以根据排序结果,获取排列在前100的商品,并按照排序从高到低的顺序,依次在显示界面中展现这100个商品。如电子设备可以以10页面每个页面展示10个商品的图片、名称、价格的形式,展现这100个商品。
通过上述步骤S6051-步骤S6052,电子设备可以根据排序结果准确性将预测得到的、点击率较高的待展现物品展现在显示界面,从而推荐给用户,这使得显示界面所展现的待展现物品可以高度满足用户的个性需求,提高了展现的待展现物品的个性化和准确性。
在本发明实施例中,除了采用上述步骤S6051-S6052所示的展现方式,电子设备还可以根据用户的实际需求对上述待展现物品进行展示。为便于理解,仍以上述待展现物品为商品为例。
一个示例中,电子设备在根据上述排序结果获取到排列在前预设数量个待排序物品后,可以根据用户需求,按照商品价格从低到高的顺序展现该预设数量个待排序物品。
另一个示例中,电子设备确定每一商品对应的用户点击率的预测值后,可以按照预测值从大到小的顺序,依次在显示界面中展现所有的商品。
在本发明实施例中,对上述待展现物品的展现方式不作具体限定。
基于同一种发明构思,根据上述本发明实施例提供的点击率预测模型训练方法,本发明实施例还提供了一种点击率预测模型训练装置。如图8所示,图8为本发明实施例提供的点击率预测模型训练装置的一种结构示意图。该装置包括以下模块。
第一获取模块801,用于获取预设训练集;预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,展点数据包括搜索展现记录以及搜索点击记录;
提取模块802,用于基于样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征;
第一预测模块803,用于针对每一样本物品,以样本稠密特征和样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率;
计算模块804,用于根据每一样本物品的真实点击率和预测点击率,计算预设点击率预测模型的损失值;
调节模块805,用于当损失值大于预设损失值阈值时,调节预设点击率预测模型的参数,并返回执行针对每一样本物品,将样本稠密特征和样本稀疏特征输入预设点击率预测模型,得到每一样本物品的预测点击率的步骤;
确定模块806,用于当损失值不大于预设损失值阈值时,将当前的预设点击率预测模型确定为训练好的点击率预测模型。
可选的,上述提取模块802,具体可以用于对样本展点数据和每一样本物品的样本物品信息进行稠密特征提取,得到样本稠密特征;对样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取,得到样本稀疏特征。
可选的,样本稠密特征包括搜索词特征、和/或物品特征、和/或搜索词与物品间的召回特征;
上述提取模块802,具体可以用于针对每一样本搜索词,根据该样本搜索词对应的样本展点数据,至少获取该样本搜索词的第一展现次数和点击熵,作为搜索词特征;和/或
针对每一样本物品,根据该样本物品的物品信息以及该样本物品对应的样本展点数据,至少获取该样本物品的元数据信息、第二展现次数和第一点击次数,作为该样本物品的物品特征;和/或
根据样本展点数据,至少获取每一样本搜索词下样本物品对应的第三展现次数和第二点击次数,以及每一样本搜索词与样本物品间的相关性,作为搜索词与物品间的召回特征。
可选的,上述样本稀疏特征包括搜索词侧特征、和/或物品侧特征、和/或用户侧特征;
上述提取模块802,具体可以用于根据样本展点数据中包括的样本搜索词,对样本搜索词进行分词处理,得到多个分词,并将每一分词对应的标识作为搜索词侧特征;和/或
对样本物品的样本物品信息包括的物品名称进行分词处理,得到多个分词,并将每一分词对应的标识作为物品侧特征;和/或
针对每一样本用户,根据样本展点数据,至少获取该样本用户对应的样本搜索词以及点击的样本物品,作为用户侧特征。
基于同一种发明构思,根据上述本发明实施例提供的搜索召回方法,本发明实施例还提供了搜索召回装置,如图9所示,图9为本发明实施例提供的搜索召回装置的一种结构示意图。该装置包括以下模块。
第二获取模块901,用于获取第一搜索词以及第一搜索词对应的用户信息;
第三获取模块902,用于获取预设物品库中与第一搜索词匹配的待展现物品的物品信息;
第四获取模块903,用于从历史展点数据中获取与第一搜索词匹配的第一展点数据,以及与用户信息匹配的第二展点数据;展点数据包括搜索展现记录和搜索点击记录;
第二预测模块904,用于针对每一待展现物品,以第一展点数据、第二展点数据和该待展现物品的物品信息作为训练好的点击率预测模型的输入数据,输出该待展现物品的用户点击率的预测值;点击率预测模型是利用预设训练集训练得到的,预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,展点数据包括搜索展现记录以及搜索点击记录;
展现模块905,用于根据每一待展现物品对应的预测值,展现待展现物品的物品信息。
可选的,上述第一展点数据和上述第二展点数据为当前时间点前预设时长内的展点数据。
可选的,上述展现模块905,具体用于根据每一待展现物品对应的预测值,按照预测值从大到小的顺序,对待展现物品进行排序;展现排序在前预设数量个的待展现物品的物品信息。
采用本发明实施例提供的装置,通过对预设训练数据中样本展点数据和每一样本物品的样本物品信息进行特征提取,从而得到样本稠密特征和样本稀疏特征,并利用提取到的样本稠密特征和样本稀疏特征对预设点击率预测模型进行训练,得到训练好的预测模型。由于用于训练预设点击率预测模型的数据除了包括预设训练集所中样本展点数据和样本物品信息所对应的稠密特征以外,还包括稀疏特征,这使得训练得到的点击率预测模型的预测结果可以充分展现了用户个性化对预测结果的影响,从而使得在搜索召回场景中,利用训练好的点击率预测模型所预测得到的用户点击率的预测值的准确性得到提高的同时,充分考虑了用户个性化对搜索排序结果的影响,这提高了搜索排序结果的个性化,提升了搜索排序质量。
基于同一种发明构思,根据上述本发明实施例提供的点击率预测模型训练方法,本发明实施例还提供了一种电子设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现如下步骤:
获取预设训练集;预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,展点数据包括搜索展现记录以及搜索点击记录;
基于样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征;
针对每一样本物品,以样本稠密特征和样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率;
根据每一样本物品的真实点击率和预测点击率,计算预设点击率预测模型的损失值;
当损失值大于预设损失值阈值时,调节预设点击率预测模型的参数,并返回执行针对每一样本物品,将样本稠密特征和样本稀疏特征输入预设点击率预测模型,得到每一样本物品的预测点击率的步骤;
当损失值不大于预设损失值阈值时,将当前的预设点击率预测模型确定为训练好的点击率预测模型。
基于同一种发明构思,根据上述本发明实施例提供的搜索召回方法,本发明实施例还提供了一种电子设备,如图11所示,包括处理器1101、通信接口1102、存储器1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信,
存储器1103,用于存放计算机程序;
处理器1101,用于执行存储器1103上所存放的程序时,实现如下步骤:
获取第一搜索词以及第一搜索词对应的用户信息;
获取预设物品库中与第一搜索词匹配的待展现物品的物品信息;
从历史展点数据中获取与第一搜索词匹配的第一展点数据,以及与用户信息匹配的第二展点数据;展点数据包括搜索展现记录和搜索点击记录;
针对每一待展现物品,以第一展点数据、第二展点数据和该待展现物品的物品信息作为训练好的点击率预测模型的输入数据,输出该待展现物品的用户点击率的预测值;点击率预测模型是利用预设训练集训练得到的,预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,展点数据包括搜索展现记录以及搜索点击记录;
根据每一待展现物品对应的预测值,展现待展现物品的物品信息。
在本发明实施例中,上述图10所示的电子设备和图11所示的电子设备可以为同一电子设备,也可以是不同电子设备。在此,对上述电子设备不作具体限定。
采用本发明实施例提供的电子设备,通过对预设训练数据中样本展点数据和每一样本物品的样本物品信息进行特征提取,从而得到样本稠密特征和样本稀疏特征,并利用提取到的样本稠密特征和样本稀疏特征对预设点击率预测模型进行训练,得到训练好的预测模型。由于用于训练预设点击率预测模型的数据除了包括预设训练集所中样本展点数据和样本物品信息所对应的稠密特征以外,还包括稀疏特征,这使得训练得到的点击率预测模型的预测结果可以充分展现了用户个性化对预测结果的影响,从而使得在搜索召回场景中,利用训练好的点击率预测模型所预测得到的用户点击率的预测值的准确性得到提高的同时,充分考虑了用户个性化对搜索排序结果的影响,这提高了搜索排序结果的个性化,提升了搜索排序质量。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU),还可以是专用处理器,包括网络处理器(Network Processor,简称NP),数字信号处理器(Digital Signal Processor,简称DSP)等。
基于同一种发明构思,根据上述本发明实施例提供的点击率预测模型训练方法,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的点击率预测模型训练方法。
基于同一种发明构思,根据上述本发明实施例提供的点击率预测模型训练方法,本发明实施例还提供了一种包含指令的计算机程序,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的点击率预测模型训练方法。
基于同一种发明构思,根据上述本发明实施例提供的搜索召回方法,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的搜索召回方法。
基于同一种发明构思,根据上述本发明实施例提供的搜索召回方法,本发明实施例还提供了一种包含指令的计算机程序,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的搜索召回方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序的形式实现。所述计算机程序包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种点击率预测模型训练方法,其特征在于,所述方法包括:
获取预设训练集;所述预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,所述展点数据包括搜索展现记录以及搜索点击记录;
基于所述样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征;
针对每一样本物品,以所述样本稠密特征和所述样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率;
根据每一样本物品的真实点击率和预测点击率,计算所述预设点击率预测模型的损失值;
当所述损失值大于预设损失值阈值时,调节所述预设点击率预测模型的参数,并返回执行所述针对每一样本物品,将所述样本稠密特征和所述样本稀疏特征输入预设点击率预测模型,得到每一样本物品的预测点击率的步骤;
当所述损失值不大于所述预设损失值阈值时,将当前的预设点击率预测模型确定为训练好的点击率预测模型;
所述基于所述样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征的步骤,包括:
对所述样本展点数据和每一样本物品的样本物品信息进行稠密特征提取,得到样本稠密特征;
对所述样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取,得到样本稀疏特征。
2.根据权利要求1所述的方法,其特征在于,所述样本稠密特征包括搜索词特征、和/或物品特征、和/或搜索词与物品间的召回特征;
所述对所述样本展点数据和每一样本物品的样本物品信息进行稠密特征提取,得到样本稠密特征的步骤,包括:
针对每一样本搜索词,根据该样本搜索词对应的样本展点数据,至少获取该样本搜索词的第一展现次数和点击熵,作为所述搜索词特征;和/或
针对每一样本物品,根据该样本物品的物品信息以及该样本物品对应的样本展点数据,至少获取该样本物品的元数据信息、第二展现次数和第一点击次数,作为该样本物品的物品特征;和/或
根据所述样本展点数据,至少获取每一样本搜索词下样本物品对应的第三展现次数和第二点击次数,以及每一样本搜索词与样本物品间的相关性,作为所述搜索词与物品间的召回特征。
3.根据权利要求1所述的方法,其特征在于,所述样本稀疏特征包括搜索词侧特征、和/或物品侧特征、和/或用户侧特征;
所述对所述样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取,得到样本稀疏特征的步骤,包括:
根据所述样本展点数据中包括的样本搜索词,对所述样本搜索词进行分词处理,得到多个分词,并将每一分词对应的标识作为所述搜索词侧特征;和/或
对所述样本物品的样本物品信息包括的物品名称进行分词处理,得到多个分词,并将每一分词对应的标识作为所述物品侧特征;和/或
针对每一样本用户,根据所述样本展点数据,至少获取该样本用户对应的样本搜索词以及点击的样本物品,作为所述用户侧特征。
4.一种搜索召回方法,其特征在于,所述方法包括:
获取第一搜索词以及所述第一搜索词对应的用户信息;
获取预设物品库中与所述第一搜索词匹配的待展现物品的物品信息;
从历史展点数据中获取与所述第一搜索词匹配的第一展点数据,以及与所述用户信息匹配的第二展点数据;所述展点数据包括搜索展现记录和搜索点击记录;
针对每一待展现物品,对所述第一展点数据、所述第二展点数据和该待展现物品的物品信息进行稠密特征提取,得到稠密特征;对所述第一展点数据、所述第二展点数据和该待展现物品的物品信息进行稀疏特征提取,得到稀疏特征;将所得到的稠密特征和稀疏特征作为训练好的点击率预测模型的输入数据,输出该待展现物品的用户点击率的预测值;所述点击率预测模型是利用样本稠密特征和样本稀疏特征,以及基于多个样本用户的样本搜索词所召回的每一样本物品的真实点击率训练得到的;其中,所述样本稠密特征为:对基于多个样本用户的样本搜索词所召回样本物品的样本展点数据和每一样本物品的样本物品信息进行稠密特征提取得到的;所述样本稀疏特征为:对所述样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取得到的;所述展点数据包括搜索展现记录以及搜索点击记录;
根据每一待展现物品对应的预测值,展现所述待展现物品的物品信息。
5.根据权利要求4所述的方法,其特征在于,所述第一展点数据和所述第二展点数据为当前时间点前预设时长内的展点数据。
6.根据权利要求4所述的方法,其特征在于,所述根据每一待展现物品对应的预测值,展现所述待展现物品的物品信息的步骤,包括:
根据每一待展现物品对应的预测值,按照所述预测值从大到小的顺序,对所述待展现物品进行排序;
展现排序在前预设数量个的待展现物品的物品信息。
7.一种点击率预测模型训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取预设训练集;所述预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,所述展点数据包括搜索展现记录以及搜索点击记录;
提取模块,用于基于所述样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征;
第一预测模块,用于针对每一样本物品,以所述样本稠密特征和所述样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率;
计算模块,用于根据每一样本物品的真实点击率和预测点击率,计算所述预设点击率预测模型的损失值;
调节模块,用于当所述损失值大于预设损失值阈值时,调节所述预设点击率预测模型的参数,并返回执行所述针对每一样本物品,将所述样本稠密特征和所述样本稀疏特征输入预设点击率预测模型,得到每一样本物品的预测点击率的步骤;
确定模块,用于当所述损失值不大于所述预设损失值阈值时,将当前的预设点击率预测模型确定为训练好的点击率预测模型;
所述提取模块,具体用于:
对所述样本展点数据和每一样本物品的样本物品信息进行稠密特征提取,得到样本稠密特征;对所述样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取,得到样本稀疏特征。
8.一种搜索召回装置,其特征在于,所述装置包括:
第二获取模块,用于获取第一搜索词以及所述第一搜索词对应的用户信息;
第三获取模块,用于获取预设物品库中与所述第一搜索词匹配的待展现物品的物品信息;
第四获取模块,用于从历史展点数据中获取与所述第一搜索词匹配的第一展点数据,以及与所述用户信息匹配的第二展点数据;所述展点数据包括搜索展现记录和搜索点击记录;
第二预测模块,用于针对每一待展现物品,对所述第一展点数据、所述第二展点数据和该待展现物品的物品信息进行稠密特征提取,得到稠密特征;对所述第一展点数据、所述第二展点数据和该待展现物品的物品信息进行稀疏特征提取,得到稀疏特征;将所得到的稠密特征和稀疏特征作为训练好的点击率预测模型的输入数据,输出该待展现物品的用户点击率的预测值;所述点击率预测模型是利用样本稠密特征和样本稀疏特征,以及基于多个样本用户的样本搜索词所召回的每一样本物品的真实点击率训练得到的;其中,所述样本稠密特征为:对基于多个样本用户的样本搜索词所召回样本物品的样本展点数据和每一样本物品的样本物品信息进行稠密特征提取得到的;所述样本稀疏特征为:对所述样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取得到的;所述展点数据包括搜索展现记录以及搜索点击记录;
展现模块,用于根据每一待展现物品对应的预测值,展现所述待展现物品的物品信息。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-3或4-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-3或4-6任一所述的方法步骤。
CN202110603128.7A 2021-05-31 2021-05-31 点击率预测模型训练、搜索召回方法、装置、设备及介质 Active CN113220974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110603128.7A CN113220974B (zh) 2021-05-31 2021-05-31 点击率预测模型训练、搜索召回方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110603128.7A CN113220974B (zh) 2021-05-31 2021-05-31 点击率预测模型训练、搜索召回方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113220974A CN113220974A (zh) 2021-08-06
CN113220974B true CN113220974B (zh) 2024-06-07

Family

ID=77082161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110603128.7A Active CN113220974B (zh) 2021-05-31 2021-05-31 点击率预测模型训练、搜索召回方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113220974B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761392B (zh) * 2021-09-14 2022-04-12 上海任意门科技有限公司 内容召回方法、计算设备和计算机可读存储介质
CN115203438B (zh) * 2022-09-09 2023-02-03 北京澜舟科技有限公司 一种实体链接方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339415A (zh) * 2020-02-25 2020-06-26 中国科学技术大学 一种基于多交互式注意力网络的点击率预测方法与装置
CN111538761A (zh) * 2020-04-21 2020-08-14 中南大学 基于注意力机制的点击率预测方法
CN112669078A (zh) * 2020-12-30 2021-04-16 上海众源网络有限公司 一种行为预测模型训练方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339415A (zh) * 2020-02-25 2020-06-26 中国科学技术大学 一种基于多交互式注意力网络的点击率预测方法与装置
CN111538761A (zh) * 2020-04-21 2020-08-14 中南大学 基于注意力机制的点击率预测方法
CN112669078A (zh) * 2020-12-30 2021-04-16 上海众源网络有限公司 一种行为预测模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113220974A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN110309427B (zh) 一种对象推荐方法、装置及存储介质
CN110263265B (zh) 用户标签生成方法、装置、存储介质和计算机设备
CN108694223B (zh) 一种用户画像库的构建方法及装置
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN111461841B (zh) 物品推荐方法、装置、服务器及存储介质
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
EP4092545A1 (en) Content recommendation method and device
CN110598086A (zh) 文章推荐方法、装置、计算机设备及存储介质
CN113220974B (zh) 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN114417058A (zh) 一种视频素材的筛选方法、装置、计算机设备和存储介质
CN114339417A (zh) 一种视频推荐的方法、终端设备和可读存储介质
CN115618024A (zh) 多媒体推荐方法、装置及电子设备
CN114845149B (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质
CN114817692A (zh) 确定推荐对象的方法、装置和设备及计算机存储介质
CN112287225A (zh) 一种对象推荐方法及装置
CN117688390A (zh) 内容匹配方法、装置、计算机设备、存储介质和程序产品
CN115269998A (zh) 信息推荐方法、装置、电子设备及存储介质
CN111353052B (zh) 一种多媒体对象推荐方法、装置、电子设备及存储介质
CN112035740A (zh) 项目使用时长预测方法、装置、设备及存储介质
CN112000888B (zh) 信息推送方法、装置、服务器及存储介质
CN112000821B (zh) 多媒体信息推送方法、装置、服务器及存储介质
CN113271325A (zh) 信息推送方法、装置、电子设备及计算机可读介质
CN113987262A (zh) 一种视频推荐信息确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant