CN114254151A

CN114254151A - 搜索词推荐模型的训练方法、搜索词推荐方法和装置

Info

Publication number: CN114254151A
Application number: CN202111568217.9A
Authority: CN
Inventors: 张水发
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-29

Abstract

本公开关于一种搜索词推荐模型的训练方法、搜索词推荐方法和装置，搜索词推荐模型包括特征提取网络和点击率估计网络，训练方法包括：获取视频样本及其样本标记；提取视频样本对应的多个搜索词和内容信息，并输入特征提取网络，提取得到多个搜索词对应的多个搜索词嵌入特征和内容信息对应的内容嵌入特征；从多个搜索词嵌入特征中确定与内容嵌入特征接近的N个搜索词嵌入特征；将N个搜索词嵌入特征和内容嵌入特征输入点击率估计网络，得到每个搜索词嵌入特征的估计的点击率；根据估计的点击率和样本标记确定搜索词推荐模型的损失函数的值；通过根据损失函数的值调整特征提取网络和点击率估计网络的参数，以得到训练后的搜索词推荐模型。

Description

搜索词推荐模型的训练方法、搜索词推荐方法和装置

技术领域

本公开涉及搜索技术领域，尤其涉及一种搜索词推荐模型的训练方法、搜索词推荐方法和装置。

背景技术

利用搜索词发起搜索是用户查找感兴趣的内容的常用手段。目前，为了协助用户搜索，存在向用户推荐搜索词的方案，如将其他用户(例如与当前用户兴趣相同的用户)搜索过的搜索词推荐给当前用户，又如在用户输入一个搜索词后，对这个搜索词做进一步补充以供用户选择(例如在用户输入“猫咪”后，进一步补充为“猫咪头像”、“猫咪搞笑视频”等)。然而这些方法往往通过统计其他用户的高频搜索词得到，难以有效贴合当前用户的搜索需求。

发明内容

本公开提供一种搜索词推荐模型的训练方法、搜索词推荐方法和装置，以至少解决相关技术中的难以有效贴合当前用户的搜索需求的问题，也可不解决任何上述问题。

根据本公开的第一方面，提供了一种搜索词推荐模型的训练方法，所述搜索词推荐模型包括特征提取网络和点击率估计网络，所述训练方法包括：获取视频样本及其样本标记；提取所述视频样本对应的多个搜索词和内容信息，并输入所述特征提取网络，提取得到所述多个搜索词对应的多个搜索词嵌入特征和所述内容信息对应的内容嵌入特征；从所述多个搜索词嵌入特征中确定与所述内容嵌入特征接近的N个搜索词嵌入特征；将所述N个搜索词嵌入特征和所述内容嵌入特征输入所述点击率估计网络，得到每个搜索词嵌入特征的估计的点击率；根据所述估计的点击率和所述样本标记确定所述搜索词推荐模型的损失函数的值；通过根据所述损失函数的值调整所述特征提取网络和所述点击率估计网络的参数，以得到训练后的搜索词推荐模型。

可选地，所述获取视频样本及其样本标记，包括：获取候选视频集合；所述候选视频集合包括多个候选视频；确定所述候选视频在搜索请求下的交互行为类型；基于所述交互行为类型从所述候选视频集合中筛选出正视频样本以及负视频样本。

可选地，所述基于所述交互行为类型从所述候选视频集合中筛选出正视频样本以及负视频样本，包括：确定在响应于搜索请求被展示后被选择播放的候选视频，作为所述视频样本；基于所述交互行为类型，为所述视频样本添加正样本标记或负样本标记。

可选地，所述基于所述交互行为类型，为所述视频样本添加正样本标记或负样本标记，包括：确定所述交互行为类型是积极交互行为类型，为相应的所述视频样本添加正样本标记；确定所述交互行为类型不是所述积极交互行为类型，为相应的所述视频样本添加负样本标记。

可选地，所述积极交互行为类型包括播放时长大于时长阈值、点赞、关注中的至少一个。

可选地，所述内容信息包括文本信息和图像信息，所述特征提取网络包括文本特征提取网络和图像特征提取网络，其中，将所述多个搜索词和所述内容信息输入所述特征提取网络，提取得到所述多个搜索词对应的所述多个搜索词嵌入特征和所述内容信息对应的所述内容嵌入特征，包括：将所述多个搜索词和所述文本信息输入所述文本特征提取网络，得到所述多个搜索词对应的所述多个搜索词嵌入特征和所述文本信息对应的文本嵌入特征；将所述图像信息输入所述图像特征提取网络，得到所述图像信息对应的图像嵌入特征。

可选地，所述从所述多个搜索词嵌入特征中确定与所述内容嵌入特征接近的N个搜索词嵌入特征，包括：从所述多个搜索词嵌入特征中确定与所述文本嵌入特征接近的至少一个搜索词嵌入特征，和/或从所述多个搜索词嵌入特征中确定与所述图像嵌入特征接近的至少一个搜索词嵌入特征，得到所述N个搜索词嵌入特征。

可选地，所述从所述多个搜索词嵌入特征中确定与所述内容嵌入特征接近的N个搜索词嵌入特征，包括：从所述多个搜索词嵌入特征中确定与所述内容嵌入特征最接近的N个搜索词嵌入特征；或从所述多个搜索词嵌入特征中确定与所述内容嵌入特征的距离小于距离阈值的N个搜索词嵌入特征。

可选地，所述图像特征提取网络包括级联的底层卷积层以及语义卷积层，以及与所述语义卷积层相连接的全连接层，所述通过根据所述损失函数的值调整所述特征提取网络和所述点击率估计网络的参数，以得到训练后的搜索词推荐模型，包括：通过根据所述损失函数的值调整所述图像特征提取网络中的所述语义卷积层、所述全连接层和所述点击率估计网络的参数，并保持所述图像特征提取网络的底层卷积层和所述文本特征提取网络的参数不变，以得到训练后的搜索词推荐模型。

根据本公开的第二方面，提供了一种搜索词推荐方法，包括：提取参考视频对应的多个搜索词和内容信息，并输入搜索词推荐模型的特征提取网络，提取得到所述多个搜索词对应的多个搜索词嵌入特征和所述内容信息对应的内容嵌入特征，其中，所述搜索词推荐模型包括所述特征提取网络和点击率估计网络；从所述多个搜索词嵌入特征中确定与所述内容嵌入特征接近的N个搜索词嵌入特征；将所述N个搜索词嵌入特征和所述内容嵌入特征输入所述点击率估计网络，得到每个搜索词嵌入特征的估计的点击率；根据所述估计的点击率从所述N个搜索词嵌入特征中选取M个搜索词嵌入特征，将所述M个搜索词嵌入特征对应的搜索词作为所述参考视频对应的推荐搜索词。

可选地，所述根据所述估计的点击率从所述N个搜索词嵌入特征中选取M个搜索词嵌入特征，包括：从所述N个搜索词嵌入特征中选取对应的所述估计的点击率最大的M个搜索词嵌入特征；或从所述N个搜索词嵌入特征中选取对应的所述估计的点击率大于点击率阈值的M个搜索词嵌入特征。

可选地，所述方法还包括：确定与所述参考视频存在交互关联关系的交互用户；将所述推荐搜索词发送给所述交互用户对应的终端，以使得所述终端展示所述推荐搜索词。

可选地，所述搜索词推荐模型是使用上述的训练方法训练得到的。

根据本公开的第三方面，提供了一种搜索词推荐模型的训练装置，所述搜索词推荐模型包括特征提取网络和点击率估计网络，所述训练装置包括：获取单元，被配置为：获取视频样本及其样本标记；提取单元，被配置为：提取所述视频样本对应的多个搜索词和内容信息，并输入所述特征提取网络，提取得到所述多个搜索词对应的多个搜索词嵌入特征和所述内容信息对应的内容嵌入特征；召回单元，被配置为：从所述多个搜索词嵌入特征中确定与所述内容嵌入特征接近的N个搜索词嵌入特征；估计单元，被配置为：将所述N个搜索词嵌入特征和所述内容嵌入特征输入所述点击率估计网络，得到每个搜索词嵌入特征的估计的点击率；计算单元，被配置为：根据所述估计的点击率和所述样本标记确定所述搜索词推荐模型的损失函数的值；调参单元，被配置为：通过根据所述损失函数的值调整所述特征提取网络和所述点击率估计网络的参数，以得到训练后的搜索词推荐模型。

可选地，所述获取单元还被配置为：获取候选视频集合；所述候选视频集合包括多个候选视频；确定所述候选视频在搜索请求下的交互行为类型；基于所述交互行为类型从所述候选视频集合中筛选出正视频样本以及负视频样本。

可选地，所述获取单元还被配置为：确定在响应于搜索请求被展示后被选择播放的候选视频，作为所述视频样本；基于所述交互行为类型，为所述视频样本添加正样本标记或负样本标记。

可选地，所述获取单元还被配置为：确定所述交互行为类型是积极交互行为类型，为相应的所述视频样本添加正样本标记；确定所述交互行为类型不是所述积极交互行为类型，为相应的所述视频样本添加负样本标记。

可选地，所述内容信息包括文本信息和图像信息，所述特征提取网络包括文本特征提取网络和图像特征提取网络，所述提取单元还被配置为：将所述多个搜索词和所述文本信息输入所述文本特征提取网络，得到所述多个搜索词对应的所述多个搜索词嵌入特征和所述文本信息对应的文本嵌入特征；将所述图像信息输入所述图像特征提取网络，得到所述图像信息对应的图像嵌入特征。

可选地，所述召回单元还被配置为：从所述多个搜索词嵌入特征中确定与所述文本嵌入特征接近的至少一个搜索词嵌入特征，和/或从所述多个搜索词嵌入特征中确定与所述图像嵌入特征接近的至少一个搜索词嵌入特征，得到所述N个搜索词嵌入特征。

可选地，所述召回单元还被配置为：从所述多个搜索词嵌入特征中确定与所述内容嵌入特征最接近的N个搜索词嵌入特征；或从所述多个搜索词嵌入特征中确定与所述内容嵌入特征的距离小于距离阈值的N个搜索词嵌入特征。

可选地，所述图像特征提取网络包括级联的底层卷积层以及语义卷积层，以及与所述语义卷积层相连接的全连接层，所述调参单元还被配置为：通过根据所述损失函数的值调整所述图像特征提取网络中的所述语义卷积层、所述全连接层和所述点击率估计网络的参数，并保持所述图像特征提取网络的底层结构和所述文本特征提取网络的参数不变，以得到训练后的搜索词推荐模型。

根据本公开的第四方面，提供了一种搜索词推荐装置，包括：提取单元，被配置为：提取参考视频对应的多个搜索词和内容信息，并输入搜索词推荐模型的特征提取网络，提取得到所述多个搜索词对应的多个搜索词嵌入特征和所述内容信息对应的内容嵌入特征，其中，所述搜索词推荐模型包括所述特征提取网络和点击率估计网络；召回单元，被配置为：从所述多个搜索词嵌入特征中确定与所述内容嵌入特征接近的N个搜索词嵌入特征；估计单元，被配置为：将所述N个搜索词嵌入特征和所述内容嵌入特征输入所述点击率估计网络，得到每个搜索词嵌入特征的估计的点击率；推荐单元，被配置为：根据所述估计的点击率从所述N个搜索词嵌入特征中选取M个搜索词嵌入特征，将所述M个搜索词嵌入特征对应的搜索词作为所述参考视频对应的推荐搜索词。

可选地，所述推荐单元还被配置为：从所述N个搜索词嵌入特征中选取对应的所述估计的点击率最大的M个搜索词嵌入特征；或从所述N个搜索词嵌入特征中选取对应的所述估计的点击率大于点击率阈值的M个搜索词嵌入特征。

可选地，所述搜索词推荐装置还包括：确定单元，被配置为：确定与所述参考视频存在交互关联关系的交互用户；发送单元，被配置为：将所述推荐搜索词发送给所述交互用户对应的终端，以使得所述终端展示所述推荐搜索词。

根据本公开的第五方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的搜索词推荐模型的训练方法或搜索词推荐方法。

根据本公开的第六方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的搜索词推荐模型的训练方法或搜索词推荐方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的搜索词推荐模型的训练方法或搜索词推荐方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的实施例的搜索词推荐模型的训练方法、搜索词推荐方法和装置，搜索词推荐模型包括特征提取网络和点击率估计网络。特征提取网络用于提取参考视频的搜索词嵌入特征和内容嵌入特征，便于将参考视频对应的多个搜索词与参考视频的内容进行语义对比，进而召回与参考视频的内容语义相近的搜索词，从而实现对参考视频内容的充分理解和挖掘，有助于提供丰富的搜索词。点击率估计网络用于处理召回的搜索词对应的搜索词嵌入特征和内容嵌入特征，并估算出召回的搜索词的点击率，也就是估算搜索词贴近用户搜索意图的程度，便于根据点击率对召回的搜索词进行排序。由于搜索词推荐模型是利用多个视频样本以及能够反映这些视频样本的交互情况的样本标记训练得到的，因而能够在基于嵌入特征进行语义对比的基础上，进一步结合视频样本的交互情况挖掘用户的搜索意图，有助于推荐出更贴合用户意图的搜索词。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的搜索词推荐模型的训练方法的流程图。

图2是相关技术中ResNet模型的网络结构示意图。

图3是示出根据本公开的示例性实施例的搜索词推荐方法的流程图。

图4是示出根据本公开的示例性实施例的搜索词推荐模型的训练装置的框图。

图5是示出根据本公开的示例性实施例的搜索词推荐装置的框图。

图6是根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

对于短视频分发平台，向用户推送满足其观看兴趣的搜索词或内容，有助于增强平台与用户的粘性，对平台的长远发展至关重要。搜索发现就是指基于用户的历史交互行为，例如搜索历史和观看历史等，给用户推荐相关的搜索词或内容。以基于用户的观看历史推荐搜索词为例，同一个视频会对应于多个搜索词，也就是当用户分别输入这些搜索词时，都能搜索到这个视频，因而可将用户观看过的视频所对应的多个搜索词推荐给用户。这种方法虽然可以拓展搜索词，但一个视频对应的搜索词数量通常较大，需用从中选取一部分进行推荐，往往难以保证刚好选到用户真正感兴趣的搜索词。

为此，本公开的示例性实施例提出建立搜索词推荐模型，能够立足于用户最近交互过的视频(以下称参考视频)，充分理解和挖掘其内容，进而推荐出丰富而贴切的搜索词。具体来说，搜索词推荐模型包括特征提取网络和点击率估计网络。特征提取网络用于提取参考视频的搜索词嵌入特征和内容嵌入特征，嵌入特征是能够反映相应元素的语义的特征向量，便于将参考视频对应的多个搜索词与参考视频的内容进行语义对比，进而召回与参考视频的内容语义相近的搜索词，从而实现对参考视频内容的充分理解和挖掘，有助于提供丰富的搜索词。点击率估计网络用于处理召回的搜索词对应的搜索词嵌入特征和内容嵌入特征，并估算出召回的搜索词的点击率，也就是估算搜索词贴近用户搜索意图的程度，便于根据点击率对召回的搜索词进行排序。由于搜索词推荐模型是利用多个视频样本以及能够反映这些视频样本的交互情况的样本标记训练得到的，因而能够在基于嵌入特征进行语义对比的基础上，进一步结合视频样本的交互情况挖掘用户的搜索意图，有助于推荐出更贴合用户意图的搜索词。

接下来分别从搜索词推荐模型的训练和应用角度，对本公开的示例性实施例进行描述。

参照图1，在步骤101，获取视频样本及其样本标记。样本标记作为搜索词推荐模型的学习目标，能够反映视频样本是否符合搜索意图，使训练得到的搜索词推荐模型具备预测参考视频对应的搜索词被用户点击使用的可能性(即下文所述的点击率)，因而有助于挖掘用户的搜索意图，从而得到更贴合用户意图的搜索词。可以理解的是，一个视频样本对应于多个搜索词，而与此同时，一个搜索词也会对应于多个视频样本，也就是说，搜索词和视频样本是多对多的关系，所以最终的训练结果会受到所使用的多个视频样本的共同影响，不会因为有多个搜索词对应于同一个视频样本，就造成这多个搜索词的学习目标相同。

步骤101可具体包括：获取候选视频集合，候选视频集合包括多个候选视频，可作为视频样本；确定候选视频在搜索请求下的交互行为类型，以反映这些候选视频是否符合搜索意图；基于交互行为类型从候选视频集合中筛选出正视频样本以及负视频样本，也就是根据候选视频符合搜索意图与否，确定候选视频(即视频样本)的样本标记。应理解，一个视频只要曾经响应于搜索请求而被展示出来过，就可以作为候选视频，而无需特别要求搜索请求中所使用的搜索词，因为用户的搜索都有其相应的搜索词，所以候选视频在搜索请求下的交互行为类型就足以反映候选视频是否符合相应搜索意图，从而不必针对每个用户单独训练模型，可以提升训练出的模型的普遍适用性，提升模型训练效率。

可选地，在基于交互行为类型从候选视频集合中筛选出正视频样本以及负视频样本时，可以具体先确定在响应于搜索请求被展示后被选择播放的候选视频，作为视频样本，也就是对候选视频进行过滤；再基于交互行为类型，为视频样本添加正样本标记或负样本标记。由于在搜索请求下，因最为符合搜索意图而存在积极交互的候选视频(即正视频样本)，往往远少于因不符合搜索意图或符合程度不高而不存在积极交互的候选视频(即负视频样本)，使得训练出的模型输出的点击率数值极小，需保留小数点后足够多的位数才能实现比较，不便于应用，也会增大点击率对应的内存负担，增大样本数量。而未被选择播放的候选视频大概率是不符合搜索意图的，且其数量往往远大于被选择播放的候选视频。基于此，通过先过滤掉未被选择播放的候选视频，可大幅减少负视频样本的数量，提升视频样本中正视频样本的占比，有助于降低训练计算量，并减小点击率对应的内存负担，提升训练效率和模型应用效率。

可选地，在基于交互行为类型，为视频样本添加正样本标记或负样本标记时，可在确定交互行为类型是积极交互行为类型的情况下，为相应的视频样本添加正样本标记；在确定交互行为类型不是积极交互行为类型的情况下，为相应的视频样本添加负样本标记。也就是说，根据交互行为类型是否为积极交互行为类型，确定视频样本是否为正视频样本，可借助能够检测到的客观具体的积极交互行为类型来代表抽象的用户搜索意图得到满足。具体地，积极交互行为可包括，但不限于，播放时长大于时长阈值(以下称长播)、点赞、关注，也就是一个视频样本只要存在长播、点赞、关注等积极交互行为中的任意一个或多个，就标记为正视频样本，被选择播放后不存在任何积极交互行为，即短播(播放时长小于或等于时长阈值)并且没有点赞、没有关注，就标记为负视频样本。

在步骤102，提取视频样本对应的多个搜索词和内容信息，并输入特征提取网络，提取得到多个搜索词对应的搜索词嵌入特征和内容信息对应的内容嵌入特征。该步骤提取嵌入特征备用，可方便后续对比搜索词与视频样本的内容是否语义接近。可以理解的是，一个视频样本对应的搜索词是指在该搜索词下可以搜索出当前的视频样本，所以一个视频样本可以对应多个搜索词，相应也就能得到多个搜索词嵌入特征，而视频样本对应的内容信息则是唯一的，相应也就能得到一个内容嵌入特征。这里的唯一是相对于搜索词存在多个并列选项的情况，指一旦确定要选用什么内容后(例如选用后述的文本信息和图像信息)，一个视频样本就不存在多个并列的内容信息。

内容信息用于反映视频样本的具体内容。在一个示例中，可选地，内容信息包括文本信息和图像信息。其中，文本信息可以包括视频样本的hashtag(话题标签，指内容生产者在发布内容时利用“#”标记的关键词)、标签、封面文字、标题等，也可以还包括由视频样本的音频做语音文字转换得到的文字，当然还可包括其他能够提取出的文本，本公开在此不作限制。此外，由于用户是基于视频图像进行交互，最直观的是理解视频图像，而从视频图像到文字存在大量的信息丢失，例如对于“一只狗在桌子边欢快的跑来跑去”的视频，其意义较为复杂，相关的文本信息往往仅为狗、桌子等实体，所以这里加入图像信息，可以对丢失信息进行补充，便于更充分地理解视频内容。当然，在其他示例中，内容信息也可以仅包括文本信息或仅包括图像信息。

对应于内容信息包括文本信息和图像信息的示例，内容嵌入特征包括文本嵌入特征和图像嵌入特征，特征提取网络包括用于提取搜索词对应的搜索词嵌入特征(搜索词本质上也是文本)和文本信息对应的文本嵌入特征的文本特征提取网络，例如可采用BERT(Bidirectional Encoder Representations from Transformers)网络，特征提取网络还包括用于提取图像信息对应的图像嵌入特征的图像特征提取网络，例如可采用CNN(Convolutional Neural Network，卷积神经网络)，提取的具体是CNN的分类层之前的图像嵌入特征。图2是ResNet(残差神经网络)模型的网络结构示意图。参照图2，左侧为19层VGG网络(VGG-19，Visual Geometry Group，超分辨率测试序列)，其中包括16层卷积层(conv，前面的3×3代表卷积核尺寸，后面的数代表卷积层的通道数)和3层全连接层，中间的“pool，/2”代表减半池化层。中间为34层普通网络(34-layer plain)，右侧为34层ResNet(34-layer residual)，二者均包括33层卷积层和1层全连接层。ResNet网络是参考了VGG-19网络，在其基础上进行了修改，并通过短路机制加入了残差单元。变化主要体现在ResNet直接使用步长为2的卷积做下采样，并且用全局池化层(avg pool)替换了全连接层fc4096。ResNet的一个重要设计原则是：当特征图大小降低一半时，特征图的数量增加一倍，这保持了网络层的复杂度。从图2中可以看到，ResNet相比普通网络每两层间增加了短路机制(右侧带箭头的弧线)，这就形成了残差学习，其中虚线表示特征图数量发生了改变。参照图2，提取图像嵌入特征时提取的可以是图中框出的最后一层fc4096或者最后一层avgpool的输出。具体地，特征提取网络可以是预训练好的网络，其中，CNN可基于ImageNet等公开的数据集进行训练。

返回参照图1，在步骤103，从多个搜索词嵌入特征中确定与内容嵌入特征接近的N个搜索词嵌入特征。该步骤为召回搜索词嵌入特征的步骤。如前所述，从一个视频样本中可以提取一个内容嵌入特征和多个搜索词嵌入特征，而嵌入特征是能够反映相应元素的语义的特征向量。对于一个视频样本，通过分别计算步骤102提取到的多个搜索词嵌入特征与这个视频样本的内容嵌入特征的距离，可以了解相应的这些搜索词与视频样本的内容信息的语义接近程度，将其中距离较近的N个搜索词作为候选搜索词予以召回，可以得到与视频样本的内容语义较接近的N个搜索词，从而实现对视频内容的充分理解和挖掘，有助于提供丰富的搜索词。

可选地，步骤103具体包括：从多个搜索词嵌入特征中确定与内容嵌入特征最接近的N个搜索词嵌入特征；或从多个搜索词嵌入特征中确定与内容嵌入特征的距离小于距离阈值的N个搜索词嵌入特征。也就是说，在选取N个搜索词嵌入特征时，需要先确定搜索词嵌入特征与内容嵌入特征的距离，可按照距离大小，选取距离最小的N个搜索词嵌入特征，此时需要计算每个搜索词嵌入特征与内容嵌入特征的距离，也可以按照距离与距离阈值的大小关系，选取距离足够小(小于距离阈值)的N个搜索词嵌入特征，以实现具体操作中的灵活性。

可选地，如前所述，内容嵌入特征包括文本嵌入特征和图像嵌入特征，步骤103具体可基于文本嵌入特征和图像嵌入特征中的至少一个，从搜索词嵌入特征中确定与文本嵌入特征和图像嵌入特征中的至少一个接近的N个搜索词嵌入特征。也就是说，可以仅利用文本嵌入特征召回搜索词嵌入特征(即仅计算文本嵌入特征与搜索词嵌入特征的距离)，也可以仅利用图像嵌入特征召回搜索词嵌入特征(即仅计算图像嵌入特征与搜索词嵌入特征的距离)，还可以同时利用以上两种嵌入特征召回搜索词嵌入特征(即同时计算文本嵌入特征和图像嵌入特征两者与搜索词嵌入特征的距离)。对于第三种方案，又可以具体细分为两种方案，一种是同时考虑文本嵌入特征和图像嵌入特征与搜索词嵌入特征的距离，例如分别计算两个距离后，求两个距离的统计值，例如对两个距离做加权求和，具体如求距离平均值，再根据该统计值确定较接近的N个搜索词嵌入特征，从而兼顾文本信息和图像信息的语义；另一种是分别用文本嵌入特征和图像嵌入特征各自召回多个搜索词嵌入特征，然后将这些搜索词嵌入特征汇总，得到N个搜索词嵌入特征，既可适当兼顾文本信息和图像信息的语义，又可简化计算策略，降低计算负荷。

在步骤104，将N个搜索词嵌入特征和内容嵌入特征输入点击率估计网络，得到每个搜索词嵌入特征的估计的点击率。其中，点击率是指某一内容被点击的次数与被显示的次数之比，可反映某一内容的受关注程度，具体到搜索词嵌入特征，则能够反映一个搜索词嵌入特征对应的搜索词被交互过相应视频样本的用户采用的概率。通过将每个搜索词嵌入特征和相应视频样本的内容嵌入特征输入点击率估计网络，可同时考虑搜索词和视频样本的内容信息，进而得到估计的点击率，而训练使用的正视频样本是用户有积极交互的视频样本，使得训练好的搜索词推荐模型能够充分学习该搜索词、该视频样本内容、交互过该视频样本的用户的交互习惯三者之间的联系，能够在基于嵌入特征进行语义对比的基础上，进一步挖掘用户的搜索意图，估计出准确度更高的点击率，有助于推荐出更贴合用户意图的搜索词。

具体地，在步骤103完成搜索词嵌入特征的召回后，可仿照传统检索方法为内容嵌入特征、搜索词嵌入特征和搜索词构建倒排索引，从而明确每个搜索词对应的搜索词嵌入特征和内容嵌入特征，以免输入错误，确保了模型可靠性。

仍以内容嵌入特征包括文本嵌入特征和图像嵌入特征为例，输入点击率估计网络的就具体是搜索词嵌入特征、文本嵌入特征、图像嵌入特征三类特征，点击率估计网络可采用三塔网络，配置有分别对应于以上三类特征的全连接层，以分别接收以上三类特征的输入。从三个全连接层得到的嵌入特征可进行拼接，拼接后的特征再输入一层全连接层，然后通过softmax，得到估计的点击率。

在步骤105，根据估计的点击率和样本标记确定搜索词推荐模型的损失函数的值。搜索词推荐模型本质上是先提取搜索词嵌入特征和内容嵌入特征，再根据内容嵌入特征召回搜索词嵌入特征，最终逐个估计召回的每个搜索词嵌入特征对应的搜索词是否会被用户点击(模型以估计的点击率的形式输出)，也就是确定是否要向用户推荐这些召回的搜索词嵌入特征对应的搜索词，所以属于分类问题，其损失函数可使用交叉熵损失函数。

在步骤106，通过根据损失函数的值调整特征提取网络和点击率估计网络的参数，以得到训练后的搜索词推荐模型。具体可采用SGD(Stochastic Gradient Descent，随机梯度下降)反向传播梯度学习该模型。

可选地，仍以内容嵌入特征包括文本嵌入特征和图像嵌入特征为例，特征提取网络包括文本特征提取网络和图像特征提取网络，图像特征提取网络可包括级联的底层卷积层以及语义卷积层，以及与语义卷积层相连接的全连接层，步骤106具体包括：通过根据损失函数的值调整图像特征提取网络中的语义卷积层、全连接层和点击率估计网络的参数，并保持图像特征提取网络的底层卷积层和文本特征提取网络的参数不变，以得到训练后的搜索词推荐模型。也就是说，在训练模型时，对于预训练好的图像特征提取网络，可保持底层卷积层的结构不更新，只更新高层的语义卷积层和全连接层，有助于降低训练负荷。对于文本特征提取网络，则可以预训练，在训练模型时不更新。

参照图3，在步骤301，提取参考视频对应的多个搜索词和内容信息，并输入搜索词推荐模型的特征提取网络，提取得到多个搜索词对应的搜索词嵌入特征和内容信息对应的内容嵌入特征。其中，搜索词推荐模型包括特征提取网络和点击率估计网络。参考视频具体可以是当前用户最近一次积极交互过的视频。该步骤提取嵌入特征备用，可方便后续对比搜索词与参考视频的内容是否语义接近。

内容信息用于反映参考视频的具体内容。在一个示例中，可选地，内容信息包括文本信息和图像信息。其中，文本信息可以包括参考视频的hashtag、标签、封面文字、标题等，也可以还包括由参考视频的音频做语音文字转换得到的文字，当然还可包括其他能够提取出的文本，本公开在此不作限制。此外，由于用户是基于视频图像进行交互，最直观的是理解视频图像，而从视频图像到文字存在大量的信息丢失，例如对于“一只狗在桌子边欢快的跑来跑去”的视频，其意义较为复杂，相关的文本信息往往仅为狗、桌子等实体，所以这里加入图像信息，可以对丢失信息进行补充，便于更充分地理解视频内容。当然，在其他示例中，内容信息也可以仅包括文本信息或仅包括图像信息。

对应于内容信息包括文本信息和图像信息的示例，内容嵌入特征包括文本嵌入特征和图像嵌入特征，特征提取网络包括用于提取搜索词对应的搜索词嵌入特征(搜索词本质上也是文本)和文本信息对应的文本嵌入特征的文本特征提取网络，以及用于提取图像信息对应的图像嵌入特征的图像特征提取网络。

可选地，根据本公开的示例性实施例的搜索词推荐模型可使用上述训练方法训练得到的，因而具备上述训练方法的全部有益技术效果，在此不再赘述。

在步骤302，从多个搜索词嵌入特征中确定与内容嵌入特征接近的N个搜索词嵌入特征。该步骤为召回搜索词嵌入特征的步骤。从一个参考视频中可以提取一个内容嵌入特征和多个搜索词嵌入特征，而嵌入特征是能够反映相应元素的语义的特征向量。对于一个参考视频，通过分别计算步骤301提取到的多个搜索词嵌入特征与这个参考视频的内容嵌入特征的距离，可以了解相应的这些搜索词与参考视频的内容信息的语义接近程度，将其中距离较近的N个搜索词作为候选搜索词予以召回，可以得到与参考视频的内容语义较接近的N个搜索词，从而实现对视频内容的充分理解和挖掘，有助于提供丰富的搜索词。

可选地，步骤302具体包括：从多个搜索词嵌入特征中确定与内容嵌入特征最接近的N个搜索词嵌入特征；或从多个搜索词嵌入特征中确定与内容嵌入特征的距离小于距离阈值的N个搜索词嵌入特征。也就是说，在选取N个搜索词嵌入特征时，需要先确定搜索词嵌入特征与内容嵌入特征的距离，可按照距离大小，选取距离最小的N个搜索词嵌入特征，此时需要计算每个搜索词嵌入特征与内容嵌入特征的距离，也可以按照距离与距离阈值的大小关系，选取距离足够小(小于距离阈值)的N个搜索词嵌入特征，以实现具体操作中的灵活性。

可选地，如前所述，内容嵌入特征包括文本嵌入特征和图像嵌入特征，步骤302具体可基于文本嵌入特征和图像嵌入特征中的至少一个，从搜索词嵌入特征中确定与文本嵌入特征和图像嵌入特征中的至少一个接近的N个搜索词嵌入特征。也就是说，可以仅利用文本嵌入特征召回搜索词嵌入特征(即仅计算文本嵌入特征与搜索词嵌入特征的距离)，也可以仅利用图像嵌入特征召回搜索词嵌入特征(即仅计算图像嵌入特征与搜索词嵌入特征的距离)，还可以同时利用以上两种嵌入特征召回搜索词嵌入特征(即同时计算文本嵌入特征和图像嵌入特征两者与搜索词嵌入特征的距离)。对于第三种方案，又可以具体细分为两种方案，一种是同时考虑文本嵌入特征和图像嵌入特征与搜索词嵌入特征的距离，例如分别计算两个距离后，求两个距离的统计值，例如对两个距离做加权求和，具体如求距离平均值，再根据该统计值确定较接近的N个搜索词嵌入特征，从而兼顾文本信息和图像信息的语义；另一种是分别用文本嵌入特征和图像嵌入特征各自召回多个搜索词嵌入特征，然后将这些搜索词嵌入特征汇总，得到N个搜索词嵌入特征，既可适当兼顾文本信息和图像信息的语义，又可简化计算策略，降低计算负荷。

在步骤303，将N个搜索词嵌入特征和内容嵌入特征输入点击率估计网络，得到每个搜索词嵌入特征的估计的点击率。通过将每个搜索词嵌入特征和参考视频的内容嵌入特征输入点击率估计网络，可同时考虑搜索词和参考视频的内容信息，进而得到估计的点击率，而搜索词推荐模型训练使用的正视频样本是用户有积极交互的视频样本，使得训练好的搜索词推荐模型能够充分学习该搜索词、该参考视频内容、交互过该参考视频的用户的交互习惯三者之间的联系，能够在基于嵌入特征进行语义对比的基础上，进一步挖掘用户的搜索意图，估计出准确度更高的点击率，有助于推荐出更贴合用户意图的搜索词。

具体地，在步骤302完成搜索词召回后，可仿照传统检索方法为内容嵌入特征、搜索词嵌入特征和搜索词构建倒排索引，从而明确每个搜索词对应的搜索词嵌入特征和内容嵌入特征，以免输入错误，确保了模型可靠性。

在步骤304，根据估计的点击率从N个搜索词嵌入特征中选取M个搜索词嵌入特征，将M个搜索词嵌入特征对应的搜索词作为参考视频对应的推荐搜索词。其中，M≤N。通过结合估计的点击率选取M个搜索词嵌入特征，并相应得到M个推荐搜索词，可从召回的N个搜索词嵌入特征中进一步缩小推荐范围，有助于推荐出丰富且贴合用户意图的搜索词。

可选地，根据本公开的示例性实施例的搜索词推荐方法还包括：确定与参考视频存在交互关联关系的交互用户；将推荐搜索词发送给交互用户对应的终端，以使得终端展示推荐搜索词。通过向交互用户对应的终端发送步骤304得到的推荐搜索词，可供交互用户使用该推荐搜索词发起搜索，进而搜索到更符合其搜索意图的视频。

参照图4，搜索词推荐模型的训练装置400包括获取单元401、提取单元402、召回单元403、估计单元404、计算单元405和调参单元406。

获取单元401可获取视频样本及其样本标记。样本标记作为搜索词推荐模型的学习目标，能够反映视频样本是否符合搜索意图，使训练得到的搜索词推荐模型具备预测参考视频对应的搜索词被用户点击使用的可能性(即点击率)，因而有助于挖掘用户的搜索意图，从而得到更贴合用户意图的搜索词。可以理解的是，一个视频样本对应于多个搜索词，而与此同时，一个搜索词也会对应于多个视频样本，也就是说，搜索词和视频样本是多对多的关系，所以最终的训练结果会受到所使用的多个视频样本的共同影响，不会因为有多个搜索词对应于同一个视频样本，就造成这多个搜索词的学习目标相同。

获取单元401可具体执行如下操作：获取候选视频集合，候选视频集合包括多个候选视频，可作为视频样本；确定候选视频在搜索请求下的交互行为类型，以反映这些候选视频是否符合搜索意图；基于交互行为类型从候选视频集合中筛选出正视频样本以及负视频样本，也就是根据候选视频符合搜索意图与否，确定候选视频(即视频样本)的样本标记。应理解，一个视频只要曾经响应于搜索请求而被展示出来过，就可以作为候选视频，而无需特别要求搜索请求中所使用的搜索词，因为用户的搜索都有其相应的搜索词，所以候选视频在搜索请求下的交互行为类型就足以反映候选视频是否符合相应搜索意图，从而不必针对每个用户单独训练模型，可以提升训练出的模型的普遍适用性，提升模型训练效率。

可选地，获取单元401在基于交互行为类型从候选视频集合中筛选出正视频样本以及负视频样本时，可以具体先确定在响应于搜索请求被展示后被选择播放的候选视频，作为视频样本，也就是对候选视频进行过滤；再基于交互行为类型，为视频样本添加正样本标记或负样本标记。由于在搜索请求下，因最为符合搜索意图而存在积极交互的候选视频(即正视频样本)，往往远少于因不符合搜索意图或符合程度不高而不存在积极交互的候选视频(即负视频样本)，使得训练出的模型输出的点击率数值极小，需保留小数点后足够多的位数才能实现比较，不便于应用，也会增大点击率对应的内存负担，增大样本数量。而未被选择播放的候选视频大概率是不符合搜索意图的，且其数量往往远大于被选择播放的候选视频。基于此，通过先过滤掉未被选择播放的候选视频，可大幅减少负视频样本的数量，提升视频样本中正视频样本的占比，有助于降低训练计算量，并减小点击率对应的内存负担，提升训练效率和模型应用效率。

可选地，获取单元401在基于交互行为类型，为视频样本添加正样本标记或负样本标记时，可在确定交互行为类型是积极交互行为类型的情况下，为相应的视频样本添加正样本标记；在确定交互行为类型不是积极交互行为类型的情况下，为相应的视频样本添加负样本标记。也就是说，根据交互行为类型是否为积极交互行为类型，确定视频样本是否为正视频样本，可借助能够检测到的客观具体的积极交互行为类型来代表抽象的用户搜索意图得到满足。具体地，积极交互行为可包括，但不限于，播放时长大于时长阈值(以下称长播)、点赞、关注，也就是一个视频样本只要存在长播、点赞、关注等积极交互行为中的任意一个或多个，就标记为正视频样本，被选择播放后不存在任何积极交互行为，即短播(播放时长小于或等于时长阈值)并且没有点赞、没有关注，就标记为负视频样本。

提取单元402可提取视频样本对应的多个搜索词和内容信息，并输入特征提取网络，提取得到多个搜索词对应的搜索词嵌入特征和内容信息对应的内容嵌入特征。提取单元402提取嵌入特征备用，可方便后续对比搜索词与视频样本的内容是否语义接近。可以理解的是，一个视频样本对应的搜索词是指在该搜索词下可以搜索出当前的视频样本，所以一个视频样本可以对应多个搜索词，相应也就能得到多个搜索词嵌入特征，而视频样本对应的内容信息则是唯一的，相应也就能得到一个内容嵌入特征。这里的唯一是相对于搜索词存在多个并列选项的情况，指一旦确定要选用什么内容后(例如选用后述的文本信息和图像信息)，一个视频样本就不存在多个并列的内容信息。

内容信息用于反映视频样本的具体内容。在一个示例中，可选地，内容信息包括文本信息和图像信息。其中，文本信息可以包括视频样本的hashtag、标签、封面文字、标题等，也可以还包括由视频样本的音频做语音文字转换得到的文字，当然还可包括其他能够提取出的文本，本公开在此不作限制。此外，由于用户是基于视频图像进行交互，最直观的是理解视频图像，而从视频图像到文字存在大量的信息丢失，所以这里加入图像信息，可以对丢失信息进行补充，便于更充分地理解视频内容。当然，在其他示例中，内容信息也可以仅包括文本信息或仅包括图像信息。

对应于内容信息包括文本信息和图像信息的示例，内容嵌入特征包括文本嵌入特征和图像嵌入特征，特征提取网络包括用于提取搜索词对应的搜索词嵌入特征(搜索词本质上也是文本)和文本信息对应的文本嵌入特征的文本特征提取网络，例如可采用BERT网络，特征提取网络还包括用于提取图像信息对应的图像嵌入特征的图像特征提取网络，例如可采用CNN，提取的具体是CNN的分类层之前的图像嵌入特征。图2是相关技术中ResNet模型的网络结构示意图，参照图2，提取图像嵌入特征时提取的可以是图中框出的最后一层fc4096或者最后一层avgpool的输出。具体地，特征提取网络可以是预训练好的网络，其中，CNN可基于ImageNet等公开的数据集进行训练。

返回参照图4，召回单元403可从多个搜索词嵌入特征中确定与内容嵌入特征接近的N个搜索词嵌入特征。如前所述，从一个视频样本中可以提取一个内容嵌入特征和多个搜索词嵌入特征，而嵌入特征是能够反映相应元素的语义的特征向量。对于一个视频样本，通过分别计算提取单元402提取到的多个搜索词嵌入特征与这个视频样本的内容嵌入特征的距离，可以了解相应的这些搜索词与视频样本的内容信息的语义接近程度，将其中距离较近的N个搜索词作为候选搜索词予以召回，可以得到与视频样本的内容语义较接近的N个搜索词，从而实现对视频内容的充分理解和挖掘，有助于提供丰富的搜索词。

可选地，召回单元403具体可从多个搜索词嵌入特征中确定与内容嵌入特征最接近的N个搜索词嵌入特征；或可从多个搜索词嵌入特征中确定与内容嵌入特征的距离小于距离阈值的N个搜索词嵌入特征。也就是说，在选取N个搜索词嵌入特征时，需要先确定搜索词嵌入特征与内容嵌入特征的距离，可按照距离大小，选取距离最小的N个搜索词嵌入特征，此时需要计算每个搜索词嵌入特征与内容嵌入特征的距离，也可以按照距离与距离阈值的大小关系，选取距离足够小(小于距离阈值)的N个搜索词嵌入特征，以实现具体操作中的灵活性。

可选地，如前所述，内容嵌入特征包括文本嵌入特征和图像嵌入特征，召回单元403具体可基于文本嵌入特征和图像嵌入特征中的至少一个，从搜索词嵌入特征中确定与文本嵌入特征和图像嵌入特征中的至少一个接近的N个搜索词嵌入特征。也就是说，可以仅利用文本嵌入特征召回搜索词嵌入特征(即仅计算文本嵌入特征与搜索词嵌入特征的距离)，也可以仅利用图像嵌入特征召回搜索词嵌入特征(即仅计算图像嵌入特征与搜索词嵌入特征的距离)，还可以同时利用以上两种嵌入特征召回搜索词嵌入特征(即同时计算文本嵌入特征和图像嵌入特征两者与搜索词嵌入特征的距离)。对于第三种方案，又可以具体细分为两种方案，一种是同时考虑文本嵌入特征和图像嵌入特征与搜索词嵌入特征的距离，例如分别计算两个距离后，求两个距离的统计值，例如对两个距离做加权求和，具体如求距离平均值，再根据该统计值确定较接近的N个搜索词嵌入特征，从而兼顾文本信息和图像信息的语义；另一种是分别用文本嵌入特征和图像嵌入特征各自召回多个搜索词嵌入特征，然后将这些搜索词嵌入特征汇总，得到N个搜索词嵌入特征，既可适当兼顾文本信息和图像信息的语义，又可简化计算策略，降低计算负荷。

估计单元404可将N个搜索词嵌入特征和内容嵌入特征输入点击率估计网络，得到每个搜索词嵌入特征的估计的点击率。通过将搜索词嵌入特征和相应视频样本的内容嵌入特征输入点击率估计网络，可同时考虑搜索词和视频样本的内容信息，进而得到估计的点击率，而训练使用的正视频样本是用户有积极交互的视频样本，使得训练好的搜索词推荐模型能够充分学习该搜索词、该视频样本内容、交互过该视频样本的用户的交互习惯三者之间的联系，能够在基于嵌入特征进行语义对比的基础上，进一步挖掘用户的搜索意图，估计出准确度更高的点击率，有助于推荐出更贴合用户意图的搜索词。

具体地，在召回单元403完成搜索词嵌入特征的召回后，可仿照传统检索方法为内容嵌入特征、搜索词嵌入特征和搜索词构建倒排索引，从而明确每个搜索词对应的搜索词嵌入特征和内容嵌入特征，以免输入错误，确保了模型可靠性。

计算单元405可根据估计的点击率和样本标记确定搜索词推荐模型的损失函数的值。搜索词推荐模型本质上是先提取搜索词嵌入特征和内容嵌入特征，再根据内容嵌入特征召回搜索词嵌入特征，最终逐个估计召回的每个搜索词嵌入特征对应的搜索词是否会被用户点击(模型以估计的点击率的形式输出)，也就是确定是否要向用户推荐这些召回的搜索词嵌入特征对应的搜索词，所以属于分类问题，其损失函数可使用交叉熵损失函数。

调参单元406可通过根据损失函数的值调整特征提取网络和点击率估计网络的参数，以得到训练后的搜索词推荐模型。具体可采用SGD反向传播梯度学习该模型。

可选地，仍以内容嵌入特征包括文本嵌入特征和图像嵌入特征为例，特征提取网络包括文本特征提取网络和图像特征提取网络，图像特征提取网络可包括级联的底层卷积层以及语义卷积层，以及与语义卷积层相连接的全连接层，调参单元406具体可通过根据损失函数的值调整图像特征提取网络中的语义卷积层、全连接层和点击率估计网络的参数，并保持图像特征提取网络的底层卷积层和文本特征提取网络的参数不变，以得到训练后的搜索词推荐模型。也就是说，在训练模型时，对于预训练好的图像特征提取网络，可保持底层卷积层的结构不更新，只更新高层的语义卷积层和全连接层，有助于降低训练负荷。对于文本特征提取网络，则可以预训练，在训练模型时不更新。

参照图5，搜索词推荐装置500包括提取单元501、召回单元502、估计单元503、推荐单元504。

提取单元501可提取参考视频对应的多个搜索词和内容信息，并输入搜索词推荐模型的特征提取网络，提取得到多个搜索词对应的搜索词嵌入特征和内容信息对应的内容嵌入特征，其中，搜索词推荐模型包括特征提取网络和点击率估计网络。参考视频具体可以是当前用户最近一次积极交互过的视频。该步骤提取嵌入特征备用，可方便后续对比搜索词与参考视频的内容是否语义接近。

内容信息用于反映参考视频的具体内容。在一个示例中，可选地，内容信息包括文本信息和图像信息。其中，文本信息可以包括参考视频的hashtag、标签、封面文字、标题等，也可以还包括由参考视频的音频做语音文字转换得到的文字，当然还可包括其他能够提取出的文本，本公开在此不作限制。此外，由于用户是基于视频图像进行交互，最直观的是理解视频图像，而从视频图像到文字存在大量的信息丢失，所以这里加入图像信息，可以对丢失信息进行补充，便于更充分地理解视频内容。当然，在其他示例中，内容信息也可以仅包括文本信息或仅包括图像信息。

召回单元502可从多个搜索词嵌入特征中确定与内容嵌入特征接近的N个搜索词嵌入特征。从一个参考视频中可以提取一个内容嵌入特征和多个搜索词嵌入特征，而嵌入特征是能够反映相应元素的语义的特征向量。对于一个参考视频，通过分别计算提取单元501提取到的多个搜索词嵌入特征与这个参考视频的内容嵌入特征的距离，可以了解相应的这些搜索词与参考视频的内容信息的语义接近程度，将其中距离较近的N个搜索词作为候选搜索词予以召回，可以得到与参考视频的内容语义较接近的N个搜索词，从而实现对视频内容的充分理解和挖掘，有助于提供丰富的搜索词。

可选地，召回单元502具体可从多个搜索词嵌入特征中确定与内容嵌入特征最接近的N个搜索词嵌入特征；或可从多个搜索词嵌入特征中确定与内容嵌入特征的距离小于距离阈值的N个搜索词嵌入特征。也就是说，在选取N个搜索词嵌入特征时，需要先确定搜索词嵌入特征与内容嵌入特征的距离，可按照距离大小，选取距离最小的N个搜索词嵌入特征，此时需要计算每个搜索词嵌入特征与内容嵌入特征的距离，也可以按照距离与距离阈值的大小关系，选取距离足够小(小于距离阈值)的N个搜索词嵌入特征，以实现具体操作中的灵活性。

可选地，如前所述，内容嵌入特征包括文本嵌入特征和图像嵌入特征，召回单元502具体可基于文本嵌入特征和图像嵌入特征中的至少一个，从搜索词嵌入特征中确定与文本嵌入特征和图像嵌入特征中的至少一个接近的N个搜索词嵌入特征。也就是说，可以仅利用文本嵌入特征召回搜索词嵌入特征(即仅计算文本嵌入特征与搜索词嵌入特征的距离)，也可以仅利用图像嵌入特征召回搜索词嵌入特征(即仅计算图像嵌入特征与搜索词嵌入特征的距离)，还可以同时利用以上两种嵌入特征召回搜索词嵌入特征(即同时计算文本嵌入特征和图像嵌入特征两者与搜索词嵌入特征的距离)。对于第三种方案，又可以具体细分为两种方案，一种是同时考虑文本嵌入特征和图像嵌入特征与搜索词嵌入特征的距离，例如分别计算两个距离后，求两个距离的统计值，例如对两个距离做加权求和，具体如求距离平均值，再根据该统计值确定较接近的N个搜索词嵌入特征，从而兼顾文本信息和图像信息的语义；另一种是分别用文本嵌入特征和图像嵌入特征各自召回多个搜索词嵌入特征，然后将这些搜索词嵌入特征汇总，得到N个搜索词嵌入特征，既可适当兼顾文本信息和图像信息的语义，又可简化计算策略，降低计算负荷。

估计单元503可将N个搜索词嵌入特征和内容嵌入特征输入点击率估计网络，得到每个搜索词嵌入特征的估计的点击率。通过将搜索词嵌入特征和参考视频的内容嵌入特征输入点击率估计网络，可同时考虑搜索词和参考视频的内容信息，进而得到估计的点击率，而搜索词推荐模型训练使用的正视频样本是用户有积极交互的视频样本，使得训练好的搜索词推荐模型能够充分学习该搜索词、该参考视频内容、交互过该参考视频的用户的交互习惯三者之间的联系，能够在基于嵌入特征进行语义对比的基础上，进一步挖掘用户的搜索意图，估计出准确度更高的点击率，有助于推荐出更贴合用户意图的搜索词。

具体地，在召回单元502完成搜索词嵌入特征的召回后，可仿照传统检索方法为内容嵌入特征、搜索词嵌入特征和搜索词构建倒排索引，从而明确每个搜索词对应的搜索词嵌入特征和内容嵌入特征，以免输入错误，确保了模型可靠性。

推荐单元504可根据估计的点击率从N个搜索词嵌入特征中选取M个搜索词嵌入特征，将M个搜索词嵌入特征对应的搜索词作为参考视频对应的推荐搜索词。其中，M≤N。通过结合估计的点击率选取M个搜索词嵌入特征，并相应得到M个推荐搜索词，可从召回的N个搜索词嵌入特征中进一步缩小推荐范围，有助于推荐出丰富且贴合用户意图的搜索词。

可选地，根据本公开的示例性实施例的搜索词推荐装置还可包括确定单元和发送单元，确定单元可确定与参考视频存在交互关联关系的交互用户；发送单元可将推荐搜索词发送给交互用户对应的终端，以使得终端展示推荐搜索词。通过向交互用户对应的终端发送推荐单元504得到的推荐搜索词，可供交互用户使用该推荐搜索词发起搜索，进而搜索到更符合其搜索意图的视频。

图6是根据本公开的示例性实施例的电子设备的框图。

参照图6，电子设备600包括至少一个存储器601和至少一个处理器602，所述至少一个存储器601中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器602执行时，执行根据本公开的示例性实施例的搜索词推荐模型的训练方法或搜索词推荐方法。

作为示例，电子设备600可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备600并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备600还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备600中，处理器602可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器602可运行存储在存储器601中的指令或代码，其中，存储器601还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器601可与处理器602集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器601可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器601和处理器602可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器602能够读取存储在存储器中的文件。

此外，电子设备600还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备600的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的搜索词推荐模型的训练方法或搜索词推荐方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的搜索词推荐模型的训练方法或搜索词推荐方法。

根据本公开的示例性实施例的搜索词推荐模型的训练方法、搜索词推荐方法和装置，搜索词推荐模型包括特征提取网络和点击率估计网络。特征提取网络用于提取参考视频的搜索词嵌入特征和内容嵌入特征，便于将参考视频对应的多个搜索词与参考视频的内容进行语义对比，进而召回与参考视频的内容语义相近的搜索词，从而实现对参考视频内容的充分理解和挖掘，有助于提供丰富的搜索词。点击率估计网络用于处理召回的搜索词对应的搜索词嵌入特征和内容嵌入特征，并估算出召回的搜索词的点击率，也就是估算搜索词贴近用户搜索意图的程度，便于根据点击率对召回的搜索词进行排序。由于搜索词推荐模型是利用当前用户的历史交互行为数据训练得到的，因而能够在基于嵌入特征进行语义对比的基础上，进一步挖掘用户的搜索意图，有助于推荐出更贴合用户意图的搜索词。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种搜索词推荐模型的训练方法，其特征在于，所述搜索词推荐模型包括特征提取网络和点击率估计网络，所述训练方法包括：

获取视频样本及其样本标记；

提取所述视频样本对应的多个搜索词和内容信息，并输入所述特征提取网络，提取得到所述多个搜索词对应的多个搜索词嵌入特征和所述内容信息对应的内容嵌入特征；

从所述多个搜索词嵌入特征中确定与所述内容嵌入特征接近的N个搜索词嵌入特征；

将所述N个搜索词嵌入特征和所述内容嵌入特征输入所述点击率估计网络，得到每个搜索词嵌入特征的估计的点击率；

根据所述估计的点击率和所述样本标记确定所述搜索词推荐模型的损失函数的值；

通过根据所述损失函数的值调整所述特征提取网络和所述点击率估计网络的参数，以得到训练后的搜索词推荐模型。

2.如权利要求1所述的训练方法，其特征在于，所述获取视频样本及其样本标记，包括：

获取候选视频集合；所述候选视频集合包括多个候选视频；

确定所述候选视频在搜索请求下的交互行为类型；

基于所述交互行为类型从所述候选视频集合中筛选出正视频样本以及负视频样本。

3.如权利要求2所述的训练方法，其特征在于，所述基于所述交互行为类型从所述候选视频集合中筛选出正视频样本以及负视频样本，包括：

确定在响应于搜索请求被展示后被选择播放的候选视频，作为所述视频样本；

基于所述交互行为类型，为所述视频样本添加正样本标记或负样本标记。

4.如权利要求3所述的训练方法，其特征在于，所述基于所述交互行为类型，为所述视频样本添加正样本标记或负样本标记，包括：

确定所述交互行为类型是积极交互行为类型，为相应的所述视频样本添加正样本标记；

确定所述交互行为类型不是所述积极交互行为类型，为相应的所述视频样本添加负样本标记。

5.一种搜索词推荐方法，其特征在于，包括：

提取参考视频对应的多个搜索词和内容信息，并输入搜索词推荐模型的特征提取网络，提取得到所述多个搜索词对应的多个搜索词嵌入特征和所述内容信息对应的内容嵌入特征，其中，所述搜索词推荐模型包括所述特征提取网络和点击率估计网络；

根据所述估计的点击率从所述N个搜索词嵌入特征中选取M个搜索词嵌入特征，将所述M个搜索词嵌入特征对应的搜索词作为所述参考视频对应的推荐搜索词。

6.一种搜索词推荐模型的训练装置，其特征在于，所述搜索词推荐模型包括特征提取网络和点击率估计网络，所述训练装置包括：

获取单元，被配置为：获取视频样本及其样本标记；

提取单元，被配置为：提取所述视频样本对应的多个搜索词和内容信息，并输入所述特征提取网络，提取得到所述多个搜索词对应的多个搜索词嵌入特征和所述内容信息对应的内容嵌入特征；

召回单元，被配置为：从所述多个搜索词嵌入特征中确定与所述内容嵌入特征接近的N个搜索词嵌入特征；

估计单元，被配置为：将所述N个搜索词嵌入特征和所述内容嵌入特征输入所述点击率估计网络，得到每个搜索词嵌入特征的估计的点击率；

计算单元，被配置为：根据所述估计的点击率和所述样本标记确定所述搜索词推荐模型的损失函数的值；

调参单元，被配置为：通过根据所述损失函数的值调整所述特征提取网络和所述点击率估计网络的参数，以得到训练后的搜索词推荐模型。

7.一种搜索词推荐装置，其特征在于，包括：

提取单元，被配置为：提取参考视频对应的多个搜索词和内容信息，并输入搜索词推荐模型的特征提取网络，提取得到所述多个搜索词对应的多个搜索词嵌入特征和所述内容信息对应的内容嵌入特征，其中，所述搜索词推荐模型包括所述特征提取网络和点击率估计网络；

推荐单元，被配置为：根据所述估计的点击率从所述N个搜索词嵌入特征中选取M个搜索词嵌入特征，将所述M个搜索词嵌入特征对应的搜索词作为所述参考视频对应的推荐搜索词。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的搜索词推荐模型的训练方法或如权利要求5所述的搜索词推荐方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的搜索词推荐模型的训练方法或如权利要求5所述的搜索词推荐方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1到4中的任一权利要求所述的搜索词推荐模型的训练方法或如权利要求5所述的搜索词推荐方法。