CN113918691A

CN113918691A - 数据召回方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113918691A
Application number: CN202111130178.4A
Authority: CN
Inventors: 于延涛; 冯周天; 薛岱月; 蔡明宸
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-01-11

Abstract

本申请公开了数据召回方法、装置、设备及计算机可读存储介质，属于计算机技术领域。所述方法包括：获取用户侧特征以及待召回的数据的数据侧特征；基于用户侧特征确定与多个目标对应的用户表示向量；基于数据侧特征确定与多个目标对应的数据表示向量；基于多个用户表示向量与多个数据表示向量确定多个相似度，其中一个目标下的用户表示向量与数据表示向量确定一个相似度；基于多个相似度确定全局相似度；基于全局相似度确定召回结果。本申请通过分别与多个目标对应的用户表示向量与数据表示向量确定多个相似度，基于多个相似度确定全局相似度，最终通过全局相似度确定该数据的召回结果。本申请考虑多个目标，因而所召回的数据比较全面和准确。

Description

数据召回方法、装置、设备及计算机可读存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种数据召回方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网上的数据量不断增长，查找数据变得越来越困难。基于这种情况，可以使用推荐系统来推荐要查找的数据。推荐系统在推荐数据时，包括召回环节与排序环节。在召回环节中，根据用户侧特征召回合适的数据。在排序环节对召回的数据进一步筛选并排序。

在相关技术中，数据召回方法只能对一个目标进行召回，但是最终输出给用户的数据可能需要同时考虑多个目标，因而排序环节的目标可能多于一个，这会造成召回环节与排序环节的目标不一致，部分适合排序环节的多目标的数据无法通过召回环节，导致召回环节所召回的数据不够全面和准确。

发明内容

本申请实施例提供了一种数据召回方法、装置、设备及计算机可读存储介质，可用于解决相关技术中的问题。技术方案如下：

一方面，本申请实施例提供了一种数据召回的方法，方法包括：

获取用户侧特征以及待召回的数据的数据侧特征；

基于用户侧特征确定与多个目标对应的多个用户表示向量；基于数据侧特征确定与多个目标对应的多个数据表示向量，一个用户表示向量和一个数据表示向量对应一个目标；

基于多个用户表示向量与多个数据表示向量确定多个相似度，一个目标下的用户表示向量与数据表示向量确定出一个相似度，每个相似度用于指示数据在对应目标下被召回的可能性；

基于多个相似度确定全局相似度，全局相似度用于指示数据在多个目标下被召回的可能性；

基于数据的全局相似度确定数据的召回结果。

在一种可能的实现方式中，基于用户侧特征确定与多个目标对应的多个用户表示向量，包括：将用户侧特征输入多个第一向量转换模型，通过多个第一向量转换模型确定与多个目标对应的多个用户表示向量，任一第一向量转换模型确定出的用户表示向量与任一第一向量转换模型对应同一个目标；

基于数据侧特征确定与多个目标对应的多个数据表示向量，包括：将数据侧特征输入多个第二向量转换模型，通过多个第二向量转换模型确定与多个目标对应的多个数据表示向量，任一第二向量转换模型确定出的数据表示向量与任一第二向量转换模型对应同一个目标。

在一种可能的实现方式中，将用户侧特征输入多个第一向量转换模型，通过多个第一向量转换模型确定与多个目标对应的多个用户表示向量，包括：将用户侧特征输入多个第一向量转换模型中，基于多个第一向量转换模型得到多个用户嵌入向量，基于多个用户嵌入向量得到多个用户输入向量；基于多个用户输入向量，得到与多个目标对应的多个用户表示向量；

将数据侧特征输入多个第二向量转换模型，通过多个第二向量转换模型确定与多个目标对应的多个数据表示向量，包括：将数据侧特征输入多个第二向量转换模型中，基于多个第二向量转换模型得到多个数据嵌入向量，基于多个数据嵌入向量得到多个数据输入向量；基于多个数据输入向量，得到与多个目标对应的多个数据表示向量。

在一种可能的实现方式中，基于多个相似度确定全局相似度，包括：

确定多个相似度中的各个相似度对应的预测目标值；

基于多个目标的权重与多个相似度对应的预测目标值确定全局相似度。

在一种可能的实现方式中，确定多个相似度中的各个相似度对应的预测目标值，包括：将多个相似度分别代入

得到多个相似度对应的预测目标值，x为相似度，σ(x)为相似度对应的预测目标值。

在一种可能的实现方式中，基于多个目标的权重与多个相似度对应的预测目标值确定全局相似度，包括：基于多个目标的权重与多个预测目标值，按照公式(p₁+a₁)·(p₂+a₂)·...·(p_i+a_i)确定全局相似度，p_i为第i个相似度对应的预测目标值，a_i为第i个目标的权重。

在一种可能的实现方式中，基于多个目标的权重与多个相似度对应的预测目标值确定全局相似度，还包括：基于多个目标的权重与多个预测目标值，按照公式b₁(p₁+c₁)+b₂(p₂+c₂)+…+b_i(p_i+c_i)确定全局相似度，p_i为第i个相似度对应的预测目标值，b_i与c_i为第i个目标的权重。

另一方面，提供了一种数据召回的装置，装置包括：

获取模块，用于获取用户侧特征以及待召回的数据的数据侧特征；

第一确定模块，用于基于用户侧特征确定与多个目标对应的多个用户表示向量；基于数据侧特征确定与多个目标对应的多个数据表示向量，一个用户表示向量和一个数据表示向量对应一个目标；

第二确定模块，用于基于多个用户表示向量与多个数据表示向量确定多个相似度，一个目标下的用户表示向量与数据表示向量确定出一个相似度，每个相似度用于指示数据在对应目标下被召回的可能性；

第三确定模块，用于基于多个相似度确定全局相似度，全局相似度用于指示数据在多个目标下被召回的可能性；

第四确定模块，用于基于数据的全局相似度确定数据的召回结果。

在一种可能的实施方式中，第一确定模块，包括：

第一确定单元，用于将用户侧特征输入多个第一向量转换模型，通过多个第一向量转换模型确定与多个目标对应的多个用户表示向量，任一第一向量转换模型确定出的用户表示向量与任一第一向量转换模型对应同一个目标；

第二确定单元，用于将数据侧特征输入多个第二向量转换模型，通过多个第二向量转换模型确定与多个目标对应的多个数据表示向量，任一第二向量转换模型确定出的数据表示向量与任一第二向量转换模型对应同一个目标。

在一种可能的实现方式中，第一确定单元，用于将用户侧特征输入多个第一向量转换模型中，基于多个第一向量转换模型得到多个用户嵌入向量，基于多个用户嵌入向量得到多个用户输入向量；基于多个用户输入向量，得到与多个目标对应的多个用户表示向量；

第二确定单元，用于将数据侧特征输入多个第二向量转换模型中，基于多个第二向量转换模型得到多个数据嵌入向量，基于多个数据嵌入向量得到多个数据输入向量；基于多个数据输入向量，得到与多个目标对应的多个数据表示向量。

在一种可能的实现方式中，第三确定模块，包括：

第三确定单元，用于确定多个相似度中的各个相似度对应的预测目标值；

第四确定单元，用于基于多个目标的权重与多个相似度对应的预测目标值确定全局相似度。

在一种可能的实现方式中，第三确定单元，用于将多个相似度分别代入

在一种可能的实现方式中，第四确定单元，用于基于多个目标的权重与多个预测目标值，按照公式(p₁+a₁)·(p₂+a₂)·...·(p_i+a_i)确定全局相似度，p_i为第i个相似度对应的预测目标值，a_i为第i个目标的权重。

在一种可能的实现方式中，第四确定单元，用于基于多个目标的权重与多个预测目标值，按照公式b₁(p₁+c₁)+b₂(p₂+c₂)+…+b_i(p_i+c_i)确定全局相似度，p_i为第i个相似度对应的预测目标值，b_i与c_i为第i个目标的权重。

另一方面，提供了一种计算机设备，计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行，以使计算机设备实现上述任一的数据召回方法。

另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行，以使计算机实现上述任一的数据召回方法。

另一方面，还提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取计算机指令，处理器执行计算机指令，使得计算机设备执行上述任一的数据召回方法。

本申请实施例提供的技术方案至少带来如下有益效果：

在本申请实施例中，基于用户侧特征确与数据侧特征，确定与多个目标对应的用户表示向量与数据表示向量。然后，基于多个用户表示向量与多个数据表示向量确定多个用于指示数据在对应目标下被召回的可能性的相似度，再综合多个相似度确定一个用于指示数据在多个目标下被召回的可能性的全局相似度，从而基于全局相似度召回数据，由于本申请考虑多个目标，因而所召回的数据比较全面和准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种数据召回方法流程图；

图3是本申请实施例提供的一种确定多个用户表示向量及多个数据表示向量的过程示意图；

图4是本申请实施例提供的一种确定全局相似度的过程示意图；

图5是本申请实施例提供的一种数据召回装置示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请实施例提供了一种数据召回方法，请参考图1，其示出了本申请实施例提供的方法实施环境的示意图。该实施环境可以包括：终端11和服务器12。

其中，终端11可应用本申请实施例提供的方法进行数据召回，可选地，对召回的数据进行推荐系统的后续操作并得到最终结果，然后将最终结果发送给服务器12。服务器12可以对最终结果进行存储。

或者，服务器12可应用本申请实施例提供的方法进行数据召回，可选地，对召回的数据进行推荐系统的后续操作并得到最终结果，然后将最终结果发送给终端11。终端11可以对最终结果进行存储。

或者，终端11可应用本申请实施例提供的方法进行数据召回，可选地，对召回的数据进行推荐系统的后续操作并得到最终结果，然后对最终结果进行存储。

或者，服务器12可应用本申请实施例提供的方法进行数据召回，可选地，对召回的数据进行推荐系统的后续操作并得到最终结果，然后对最终结果进行存储。

可选地，终端11可以是诸如手机、平板电脑、个人计算机等的智能设备。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

可选地，终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(PersonalComputer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、PPC(Pocket PC，掌上电脑)、平板电脑、智能车机、智能电视、智能音箱等。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供一种数据召回方法，以该方法应用于终端为例。如图2所示，本申请实施例提供的方法可以包括如下步骤：

步骤201，获取用户侧特征以及待召回的数据的数据侧特征。

本申请实施例不对待召回的数据类型与数量进行限定，也不对用户侧特征和数据侧特征的种类与数量进行限定。可选地，基于召回方法应用的具体场景以及对召回数据的用途来确定用户侧特征、待召回的数据以及待召回的数据的数据侧特征。例如，当召回方法应用于电子商务场景，从商品库中的大量候选商品中召回用户可能感兴趣的商品时，待召回数据为该商品库中的数据，用户侧特征可以分为包括用户基本信息的用户特征和包括地理位置、时间、天气等各种环境类特征的场景特征，数据侧特征可以分为包括商品品类、价格等的商品特征和包括商品评论，商家描述等内容的内容特征。

步骤202，基于用户侧特征确定与多个目标对应的多个用户表示向量；基于数据侧特征确定与多个目标对应的多个数据表示向量，一个用户表示向量和一个数据表示向量对应一个目标。

可选地，基于用户侧特征确定与多个目标对应的多个用户表示向量，包括：将用户侧特征输入多个第一向量转换模型，通过多个第一向量转换模型确定与多个目标对应的多个用户表示向量，任一第一向量转换模型确定出的用户表示向量与任一第一向量转换模型对应同一个目标；

例如，有两个第一向量转换模型与两个第二向量转换模型时，将用户侧特征输入第一向量转换模型A中，基于第一向量转换模型A得到用户嵌入向量A，基于用户嵌入向量A得到用户输入向量A，基于用户输入向量A，得到与目标A对应的用户表示向量A。

将用户侧特征输入第一向量转换模型B中，基于第一向量转换模型B得到用户嵌入向量B，基于用户嵌入向量B得到用户输入向量B，基于用户输入向量B，得到与目标B对应的用户表示向量B。

将数据侧特征输入第二向量转换模型A中，基于第二向量转换模型A得到数据嵌入向量A，基于数据嵌入向量A得到数据输入向量A，基于数据输入向量A，得到与目标A对应的数据表示向量A。

将数据侧特征输入第二向量转换模型B中，基于第二向量转换模型B得到数据嵌入向量B，基于数据嵌入向量B得到数据输入向量B，基于数据输入向量B，得到与目标B对应的数据表示向量B。

示例性地，用户侧特征与数据侧特征都可分为稠密特征与稀疏特征。可以首先对稠密特征进行独热编码使稠密特征转化为稀疏特征，再使稀疏特征通过一个映射嵌入层映射得到用户嵌入向量

其中K为向量的维度。该映射嵌入层主要定义了一个嵌入矩阵

其中矩阵E可以通过模型训练进行学习更新，D代表所有用户侧特征与数据侧特征的个数。其中，第i个特征的数据嵌入向量或用户嵌入向量就是这个嵌入矩阵E的第i列。

例如，当用户侧特征为“uid＝253，city＝SH，gender＝male，...”，数据侧特征为“iid＝149，price＝10，class＝cata，...”时，得到的用户嵌入向量为“e₂₅₃，e_sh，e_male，...”，数据嵌入向量为“e₁₄₉，e_p10，e_cate，...”，再由用户嵌入向量拼接得到用户输入向量z_u，并由数据嵌入向量拼接得到数据输入向量z_v：

z_u＝[e₂₅₃||e_sh||e_male||…]

z_v＝[e₁₄₉||e_p10||e_cate||…]

其中||表示向量拼接操作。

示例性地，可以将用户输入向量输入第一向量转换模型A与第一向量转换模型B的上层网络中，将数据输入向量输入第二向量转换模型A与第二向量转换模型B的上层网络中，上层网络可以选择由RELU(Rectified Linear Unit，修正线性单元)激活函数的全连接层堆叠而成的上层网络。接下来，再将全连接层的输出通过一个L2归一化层将用户输入向量与数据输入向量映射到(0，1)之间。之后，分别得到了用户表示向量A、用户表示向量B、数据表示向量A、数据表示向量B。

例如，以CTR(Click Through Rate，点击通过率)和CVR(Conversion Rate，转化率)为目标，则可以使第一向量转换模型A输出以CTR为目标的用户表示向量U_CTR，使第一向量转换模型B输出以CVR为目标的用户表示向量U_CVR。此外，可以使第二向量转换模型A输出以CTR为目标的数据表示向量V_CTR，使第二向量转换模型B输出以CVR为目标的数据表示向量V_CVR。

步骤203，基于多个用户表示向量与多个数据表示向量确定多个相似度，一个目标下的用户表示向量与数据表示向量确定出一个相似度，每个相似度用于指示该数据在对应目标下被召回的可能性。

例如，分别得到用户表示向量A、用户表示向量B、数据表示向量A、数据表示向量B时，可以通过计算用户表示向量A与数据表示向量A的余弦相似度作为第一相似度，通过用户表示向量B与数据表示向量B的余弦相似度作为第二相似度。

例如，用户表示向量A与数据表示向量A分别为以CTR为目标的U_CTR和V_CTR，用户表示向量B与数据表示向量B分别为以CVR为目标的U_CVR和V_CVR。则第一相似度x_CTR和第二相似度x_CVR为：

x_CTR＝<U_CTR，V_CTR>

x_CVR＝<U_CVR，V_CVR>

其中<·>表示向量点积操作。

在确定了多个相似度之后，可以通过多个相似度优化一致性双塔模型，一致性双塔模型包括所有第一向量转换模型、所有第二向量转换模型、基于多个用户表示向量与多个数据表示向量确定多个相似度的模型以及基于多个相似度确定全局相似度的模型。

示例性地，基于第一相似度与第二相似度优化一致性双塔模型。例如要以CTR和CVR为目标，则可令第一相似度为x_CTR，第二相似度为x_CVR。然后可以使用交叉熵损失函数来对这两个目标分别计算交叉熵损失：

其中T是训练数据集

中数据的总条数，σ(·)表示sigmoid(S型生长曲线)激活函数公式，y为数据的标签。

模型最终的损失函数可以由这两个损失加起来得到：

loss＝λ₁loss_CTR+λ₂loss_CVR

本实施例不对λ₁、λ₂进行限定，λ₁与λ₂两个参数可自行设定。

然后利用优化器和loss去训练优化一致性双塔模型的参数。优化器的选择包括但不限于SGD(mini-batch gradient descent，小批量梯度下降)。

在本申请实施例中，基于用户侧特征确定与多个目标对应的用户表示向量，得到多个用户表示向量；基于数据侧特征，确定与多个目标对应的数据表示向量，得到多个数据表示向量。然后，基于多个用户表示向量与多个数据表示向量就可以确定出多个相似度。本申请通过考虑多个相似度使所召回的数据比较全面和准确。

步骤204，基于多个相似度确定全局相似度，全局相似度用于指示该数据在多个目标下被召回的可能性。

可选地，基于多个相似度确定全局相似度，包括：确定多个相似度中的各个相似度对应的预测目标值；基于多个目标的权重与多个相似度对应的预测目标值确定全局相似度。

其中，基于多个目标的权重与多个相似度对应的预测目标值确定全局相似度，包括但不限于：基于多个目标的权重与多个预测目标值，按照公式(p₁+a₁)·(p₂+a₂)·...·(p_i+a_i)确定全局相似度，p_i为第i个相似度对应的预测目标值，a_i为第i个目标的权重。

例如，以CTR和CVR为目标，得到第一相似度为x_ctr，第二相似度为x_cvr，将第一相似度与第二相似度分别代入

得到pctr与pcvr，其中pctr为CTR的预测目标值，pcvr为CVR的预测目标值，设定0.16与0.035分别为CTR与CVR的权重。由此得到的公式为(pctr+0.16)·(pcvr+0.035)。确定全局相似度的推导过程如下：

然后为方便计算，可以把sigmoid公式在x＝0处泰勒二阶展开，sigmoid公式的泰勒二阶展开为：

又因为

在[-1，1]区间有上限值且值且值趋近于零。趋近于零是指：与零之间的差值小于阈值，本实施例不对阈值加以限定。可通过证明得出上限值落在区间[-0.018，+0.018]内。因此：

将x_CTR＝U_CTR·V_CTR和x_CVR＝U_CVR·V_CVR代入上式：

上式＝(0.66+0.25U_CTR·V_CTR)·(0.535+0.25U_CVR·V_CVR)

假设用户表示向量A、数据表示向量A、用户表示向量B与数据表示向量B的维度均为3维，则用户表示向量A表示为U_CTR＝[a₁，a₂，a₃]，数据表示向量A表示为V_CTR＝[b₁，b₂，b₃]，用户表示向量B表示为U_CVR＝[c₁，c₂，c₃]，数据表示向量B表示为V_CVR＝[d₁，d₂，d₃]。

上式＝(0.66+0.25(a₁b₁+a₂b₂+a₃b₃))·(0.535+0.25(c₁d₁+c₂d₂+c₃d₃))

由于本申请实施例数据不参考式中的具体数值，因此为方便计算可将上式乘以16再减去最后的常数，得到：

上式可以等价为下面两个矩阵对于元素乘积的和：

最后将上面两个三维矩阵拉伸为两个一维向量，第一个一维向量为用户表示向量A和用户表示向量B转换成的用户表示向量C，第二个一维向量为数据表示向量A与数据表示向量B转化成的数据表示向量C，因此，这两个一维向量的点积即为全局相似度。

可选地，基于多个目标的权重与多个相似度对应的预测目标值确定全局相似度，包括：基于多个目标的权重与多个预测目标值，按照公式b₁(p₁+c₁)+b₂(p₂+c₂)+…+b_i(p_i+c_i)确定全局相似度，p_i为第i个相似度对应的预测目标值，b_i与c_i为第i个目标的权重。

得到pctr与pcvr，其中pctr为CTR的预测目标值，pcvr为CVR的预测目标值，设定1.2与0.16为CTR的权重，0.8与0.035为CVR的权重，由此得到的公式为1.2(pctr+0.16)+0.8(pcvr+0.035)。确定全局相似度的推导过程如下：

假设用户表示向量A、数据表示向量A、用户表示向量B与数据表示向量B的维度均为3维：则用户表示向量A表示为U_CTR＝[a₁，a₂，a₃]，数据表示向量A表示为V_CTR＝[b₁，b₂，b₃]，用户表示向量B表示为U_CVR＝[c₁，c₂，c₃]，数据表示向量B表示为V_CVR＝[d₁，d₂，d₃]。

上式＝(0.792+0.3(a₁b₁+a₂b₂+a₃b₃))+(0.428+0.2(c₁d₁+c₂d₂+c₃d₃))

上式可以等价为下面两个向量的点积：

其中，[a₁，a₂，a₃，c₁，c₂，c₃]为用户表示向量A和用户表示向量B转换成的用户表示向量C，[3b₁，3b₂，3b₃，2d₁，2d₂，2d₃]为数据表示向量A与数据表示向量B转化成的数据表示向量C，因此，这两个向量的点积即为全局相似度。

在本申请实施例中，基于多个相似度确定全局相似度，全局相似度用于指示该数据在多个目标下被召回的可能性。

由于数据召回方法最终只能通过一组用户表示向量与数据表示向量确定的一个相似度来确定召回数据的结果，因此本申请实施例基于多个相似度确定全局相似度，最后就可以通过全局相似度来确定召回数据的结果。

步骤205，基于该数据的全局相似度确定该数据的召回结果。

示例性地，以余弦相似度来表示全局相似度时，全局相似度越接近1则证明该待召回数据的数据侧特征与用户侧特征相似程度越高，相似程度越高则越可能被召回。

例如在电子商务场景下，从商品库中的大量候选商品中召回用户可能感兴趣的商品时，每个商品作为一个待召回数据都有其数据侧特征，因此针对一个用户的用户侧特征需要分别与多个数据侧特征确定多个全局相似度，全局相似度最接近1的多个待召回数据被最终召回，召回的待召回数据的个数不进行限定，可根据实际情况或者经验设置。

在本申请实施例中，基于用户侧特征确定与多个目标对应的用户表示向量，得到多个用户表示向量；基于数据侧特征，确定与多个目标对应的数据表示向量，得到多个数据表示向量。然后，基于多个用户表示向量与多个数据表示向量确定多个相似度，一个目标下的用户表示向量与数据表示向量确定出一个相似度，每个相似度用于指示该数据在对应目标下被召回的可能性。

通过上述步骤得到分别与多个目标对应的用户表示向量与数据表示向量，并由此计算确定多个相似度。本申请考虑多个目标，因而所召回的数据能够比较全面和准确。

在本申请实施例中，基于多个相似度确定全局相似度，全局相似度用于指示该数据在多个目标下被召回的可能性。相较于通过一组用户表示向量与数据表示向量确定的一个相似度来确定召回数据的结果，本申请实施例基于多个相似度确定全局相似度，最后通过全局相似度来确定该数据的召回结果，召回结果的准确性更高。

以如图3所示的过程为例，本申请实施例的一种确定多个用户表示向量及多个数据表示向量的过程示意图包括但不限于基于用户侧特征确定与目标A、目标B对应的用户表示向量A、用户表示向量B；基于数据侧特征确定与目标A、目标B对应的数据表示向量A、数据表示向量B。

将用户侧特征分别输入第一向量转换模型A与第一向量转换模型B并分别确定目标A与目标B对应的用户表示向量A与用户表示向量B；将数据侧特征分别输入第二向量转换模型A与第二向量转换模型B并分别确定目标A与目标B对应的数据表示向量A与数据表示向量B。该步骤的实现方式可参见上述步骤202，此处不再赘述。

以如图4所示的过程为例，本申请实施例的一种确定全局相似度的过程包括：基于用户表示向量A、用户表示向量B、数据表示向量A、数据表示向量B确定两个相似度，并基于多个相似度确定全局相似度。

基于用户表示向量A与数据表示向量A确定第一相似度，基于用户表示向量B与数据表示向量B确定第二相似度。该步骤的实现方式可参见上述步骤203，此处不再赘述。

然后，分别基于第一相似度与第二相似度确定预测目标值，再将两个预测目标值代入公式(p₁+a₁)·(p₂+a₂)或公式b₁(p₁+c₁)+b₂(p₂+c₂)中，经过推导可得出由用户表示向量A与用户表示向量B转化成的用户表示向量C，以及由数据表示向量A与数据表示向量B转化成的数据表示向量C，最后基于用户表示向量C与数据表示向量C确定全局相似度。上述公式中的p₁与p₂为两个预测目标值，a₁、b₁、c₁为第一相似度对应的目标A的权重，a₂、b₂、c₂为第二相似度对应的目标B的权重。上述步骤的实现方式可参见上述步骤204，此处不再赘述。

本申请实施例提供的数据召回方法应用效果如下表所示，下表1为应用本申请实施例5天的平均效果统计数据。

表1

在应用本申请实施例提供的数据召回方法后，业务单元年新客支付页面访问量增长约1.14％，置信区间为0.77％；每万订单数增长约0.65％，置信区间为0.38％；推荐点击率增长约0.03％，置信区间为0.40％；曝光用户人均点击增长约0.32％，置信区间为0.25％。

参见图5，本申请实施例提供了一种数据召回的装置，该装置包括：

获取模块301，用于获取用户侧特征以及待召回的数据的数据侧特征；

第一确定模块302，用于基于用户侧特征确定与多个目标对应的多个用户表示向量；基于数据侧特征确定与多个目标对应的多个数据表示向量，一个用户表示向量和一个数据表示向量对应一个目标；

第二确定模块303，用于基于多个用户表示向量与多个数据表示向量确定多个相似度，一个目标下的用户表示向量与数据表示向量确定出一个相似度，每个相似度用于指示数据在对应目标下被召回的可能性；

第三确定模块304，用于基于多个相似度确定全局相似度，全局相似度用于指示数据在多个目标下被召回的可能性；

第四确定模块305，用于基于数据的全局相似度确定数据的召回结果。

可选地，第一确定模块302，包括：

可选地，第一确定单元，用于将用户侧特征输入多个第一向量转换模型中，基于多个第一向量转换模型得到多个用户嵌入向量，基于多个用户嵌入向量得到多个用户输入向量；基于多个用户输入向量，得到与多个目标对应的多个用户表示向量；

可选地，第三确定模块304，包括：

可选地，第三确定单元，用于将多个相似度分别代入

可选地，第四确定单元，用于基于多个目标的权重与多个预测目标值，按照公式(p₁+a₁)·(p₂+a₂)·...·(p_i+a_i)确定全局相似度，p_i为第i个相似度对应的预测目标值，a_i为第i个目标的权重。

可选地，第四确定单元，用于基于多个目标的权重与多个预测目标值，按照公式b₁(p₁+c₁)+b₂(p₂+c₂)+…+b_i(p_i+c_i)确定全局相似度，p_i为第i个相似度对应的预测目标值，b_i与c_i为第i个目标的权重。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是本申请实施例提供的一种计算机设备的结构示意图，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)401和一个或多个存储器402，其中，该一个或多个存储器402中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器401加载并执行，以使该服务器实现上述各个方法实施例提供的数据召回方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

图7是本申请实施例提供的一种计算机设备结构示意图。该设备可以为终端，例如可以是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行，以使该终端实现本申请中方法实施例提供的数据召回方法。

在一些实施例中，终端还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置在终端的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端的不同表面或呈折叠设计；在另一些实施例中，显示屏505可以是柔性显示屏，设置在终端的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端的当前地理位置，以实现导航或LBS(Location BasedService，基于位置的服务)。定位组件508可以是基于美国的GPS(Global PositioningSystem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为终端中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端的侧边框和/或显示屏505的下层。当压力传感器513设置在终端的侧边框时，可以检测用户对终端的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置在终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo(商标)时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端的前面板。接近传感器516用于采集用户与终端的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行，以使该计算机设备实现上述任一种数据召回的方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由计算机设备的处理器加载并执行，以使计算机实现上述任一种数据召回的方法。

在一种可能实现方式中，上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种数据召回方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据召回方法，其特征在于，所述方法包括：

获取用户侧特征以及待召回的数据的数据侧特征；

基于所述用户侧特征确定与多个目标对应的多个用户表示向量；基于所述数据侧特征确定与所述多个目标对应的多个数据表示向量，一个用户表示向量和一个数据表示向量对应一个目标；

基于所述多个用户表示向量与所述多个数据表示向量确定多个相似度，一个目标下的用户表示向量与数据表示向量确定出一个相似度，每个相似度用于指示所述数据在对应目标下被召回的可能性；

基于所述多个相似度确定全局相似度，所述全局相似度用于指示所述数据在所述多个目标下被召回的可能性；

基于所述数据的全局相似度确定所述数据的召回结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述用户侧特征确定与多个目标对应的多个用户表示向量，包括：将所述用户侧特征输入多个第一向量转换模型，通过所述多个第一向量转换模型确定与所述多个目标对应的多个用户表示向量，任一第一向量转换模型确定出的用户表示向量与所述任一第一向量转换模型对应同一个目标；

所述基于所述数据侧特征确定与所述多个目标对应的多个数据表示向量，包括：将所述数据侧特征输入多个第二向量转换模型，通过所述多个第二向量转换模型确定与所述多个目标对应的多个数据表示向量，任一第二向量转换模型确定出的数据表示向量与所述任一第二向量转换模型对应同一个目标。

3.根据权利要求2所述的方法，其特征在于，所述将所述用户侧特征输入多个第一向量转换模型，通过所述多个第一向量转换模型确定与所述多个目标对应的多个用户表示向量，包括：将所述用户侧特征输入多个第一向量转换模型中，基于所述多个第一向量转换模型得到多个用户嵌入向量，基于所述多个用户嵌入向量得到多个用户输入向量；基于所述多个用户输入向量，得到与所述多个目标对应的多个用户表示向量；

所述将所述数据侧特征输入多个第二向量转换模型，通过所述多个第二向量转换模型确定与所述多个目标对应的多个数据表示向量，包括：将所述数据侧特征输入多个第二向量转换模型中，基于所述多个第二向量转换模型得到多个数据嵌入向量，基于所述多个数据嵌入向量得到多个数据输入向量；基于所述多个数据输入向量，得到与所述多个目标对应的多个数据表示向量。

4.根据权利要求1所述的方法，其特征在于，所述基于所述多个相似度确定全局相似度，包括：

确定所述多个相似度中的各个相似度对应的预测目标值；

基于所述多个目标的权重与所述多个相似度对应的预测目标值确定所述全局相似度。

5.根据权利要求4所述的方法，其特征在于，所述确定所述多个相似度中的各个相似度对应的预测目标值，包括：

将所述多个相似度分别代入

得到所述多个相似度对应的预测目标值，所述x为相似度，所述σ(x)为所述相似度对应的预测目标值。

6.根据权利要求4所述的方法，其特征在于，所述基于所述多个目标的权重与所述多个相似度对应的预测目标值确定所述全局相似度，包括：

基于所述多个目标的权重与所述多个预测目标值，按照公式(p₁+a₁)·(p₂+a₂)·…·(p_i+a_i)确定所述全局相似度，所述p_i为第i个相似度对应的预测目标值，所述a_i为第i个目标的权重。

7.根据权利要求4所述的方法，其特征在于，所述基于所述多个目标的权重与所述多个相似度对应的预测目标值确定所述全局相似度，包括：

基于所述多个目标的权重与所述多个预测目标值，按照公式b₁(p₁+c₁)+b₂(p₂+c₂)+…+b_i(p_i+c_i)确定全局相似度，所述p_i为第i个相似度对应的预测目标值，所述b_i与所述c_i为第i个目标的权重。

8.一种数据召回装置，其特征在于，所述装置包括：

第一确定模块，用于基于所述用户侧特征确定与多个目标对应的多个用户表示向量；基于所述数据侧特征确定与所述多个目标对应的多个数据表示向量，一个用户表示向量和一个数据表示向量对应一个目标；

第二确定模块，用于基于所述多个用户表示向量与所述多个数据表示向量确定多个相似度，一个目标下的用户表示向量与数据表示向量确定出一个相似度，每个相似度用于指示所述数据在对应目标下被召回的可能性；

第三确定模块，用于基于所述多个相似度确定全局相似度，所述全局相似度用于指示所述数据在所述多个目标下被召回的可能性；

第四确定模块，用于基于所述数据的全局相似度确定所述数据的召回结果。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述计算机设备实现如权利要求1至7任一所述的数据召回方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现如权利要求1至7任一所述的数据召回方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至7任一所述的数据召回方法。