CN113919923B

CN113919923B - 直播推荐模型训练方法、直播推荐方法及相关设备

Info

Publication number: CN113919923B
Application number: CN202111529874.2A
Authority: CN
Inventors: 黄兆楷
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-05-06
Anticipated expiration: 2041-12-15
Also published as: CN113919923A

Abstract

本公开关于直播推荐模型训练方法、直播推荐方法及相关设备，该直播推荐模型训练方法包括：响应于样本终端的直播推荐请求，获取待在所述样本终端上展示的样本直播对应的特征信息、以及获取基于展示所述样本直播得到的交互信息；将所述样本直播对应的特征信息、所述交互信息进行拼接处理，得到目标样本；基于所述目标样本对预设神经网络模型进行训练，并根据训练结束时的神经网络模型得到直播推荐模型；所述直播推荐模型用于在直播推荐中，确定目标终端与候选直播之间存在交互的概率。本公开避免了样本选择偏差和训练数据稀疏问题导致的在直播实时推荐场景下推荐直播准确性差的问题。

Description

直播推荐模型训练方法、直播推荐方法及相关设备

技术领域

本公开涉及互联网技术领域，尤其涉及一种直播推荐模型训练方法、直播推荐方法及相关设备。

背景技术

随着电商直播行业的快速发展，通过直播进行商品等推荐对象的推荐已成为一种流行的信息传递方式。

相关技术中，分别训练CTR（Click-Through-Rate，点击率）模型和CVR（ConversionRate，转化率）模型，然后使用训练好的CTR模型和CVR模型来进行直播的推荐。其中，CTR模型基于直播的展示行为数据训练，其预测用户对展示直播的点击概率；CVR模型基于用户对展示直播的点击行为数据训练，其预测用户从点击直播到转化的概率。然而，由于相关技术中训练时存在明显的样本选择偏差问题和训练数据稀疏问题，导致目前在直播实时推荐场景下推荐直播的准确性差。

发明内容

本公开提供一种直播推荐模型训练方法、直播推荐方法及相关设备，以至少解决相关技术中在直播实时推荐场景下推荐直播的准确性差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种直播推荐模型训练方法，包括：

响应于样本终端的直播推荐请求，获取待在所述样本终端上展示的样本直播对应的特征信息、以及获取基于展示所述样本直播得到的交互信息；

将所述样本直播对应的特征信息、所述交互信息进行拼接处理，得到目标样本；

基于所述目标样本对预设神经网络模型进行训练，并根据训练结束时的神经网络模型得到直播推荐模型；所述直播推荐模型用于在直播推荐中，确定目标终端与候选直播之间存在交互的概率。

在一个示例性的实施方式中，所述交互信息包括第一交互信息和第二交互信息，所述第二交互信息对应的第二交互发生在所述第一交互信息对应的第一交互之后；

所述基于所述目标样本对预设神经网络模型进行训练，并根据训练结束时的神经网络模型得到直播推荐模型包括：

基于所述目标样本对预设神经网络模型进行多任务训练，并根据所述多任务训练结束时的神经网络模型得到直播推荐模型；

其中，所述多任务训练包括预估第一交互概率的任务训练和预估第二交互概率的任务训练；所述直播推荐模型用于在直播推荐中，确定目标终端与候选直播之间存在所述第二交互的概率。

在一个示例性的实施方式中，所述将所述样本直播对应的特征信息、所述交互信息进行拼接处理，得到目标样本，包括：

将所述样本直播对应的特征信息与所述第一交互信息进行拼接，得到中间样本；

将所述中间样本与所述第二交互信息进行拼接，得到所述目标样本。

在一个示例性的实施方式中，所述第一交互信息包括在所述第一交互发生后的第一预设时间段内的交互信息；

所述第二交互信息包括在所述第二交互发生后的第二预设时间段内的交互信息；其中，所述第二预设时间段大于所述第一预设时间段。

在一个示例性的实施方式中，所述基于所述目标样本对预设神经网络模型进行多任务训练，并根据所述多任务训练结束时的神经网络模型得到直播推荐模型，包括：

将所述目标样本输入预设神经网络模型，通过所述预设神经网络模型的嵌入向量空间确定所述目标样本中样本直播对应的特征信息的嵌入向量；

将所述嵌入向量分别输入至所述预设神经网络模型的第一交互预估模块和第二交互预估模块，得到所述第一交互预估模块输出的第一交互概率和所述第二交互预估模块输出的第二交互概率；

根据所述第一交互概率和所述目标样本中的第一交互信息确定第一损失值；

根据所述第一交互概率、所述第二交互概率和所述目标样本中的第二交互信息确定第二损失值；

根据所述第一损失值和第二损失值调整所述预设神经网络模型的模型参数，并根据调整后的模型参数进行迭代训练直至满足预设训练结束条件结束训练；

根据训练结束时的所述第二交互预估模块，得到所述直播推荐模型。

在一个示例性的实施方式中，所述第二交互包括针对所述样本直播中推荐对象信息集合的第一子交互、针对所述推荐对象信息集合中推荐对象信息的第二子交互以及针对所述推荐对象信息对应推荐对象的第三子交互。

在一个示例性的实施方式中，所述将所述嵌入向量输入至所述预设神经网络模型的第二交互预估模块，得到所述第二交互预估模块输出的第二交互概率包括：

将所述嵌入向量输入至所述第二交互预估模块的第一子预估模块，得到所述第一子预估模块输出的第一预估概率；所述第一预估概率表征在发生所述第一交互的前提下，发生所述第一子交互的概率；

将所述嵌入向量输入至所述第二交互预估模块的第二子预估模块，得到所述第二子预估模块输出的第二预估概率；所述第二预估概率表征在发生所述第一交互且发生所述第一子交互的前提下，发生所述第二子交互的概率；

将所述嵌入向量输入至所述第二交互预估模块的第三子预估模块，得到所述第三子预估模块输出的第三预估概率；所述第三预估概率表征在发生所述第一交互、所述第一子交互且发生所述第二子交互的前提下，发生所述第三子交互的概率；

所述根据训练结束时的所述第二交互预估模块，得到所述直播推荐模型包括：

根据训练结束时的所述第三子预估模块，得到所述直播推荐模型。

在一个示例性的实施方式中，所述根据所述第一交互概率、所述第二交互概率和所述目标样本中的第二交互信息确定第二损失值，包括：

确定所述第一交互发生概率与所述第一预估概率的第一乘积，并根据所述第一乘积和第一子交互信息确定第一子损失值；所述第一子交互信息是所述第二交互信息中与所述第一子交互对应的交互信息；

确定所述第一交互概率、所述第一预估概率和所述第二预估概率的第二乘积，并根据所述第二乘积和第二子交互信息确定第二子损失值；所述第二子交互信息是所述第二交互信息中与第二子交互对应的交互信息；

确定所述第一交互概率、所述第一预估概率、所述第二预估概率和所述第三预估概率的第三乘积，并根据所述第三乘积和第三子交互信息确定第三子损失值；所述第三子交互信息是所述第二交互信息中与所述第三子交互对应的交互信息；

确定所述第一子损失值、所述第二子损失值和所述第三子损失值的和值，所述和值作为所述第二损失值。

在一个示例性的实施方式中，所述目标样本中样本直播对应的特征信息包括对应所述第一交互预估模块的第一特征和对应所述第二交互预估模块的第二特征；

所述将所述目标样本输入预设神经网络模型，通过所述预设神经网络模型的嵌入向量空间确定所述目标样本中样本直播对应的特征信息的嵌入向量包括：

将所述第一特征和第二特征输入预设神经网络模型，通过所述预设神经网络模型的第一嵌入向量空间确定所述第一特征对应的第一嵌入向量；所述第一嵌入向量用于作为所述第一交互预估模块的输入；

通过所述预设神经网络模型的第二嵌入向量空间确定所述第二特征对应的第二嵌入向量；所述第二嵌入向量用于作为所述第二交互预估模块的输入；

相应的，所述根据所述第一损失值和第二损失值调整所述预设神经网络模型的模型参数包括：

根据所述第一损失值调整所述第一嵌入向量空间中的模型参数；

根据所述第二损失值调整所述第二嵌入向量空间中的模型参数；

根据所述第一损失值和所述第二损失值的和值调整所述第一交互预估模块和所述第二交互预估模块中的模型参数。

在一个示例性的实施方式中，所述方法还包括：

获取第一交互概率预估模型和第二交互概率预估模型；所述第一交互概率预估模型和所述第二交互概率预估模型是根据目标样本集合中用于模型训练的训练集合训练得到的，所述目标样本集合被划分为所述训练集合和测试集合；

基于所述测试集合中的目标样本，分别确定所述第一交互概率预估模型对应目标模型评估指标的第一指标值和所述第二交互概率预估模型对应所述目标模型评估指标的第二指标值；

针对所述特征信息中的每个特征，根据所述测试集合中第一目标样本在所述特征处的值改变所述测试集合中第二目标样本在所述特征处的值，得到所述特征对应的改变后的测试集合；所述第二目标样本是所述测试集合中的任一目标样本，所述第一目标样本是所述测试集合中除所述第二目标样本之外的目标样本；

根据所述特征对应的改变后的测试集合，分别确定所述第一交互概率预估模型对应所述目标模型评估指标的第三指标值和所述第二交互概率预估模型对应所述目标模型评估指标的第四指标值；

根据所述第一指标值、所述第二指标值、所述第三指标值和所述第四指标值，确定所述特征为所述第一特征或者所述第二特征。

在一个示例性的实施方式中，所述根据所述第一指标值、所述第二指标值、所述第三指标值和所述第四指标值，确定所述特征为所述第一特征或者所述第二特征，包括：

根据所述第一指标值和所述第三指标值，确定第一指标变化幅度；

根据所述的第二指标值和所述第四指标值，确定第二指标变化幅度；

若所述第一指标变化幅度大于所述第二指标变化幅度，则确定所述特征为所述第一特征；

若所述第一指标变化幅度小于所述第二指标变化幅度，则确定所述特征为所述第二特征。

根据本公开实施例的第二方面，提供一种直播推荐方法，包括：

响应于目标终端的直播推荐请求，确定候选直播；

将所述目标终端的终端特征和所述候选直播的直播特征输入直播推荐模型，得到所述直播推荐模型输出的所述候选直播对应的交互概率；所述交互概率表征所述目标终端与所述候选直播之间存在交互的概率；

根据各所述候选直播对应的交互概率，确定所述候选直播中的目标候选直播；

向所述目标终端推荐所述目标候选直播；

其中，所述直播推荐模型是根据上述第一方面提供的直播推荐模型训练方法训练得到的。

根据本公开实施例的第三方面，提供一种直播推荐模型训练装置，包括：

信息获取单元，被配置为执行响应于样本终端的直播推荐请求，获取待在所述样本终端上展示的样本直播对应的特征信息、以及获取基于展示所述样本直播得到的交互信息；

拼接单元，被配置为执行将所述样本直播对应的特征信息、所述交互信息进行拼接处理，得到目标样本；

训练单元，被配置为执行基于所述目标样本对预设神经网络模型进行训练，并根据训练结束时的神经网络模型得到直播推荐模型；所述直播推荐模型用于在直播推荐中，确定目标终端与候选直播之间存在交互的概率。

所述训练单元，具体被配置为执行基于所述目标样本对预设神经网络模型进行多任务训练，并根据所述多任务训练结束时的神经网络模型得到直播推荐模型；

在一个示例性的实施方式中，所述拼接单元包括：

第一拼接单元，被配置为执行将所述样本直播对应的特征信息与所述第一交互信息进行拼接，得到中间样本；

第二拼接单元，被配置为执行将所述中间样本与所述第二交互信息进行拼接，得到所述目标样本。

在一个示例性的实施方式中，所述训练单元包括：

特征表示单元，被配置为执行将所述目标样本输入预设神经网络模型，通过所述预设神经网络模型的嵌入向量空间确定所述目标样本中样本直播对应的特征信息的嵌入向量；

预估单元，被配置为执行将所述嵌入向量分别输入至所述预设神经网络模型的第一交互预估模块和第二交互预估模块，得到所述第一交互预估模块输出的第一交互概率和所述第二交互预估模块输出的第二交互概率；

第一损失值确定单元，被配置为执行根据所述第一交互概率和所述目标样本中的第一交互信息确定第一损失值；

第二损失值确定单元，被配置为执行根据所述第一交互概率、所述第二交互概率和所述目标样本中的第二交互信息确定第二损失值；

参数调整单元，被配置为执行根据所述第一损失值和第二损失值调整所述预设神经网络模型的模型参数，并根据调整后的模型参数进行迭代训练直至满足预设训练结束条件结束训练；

直播推荐模型确定单元，被配置为执行根据训练结束时的所述第二交互预估模块，得到所述直播推荐模型。

在一个示例性的实施方式中，所述预估单元包括：

第一预估转化率确定单元，被配置为执行将所述嵌入向量输入至所述第二交互预估模块的第一子预估模块，得到所述第一子预估模块输出的第一预估概率；所述第一预估概率表征在发生所述第一交互的前提下，发生所述第一子交互的概率；

第二预估转化率确定单元，被配置为执行将所述嵌入向量输入至所述第二交互预估模块的第二子预估模块，得到所述第二子预估模块输出的第二预估概率；所述第二预估概率表征在发生所述第一交互且发生所述第一子交互的前提下，发生所述第二子交互的概率；

第三预估转化率确定单元，被配置为执行将所述嵌入向量输入至所述第二交互预估模块的第三子预估模块，得到所述第三子预估模块输出的第三预估概率；所述第三预估概率表征在发生所述第一交互、所述第一子交互且发生所述第二子交互的前提下，发生所述第三子交互的概率；

所述直播推荐模型确定单元，具体被配置为执行根据训练结束时的所述第三子预估模块，得到所述直播推荐模型。

在一个示例性的实施方式中，所述第二损失值确定单元包括：

第一子损失值确定单元，被配置为执行确定所述第一交互概率与所述第一预估概率的第一乘积，并根据所述第一乘积和第一子交互信息确定第一子损失值；所述第一子交互信息是所述第二交互信息中与所述第一子交互对应的交互信息；

第二子损失值确定单元，被配置为执行确定所述第一交互概率、所述第一预估概率和所述第二预估概率的第二乘积，并根据所述第二乘积和第二子交互信息确定第二子损失值；所述第二子交互信息是所述第二交互信息中与第二子交互对应的交互信息；

第三子损失值确定单元，被配置为执行确定所述第一交互概率、所述第一预估概率、所述第二预估概率和所述第三预估概率的第三乘积，并根据所述第三乘积和第三子交互信息确定第三子损失值；所述第三子交互信息是所述第二交互信息中与所述第三子交互对应的交互信息；

第二损失值确定子单元，被配置为执行确定所述第一子损失值、所述第二子损失值和所述第三子损失值的和值，所述和值作为所述第二损失值。

在一个示例性的实施方式中，所述目标样本中样本直播对应的特征信息包括对应所述第一交互预估模块的第一特征和对应所述第二交互预估模块的第二特征；所述特征表示单元包括：

第一特征表示单元，被配置为执行将所述第一特征和第二特征输入预设神经网络模型，通过所述预设神经网络模型的第一嵌入向量空间确定所述第一特征对应的第一嵌入向量；所述第一嵌入向量用于作为所述第一交互预估模块的输入；

第二特征表示单元，被配置为执行通过所述预设神经网络模型的第二嵌入向量空间确定所述第二特征对应的第二嵌入向量；所述第二嵌入向量用于作为所述第二交互预估模块的输入；

所述参数调整单元包括：

第一参数调整单元，被配置为执行根据所述第一损失值调整所述第一嵌入向量空间中的模型参数；

第二参数调整单元，被配置为执行根据所述第二损失值调整所述第二嵌入向量空间中的模型参数；

第三参数调整单元，被配置为执行根据所述第一损失值和所述第二损失值的和值调整所述第一交互预估模块和所述第二交互预估模块中的模型参数。

在一个示例性的实施方式中，所述装置还包括：

模型获取单元，被配置为执行获取第一交互概率预估模型和第二交互概率预估模型；所述第一交互概率预估模型和所述第二交互概率预估模型是根据目标样本集合中用于模型训练的训练集合训练得到的，所述目标样本集合被划分为所述训练集合和测试集合；

模型训练单元，被配置为执行基于所述测试集合中的目标样本，分别确定所述第一交互概率预估模型对应目标模型评估指标的第一指标值和所述第二交互概率预估模型对应所述目标模型评估指标的第二指标值；

第一模型评估指标值确定单元，被配置为执行基于所述测试集合中的目标样本，分别确定所述第一交互概率预估模型对应目标模型评估指标的第一指标值和所述第二交互概率预估模型对应所述目标模型评估指标的第二指标值；

特征值洗牌单元，被配置为执行针对所述特征信息中的每个特征，根据所述测试集合中第一目标样本在所述特征处的值改变所述测试集合中第二目标样本在所述特征处的值，得到所述特征对应的改变后的测试集合；所述第二目标样本是所述测试集合中的任一目标样本，所述第一目标样本是所述测试集合中除所述第二目标样本之外的目标样本；

第二模型评估指标值确定单元，被配置为执行根据所述特征对应的改变后的测试集合，分别确定所述第一交互概率预估模型对应所述目标模型评估指标的第三指标值和所述第二交互概率预估模型对应目标模型评估指标的第四指标值；

特征确定单元，被配置为执行根据所述第一指标值、所述第二指标值、所述第三指标值和所述第四指标值，确定所述特征为所述第一特征或者所述第二特征。

在一个示例性的实施方式中，所述特征确定单元包括：

指标变化幅度确定单元，被配置为执行根据所述第一指标值和所述第三指标值确定第一指标变化幅度，以及根据所述的第二指标值和所述第四指标值确定第二指标变化幅度；

差异特征确定单元，被配置为执行若所述第一指标变化幅度大于所述第二指标变化幅度，则确定所述特征为所述第一特征；若所述第一指标变化幅度小于所述第二指标变化幅度，则确定所述特征为所述第二特征。

根据本公开实施例的第四方面，提供一种直播推荐装置，包括：

候选直播确定单元，被配置为执行响应于目标终端的直播推荐请求，确定候选直播；

交互概率确定单元，被配置为执行将所述目标终端的终端特征和所述候选直播的直播特征输入直播推荐模型，得到所述直播推荐模型输出的所述候选直播对应的交互概率；所述交互概率表征所述目标终端与所述候选直播之间存在交互的概率；

目标候选直播确定单元，被配置为执行根据各所述候选直播对应的交互概率，确定所述候选直播中的目标候选直播；

推荐单元，被配置为执行向所述目标终端推荐所述目标候选直播；

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面的直播推荐模型训练方法或者上述第二方面的直播推荐方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面的直播推荐模型训练方法或者上述第二方面的直播推荐方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述第一方面的直播推荐模型训练方法或者上述第二方面的直播推荐方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过响应于样本终端的直播推荐请求获取待在该样本终端上展示的样本直播对应的特征信息以及获取基于展示样本直播得到的交互信息，进而将样本直播对应的特征信息、交互信息进行拼接处理得到目标样本，并基于目标样本对预设神经网络模型进行训练，根据训练结束时的神经网络模型得到直播推荐模型，该直播推荐模型可以用于在直播推荐中，确定目标终端与候选直播之间存在交互的概率，从而实时的将样本直播的特征信息与交互信息相融合，避免了样本选择偏差和训练数据稀疏问题导致的在直播实时推荐场景下推荐直播准确性差的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图；

图2是根据一示例性实施例示出的一种直播推荐模型训练方法的流程图；

图3是根据一示例性实施例示出的基于目标样本进行多任务训练的示意图；

图4是根据一示例性实施例示出的离线确定差异化特征的流程图；

图5是根据一示例性实施例示出的另一种基于目标样本进行多任务训练的示意图；

图6是根据一示例性实施例示出的一种直播推荐方法的流程图；

图7是根据一示例性实施例示出的一种直播推荐模型训练装置的框图；

图8是根据一示例性实施例示出的一种直播推荐装置的框图；

图9是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，其所示为根据一示例性实施例示出的一种应用环境的示意图，该应用环境可以包括终端110和服务器120，该终端110和服务器120之间可以通过有线网络或者无线网络连接。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端110中可以安装有提供网络直播功能的客户端软件如应用程序（Application，简称为App），该应用程序可以是独立的应用程序，也可以是应用程序中的子程序。示例性的，该应用程序可以包括直播应用程序、短视频应用程序等。终端110的用户可以通过预先注册的用户信息登录应用程序，该用户信息可以包括账号和密码。

服务器120可以是为终端110中的应用程序提供后台服务的服务器，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个应用场景中，服务器120可以是直播系统中用于提供直播推荐服务的服务器，在进行直播推荐时服务器120可以响应于目标终端的直推荐请求调用直播推荐模型来预测候选直播对应的交互概率，该交互概率表征该目标终端与候选直播之间存在交互的概率，例如目标终端对候选直播中推荐对象的购买概率，进而基于该交互概率从候选直播中选取目标候选直播，并将目标候选直播推荐给该目标终端，以在该目标终端上进行展示。其中，直播推荐模型可以采用本公开实施例的直播推荐模型训练方法训练得到。

需要说明的是，本公开实施例中的推荐对象包括直播带货场景下由主播推荐的服饰、食品等可以实现购买的商品。实际应用中，直播通常对应有推荐对象集合，该推荐对象集合包括在该直播中进行推荐的推荐对象，每个推荐对象对应有相应的链接，通过链接的跳转可以进入该推荐对象的详情页，通常该详情页包括购买入口，通过该购买入口可以实现对相应推荐对象的购买。

下面对本公开实施例提供的直播推荐模型的训练过程进行详细介绍。

图2是根据一示例性实施例示出的一种直播推荐模型训练方法的流程图，如图2所示，以直播推荐模型训练方法应用于图1的服务器为例，包括以下步骤。

在步骤S201中，响应于样本终端的直播推荐请求，获取待在所述样本终端上展示的样本直播对应的特征信息，以及获取基于展示所述样本直播得到的交互信息。

具体的，直播推荐请求用于请求推荐在播的直播间以在样本终端上进行相应直播的展示，直播推荐请求可以是样本终端在接收到直播刷新操作时生成的，该直播推荐请求中携带有样本终端对应的标识信息，该标识信息可以包括该样本终端对应的用户账户信息，样本终端在生成直播推荐请求后将该直播推荐请求发送给服务器，相应的，服务器接收该样本终端的直播推荐请求。

服务器响应于该直播推荐请求，解析该直播推荐请求得到样本终端对应的标识信息，进而在当前在播直播间中匹配与该标识信息相匹配的直播作为将要在该样本终端上展示的样本直播。具体的匹配过程可以先按照预设条件从当前在播直播间中筛选出部分直播，然后再按照预设匹配规则从该部分直播中选取与该标识信息匹配的直播作为样本直播。其中，预设条件可以是直播间的粉丝数量或者作品数量满足预设数量阈值，预设匹配规则可以包括地域匹配等，具体可以根据实际需要设置相应的预设条件和预设匹配规则。

样本直播对应的特征信息包括样本终端的特征信息和样本直播的特征信息。样本终端的特征信息可以包括实时特征信息和离线特征信息，其中，样本终端的实时特征信息可以包括样本终端的当前位置特征，样本终端的离线特征信息可以包括对应用户账户的画像特征（如年龄、性别、教育程度、职业等等）、行为特征（如兴趣偏好、活跃度等等）。

样本直播的特征信息可以包括直播间属性特征（如粉丝数量、作品数量、作品类别等等）、主播属性特征（如主播年龄、性别等等）、上下文属性特征和多媒体特征等等。

实际应用中，服务器在确定了将要在样本终端上展示的样本直播后会将这些待展示的样本直播返回给样本终端，以使得样本终端展示这些样本直播。

在样本终端展示这些样本直播后，样本终端可以向服务器上报针对样本直播的交互信息，从而服务器可以获取到基于展示上述样本直播得到的交互信息。其中，样本直播对应的交互信息用于指示是否发生相应的交互，例如发生交互时，可以生成指示发生该交互的标签值1，未发生交互时，可以生成指示未发生该交互的标签值0。

在步骤S203中，将所述样本直播对应的特征信息、所述交互信息进行拼接处理，得到目标样本。

具体的，目标样本包括样本直播对应的特征信息和交互信息。

在步骤S205中，基于所述目标样本对预设神经网络模型进行训练，并根据训练结束时的神经网络模型得到直播推荐模型。

其中，所述直播推荐模型用于在直播推荐中，确定目标终端与候选直播之间存在交互的概率，目标终端是指发送直播推荐请求的终端。预设神经网络模型可以是任意的监督学习神经网络。

具体训练时，可以将目标样本中样本直播的特征信息输入至预设神经网络模型，以得到输出的预测值，然后根据该预测值与目标样本中的交互信息确定损失值，进而基于该损失值调整预设神经网络模型的模型参数，并继续迭代训练，直至满足训练结束条件结束训练，从而可以根据训练结束时的神经网络模型得到直播推荐模型。

上述实施例中，实时的将样本直播的特征信息与交互信息相融合得到用于训练直播推荐模型的目标样本，避免了样本选择偏差和训练数据稀疏问题导致的在直播实时推荐场景下推荐直播准确性差的问题。

在一个示例性的实施方式中，本公开的交互信息可以包括第一交互信息和第二交互信息，所述第二交互信息对应的第二交互发生在所述第一交互信息对应的第一交互之后。第一交互信息为指示第一交互是否发生的信息，第二交互信息为指示第二交互是否发生的信息。

其中，第一交互可以是点击样本直播，第二交互可以包括以下行为中的一个或多个：点击样本直播中推荐对象信息集合、触发推荐对象信息集合中的推荐对象信息（如跳转到推荐对象对应的链接）、购买样本直播中推荐对象。

以第一交互是点击样本直播，第二交互是购买样本直播中推荐对象为例，若样本终端点击了样本直播A，则该样本直播A对应的第一交互信息可以为指示点击的标签值如1，若样本终端未点击样本直播A，则该样本直播A对应的第一交互信息可以为指示未点击的标签值如0。同样，若样本终端点击了样本直播A且对样本直播A中的推荐对象产生购买行为，则该样本直播A对应的第二交互信息可以为指示购买的标签值如1，若样本终端未对样本直播A中的推荐对象产生购买，则该样本直播A对应的第二交互信息可以为指示未购买的标签值如0。

基于此，上述步骤S205可以是：基于所述目标样本对预设神经网络模型进行多任务训练，并根据所述多任务训练结束时的神经网络模型得到直播推荐模型。其中，所述多任务训练包括预估第一交互概率的任务训练和预估第二交互概率的任务训练；所述直播推荐模型用于在直播推荐中，确定目标终端与候选直播之间存在所述第二交互的概率。示例性的，多任务训练可以包括预估直播点击率的任务训练和预估买推荐对象购买概率的任务训练。

上述实施例中，通过交互信息包括第一交互信息和第二交互信息，并采用多任务训练方式进行训练，从而可以得到能够准确预估直播对应第二交互概率的直播推荐模型。

在一个示例性的实施方式中，上述步骤S203，将所述样本直播对应的特征信息、所述交互信息进行拼接处理，得到目标样本可以包括：

上述实施例，通过先将样本直播对应的特征信息与第一交互信息拼接得到中间样本，然后中间样本与第二交互进行拼接得到目标样本，提高了服务器的数据处理效率，进而提高了目标样本生成效率，更能满足直播对于实时性的要求，有利于提高模型训练的准确性。

在一个示例性的实施方式中，所述第一交互信息包括在所述第一交互发生后的第一预设时间段内的交互信息；所述第二交互信息包括在所述第二交互发生后的第二预设时间段内的交互信息；其中，所述第二预设时间段大于所述第一预设时间段。

其中，第一预设时间段的长度可以根据实际需要进行设定例如5分钟，通过设置第一预设时间段即可以确保第一交互信息的实时性，也可以确保第一交互信息具有较广的覆盖度。第二预设时间段的长度可以根据实际需要进行设定，但是第二预设时间段的长度需要大于第一预设时间段的长度，以第一预设时间段是5分钟为例，第二预设时间段可以设定为15分钟，通过设置第二预设时间段即可以确保第二交互信息的实时性，也可以确保第二交互信息具有较广的覆盖度。

在一个示例性的实施方式中，在基于所述目标样本对预设神经网络模型进行多任务训练，并根据所述多任务训练结束时的神经网络模型得到直播推荐模型时，可以包括以下步骤：

（1）将所述目标样本输入预设神经网络模型，通过所述预设神经网络模型的嵌入向量空间确定所述目标样本中样本直播对应的特征信息的嵌入向量。

（2）将所述嵌入向量分别输入至所述预设神经网络模型的第一交互预估模块和第二交互预估模块，得到所述第一交互预估模块输出的第一交互概率和所述第二交互预估模块输出的第二交互概率。

其中，第一交互预估模块和第二交互预估模块均可以为深度神经网络。

（3）根据所述第一交互概率和所述目标样本中的第一交互信息确定第一损失值。

示例性的，第一损失值Loss1可以表示为以下公式（1）：

（1）

其中，y _i表示目标样本i中的第一交互信息；p _i-0表示目标样本i对应的第一交互概率；N表示目标样本的数量；l( ) 表示损失函数，示例性的，该损失函数可以是交叉熵损失函数。

（4）根据所述第一交互概率、所述第二交互概率和所述目标样本中的第二交互信息确定第二损失值。

示例性的，第二损失值Loss2可以表示为以下公式（2）：

（2）

其中，y _i表示目标样本i中的第一交互信息；z _i表示目标样本i中的第二交互信息；p _i-0表示目标样本i对应的第一交互概率（示例性的可以为对样本直播的点击率）；p _i-1表示目标样本i对应的第二交互概率（示例性的可以为对样本直播中推荐对象的购买概率）；N表示目标样本的数量；l( ) 表示损失函数，示例性的，该损失函数可以是交叉熵损失函数。

（5）根据所述第一损失值和第二损失值调整所述预设神经网络模型的模型参数，并根据调整后的模型参数进行迭代训练直至满足预设训练结束条件结束训练。

具体的，可以计算第一损失值与第二损失值的和值，从而得到总损失值，然后基于该总损失值调整多任务学习模型的模型参数，并根据调整后的模型参数进行迭代训练。

预设训练结束条件可以是总损失值达到最小值或者总损失值小于预设损失阈值或者迭代次数达到预设迭代次数，本公开实施例对此不作具体限定。

（6）根据训练结束时的所述第二交互预估模块，得到所述直播推荐模型。

具体的，直播推荐模型可以包括训练结束时的第二交互预估模块和嵌入向量空间。

上述实施例中，通过联合训练多任务学习模型中的第一交互预估模块和第二交互预估模块，使得第一交互预估模块的第一交互概率预估任务可以辅助第二交互预估模块的第二交互概率预估任务的学习，当基于训练结束时的第二交互预估模块得到直播推荐模型时，可以使得直播推荐模型的训练输入与实际应用中的输入相符合，提高了模型训练效率和准确性。

在一个示例性的实施方式中，为了进一步提高直播推荐模型的训练效果，提高其推荐的准确性，所述第二交互包括针对所述样本直播中推荐对象信息集合的第一子交互、针对所述推荐对象信息集合中推荐对象信息的第二子交互以及针对所述推荐对象信息对应推荐对象的第三子交互。那么相应的，第二交互信息包括第一子交互信息、第二子交互信息和第三子交互信息，其中，第一子交互信息用于指示第一子交互是否发生，第二子交互信息用于指示第二子交互是否发生，第三子交互信息用于指示第三子交互是否发生。

基于此，目标样本X_i可以表示为{X, y _i, z _i-1,z _i-2, z _i-3}，其中，X表示样本直播的特征信息，y _i表示第一交互信息，z _i-1表示第一子交互信息，z _i-2表示第二子交互信息，z _i-3表示第三子交互信息。

基于此，在一个示例性的实施方式中，如图3提供的基于目标样本进行多任务训练的流程图所示，在将所述嵌入向量输入至所述预设神经网络模型的第二交互预估模块，得到所述第二交互预估模块输出的第二交互概率时可以包括：

将所述嵌入向量输入至所述第二交互预估模块的第一子预估模块，得到所述第一子预估模块输出的第一预估概率。该第一预估概率表征在发生所述第一交互的前提下，发生所述第一子交互的概率。以第一子交互是点击样本直播中推荐对象信息集合为例，该第一预估概率可以表示为P₂（样本直播点击—>推荐对象集合点击）；

将所述嵌入向量输入至所述第二交互预估模块的第二子预估模块，得到所述第二子预估模块输出的第二预估概率。该第二预估概率表征在发生所述第一交互且发生所述第一子交互的前提下，发生所述第二子交互的概率。例如，第二预估概率表征在点击样本直播且点击所述样本直播中推荐对象信息集合的前提下，所述推荐对象信息集合中推荐对象对应的链接的跳转概率，即第二预估概率可以表示为P₃（样本直播点击—>推荐对象信息集合点击—>推荐对象链接跳转）；

将所述嵌入向量输入至第二交互预估模块的第三子预估模块，得到所述第三子预估模块输出的第三预估概率，该第三预估概率表征在发生所述第一交互、所述第一子交互且发生所述第二子交互的前提下，发生所述第三子交互的概率。例如，第三预估概率表征在点击所述样本直播且点击所述样本直播中推荐对象信息集合且跳转至所述推荐对象信息集合中推荐对象对应的链接的前提下，对所述推荐对象的购买概率，即第三预估概率可以表示为P₁（点击样本直播—>点击推荐对象信息集合—>跳转至推荐对象的链接—>购买推荐对象）。

那么在此基础上，在根据训练结束时的所述第二交互预估模块，得到所述直播推荐模型时可以：根据训练结束时的所述第三子预估模块，得到直播推荐模型。

也就是说，在上述示例中第二交互概率包括第一预估概率、第二预估概率和第三预估概率，再加上第一交互概率，从而涵盖了直播过程中的全链路转化行为，有利于显著增强第三子预估模块对第三子交互任务（如购买任务）的学习，进而有利于提高基于该第三子预估模块得到的直播推荐模型的预估准确性。

基于此，请继续参见图3，在一个示例性的实施方式中，在根据所述第一交互概率、所述第二交互概率和所述目标样本中的第二交互信息确定第二损失值时可以包括：

确定所述第一交互概率与所述第一预估概率的第一乘积，并根据所述第一乘积和第一子交互信息确定第一子损失值；

确定所述第一交互概率、所述第一预估概率和所述第二预估概率的第二乘积，并根据所述第二乘积和第二子交互信息确定第二子损失值；

确定所述第一交互概率、所述第一预估概率、所述第二预估概率和所述第三预估概率的第三乘积，并根据所述第三乘积和第三子交互信息确定第三子损失值；

具体的，第二损失值可以表示为以下公式（3）：

（3）

其中，y _i表示目标样本i中的第一交互信息，z _i-1表示第一子交互信息，z _i-2表示第二子交互信息，z _i-3表示第三子交互信息；p _i-0表示第一交互概率，p _i-2表示第一预估概率，p _i-3表示第二预估概率，p _i-1表示第三预估概率；N表示目标样本的数量；l( ) 表示损失函数，示例性的，该损失函数可以是交叉熵损失函数；

表示第一子损失值；

表示第二子损失值；

表示第三子损失值。

本公开实施例通过直播过程中的全链路转化行为来联合训练第一交互预估模块和第二交互预估模块，从而避免了因直播间针对第三子交互信息（如购买）极度稀疏对第二交互预估模块的第三子交互任务学习的不利影响，提高了直播推荐模型的预估准确性，进而有利于提高直播推荐的准确性。

实际应用中，多任务学习模型中的多个任务共享嵌入向量空间，也即该嵌入向量空间的模型参数受多个任务的共同效果影响，从而会存在多个任务之间效果的扰动问题，不利于直播推荐模型训练效果的提高，基于此，在一个示例性的实施方式中，可以在训练之前，通过离线的方式进行特征选择，以找出对点击率预估任务（即CTR任务）重要度高而对转化率预估任务（即CVR任务）重要度低的特征，以及对转化率预估任务（即CVR任务）重要度高而对点击率预估任务（即CTR任务）重要度低的特征，从而在模型训练中CTR任务可以独享CTR任务重要度高的差异化特征的嵌入向量（即Embedding），CVR任务可以独享CVR任务重要度高的差异化特征的嵌入向量（即Embedding）。具体的，该方法还包括离线确定差异化特征的步骤，如图4所示，该差异化特征的确定步骤可以包括：

在步骤S401中，获取第一交互概率预估模型和第二交互概率预估模型。

其中，第一交互概率预估模型和所述第二交互概率预估模型是根据目标样本集合中用于模型训练的训练集合训练得到的，所述目标样本集合被划分为所述训练集合和测试集合。需要说明的是，第一交互概率预估模型和第二交互概率预估模型为独立进行的训练。

以第一交互概率预估模型为直播点击率模型，第二交互概率预估模型为购买转化率模型为例，训练集合中的目标样本用于离线分别训练直播点击率模型和购买转化率模型，测试集合中的目标样本用于分别对离线训练好的直播点击率模型和购买转化率模型进行评估。具体的划分规则可以根据实际需要进行设置，以满足训练和评估对目标样本数量的需求，示例性的，该划分规则可以是平均分配，也即训练集合中目标样本的数量与测试集合中目标样本的数量相同。

具体的，在训练直播点击率模型时，可以将训练中的目标样本输入至初始点击率预估模型，并根据初始点击率预估模型的输出和目标样本中的直播间点击标签确定损失值，进而根据该损失值调整初始点击率预估模型继续训练直至达到收敛条件，得到直播点击率模型。

在训练购买转化率模型时，可以将训练集中的目标样本输入至初始转化率预估模型，并根据初始转化率预估模型的输出和目标样本中与对样本直播中推荐对象的购买行为相对应的子交互信息确定损失值，进而根据该损失值调整初始转化率预估模型继续训练直至达到收敛条件，得到购买转化率模型。

在步骤S403中，基于所述测试集合中的目标样本，分别确定所述第一交互概率预估模型对应目标模型评估指标的第一指标值和所述第二交互概率预估模型对应所述目标模型评估指标的第二指标值。

其中，目标模型评估指标可以是AUC（Area Under The Curve），AUC是一个模型的评价指标，用于分类任务，该AUC的具体计算方法可以参考现有技术中的相关方法，本公开实施例对此不作具体限定。可以理解的是，目标模型评估指标还可以是现有技术中其他可以用于分类任务的模型评估指标，本公开实施例对此也不作具体限定。

在步骤S405中，针对所述特征信息中的每个特征，根据所述测试集合中第一目标样本在所述特征处的值改变所述测试集合中第二目标样本在所述特征处的值，得到所述特征对应的改变后的测试集合；所述第二目标样本是所述测试集合中的任一目标样本，所述第一目标样本是所述测试集合中除所述第二目标样本之外的目标样本。

具体的，针对所述特征信息中的每个特征，可以对测试集合中所有目标样本在该特征处的值进行洗牌，以实现在对测试集合中的该特征添加噪声的同时，避免对该特征的特征分布的破坏。

举例而言，假设特征信息中的特征K，测试集合中有三个目标样本X₁,X₂,X₃，其中，X₁在特征K处理的值为k₁，X₂在特征K处的值为k₂，X₃在特征K处的值为k₂，即测试集合可以表示为{ X₁(K= k₁), X₂(K= k₂), X₃(K= k₃)}，则可以将k₁替换为k₂，将k₂替换为k₃，将k₃替换为k₁，即改变后的测试集合可以表示为{ X₁(K= k₂), X₂(K= k₃), X₃(K= k₁)}从而实现测试集合中所有目标样本在特征K处的值的洗牌。

在步骤S407中，根据所述特征对应的改变后的测试集合，分别确定所述第一交互概率预估模型对应所述目标模型评估指标的第三指标值和所述第二交互概率预估模型对应所述目标模型评估指标的第四指标值。

例如，可以根据所述特征对应的改变后的测试集合，分别确定所述直播点击率模型对应所述目标模型评估指标的第三指标值和所述购买转换化率模型对应目标模型评估指标的第四指标值。

其中，目标模型评估指标可以如步骤S405中所述的AUC（Area Under The Curve）。

在步骤S409中，根据所述第一指标值、所述第二指标值、所述第三指标值和所述第四指标值，确定所述特征为所述第一特征或者所述第二特征。

在一个具体的实施方式中，所述根据所述第一指标值、所述第二指标值、所述第三指标值和所述第四指标值，确定所述特征为所述第一特征或者所述第二特征，可以包括：

根据所述第一指标值和所述第三指标值确定第一指标变化幅度，以及根据所述的第二指标值和所述第四指标值确定第二指标变化幅度。

其中，第一指标变化幅度为对应直播点击率模型的指标变化幅度，该第一指标变化幅度可以是第一指标值与第三指标值的差值。第二指标变化幅度为对应购买转化率模型的指标变化幅度，该第二指标变化幅度可以是第二指标值与第四指标值的差值。

若所述第一指标变化幅度大于所述第二指标变化幅度，则确定所述特征为第一特征；反之，若所述第一指标变化幅度小于所述第二指标变化幅度，则确定所述特征为第二特征。

其中，第一特征是指对第一交互概率（如直播点击率）预估任务重要度高而对第二交互概率（如直播推荐对象购买率）预估任务重要度低的特征，第二特征是指对第一交互概率（如直播点击率）预估任务重要度低而对第二交互概率（如直播推荐对象购买率）预估任务重要度高的特征。

本公开实施例针对特征信息中的每个特征，通过对测试集合中目标样本在该特征处的值进行洗牌，并根据洗牌前的测试集合和洗牌后的测试集合分别对第一交互概率预估模型（如直播点击率模）型和第二交互概率预估模型（如购买转化率模型）进行评估，进而根据评估值的变化幅度确定该特征是对第一交互概率（如直播点击率）预估任务重要度高还是对第二交互概率（如直播推荐对象购买率）预估任务重要度高，从而准确捕捉到了上述两个任务的差异化特征。

基于此，在一个示例性的实施方式中，如图5提供的另一种基于目标样本进行多任务训练的流程图所示，在将所述目标样本输入预设神经网络模型，通过所述预设神经网络模型的嵌入向量空间确定所述目标样本中样本直播对应的特征信息的嵌入向量包括时可以包括：

那么，相应的在根据所述第一损失值和第二损失值调整所述预设机器学习模型的模型参数时可以包括：

本公开实施例在训练直播推荐模型时，基于特征选择实现第一交互概率预估任务（如直播点击率预估任务）和第二交互概率预估任务（如直播推荐对象购买率预估任务）的特征输入差异化，并且差异化特征对应的嵌入向量空间中的参数只会被该差异化特征对应的预估任务的损失梯度更新，从而可以减少多任务之间效果的扰动，提高了最终直播推荐模型的训练效果。

在一个示例性的实施方式中，如图6提供的一种直播推荐方法的流程图，该方法包括：

在步骤S601中，响应于目标终端的直播推荐请求，确定候选直播。

具体的，直播推荐请求可以是目标终端在接收到直播刷新操作时生成的，该直播推荐请求中携带有目标终端对应的标识信息，该标识信息可以是目标终端对应的用户账户信息。候选直播可以是当前在播直播间中的任一在播直播间。

在步骤S603中，将所述目标终端的终端特征和所述候选直播的直播特征输入直播推荐模型，得到所述直播推荐模型输出的所述候选直播对应的交互概率；所述交互概率表征所述目标终端与所述候选直播之间存在交互的概率；

示例性的，交互概率可以表征所述目标终端对所述候选直播中推荐对象的购买概率。

其中，直播推荐模型是根据本公开实施例中提供的任意一种直播推荐模型训练方法训练得到的。

目标终端的终端特征可以包括实时特征信息和离线特征信息，其中，终端特征中的实时特征信息可以包括目标终端的当前位置特征，终端特征中的离线特征信息可以包括对应用户账户的画像特征（如年龄、性别、教育程度、职业等等）、行为特征（如兴趣偏好、活跃度等等）。

候选直播的直播特征可以包括直播间属性特征（如粉丝数量、作品数量、作品类别等等）、主播属性特征（如主播年龄、性别等等）、上下文属性特征和多媒体特征等等。

在步骤S605中，根据各所述候选直播对应的交互概率，确定所述候选直播中的目标候选直播。

具体的，可以根据交互概率从各候选直播中选取满足预设条件的候选直播作为目标候选直播，该预设条件可以是交互概率大于预设阈值，或者是按照交互概率降序排序在前的N个，如3个或者5个等等。

在步骤S607中，向所述目标终端推荐所述目标候选直播。

本公开实施例通过直播推荐模型可以准确预估各候选直播对应的交互概率，进而在基于该交互概率进行直播推荐时提高了直播推荐的准确性。

图7是根据一示例性实施例示出的一种直播推荐模型训练装置的框图。参照图7，该装置包括信息获取单元710、拼接单元720和训练单元730，其中：

信息获取单元710，被配置为执行响应于样本终端的直播推荐请求，获取待在所述样本终端上展示的样本直播对应的特征信息、以及获取基于展示所述样本直播得到的交互信息；

拼接单元720，被配置为执行将所述样本直播对应的特征信息、所述交互信息进行拼接处理，得到目标样本；

训练单元730，被配置为执行基于所述目标样本对预设神经网络模型进行训练，并根据训练结束时的神经网络模型得到直播推荐模型；所述直播推荐模型用于在直播推荐中，确定目标终端与候选直播之间存在交互的概率。

在一个示例性的实施方式中，所述拼接单元包括：

在一个示例性的实施方式中，所述训练单元包括：

在一个示例性的实施方式中，所述预估单元包括：

第一子损失值确定单元，被配置为执行确定所述第一交互发生概率与所述第一预估概率的第一乘积，并根据所述第一乘积和第一子交互信息确定第一子损失值；所述第一子交互信息是所述第二交互信息中与所述第一子交互对应的交互信息；

所述参数调整单元包括：

在一个示例性的实施方式中，所述装置还包括：

第一模型评估指标值确定单元，被配置为执行基于所述测试集合中的目标样本，分别确定所述第一发生概率预估模型对应目标模型评估指标的第一指标值和所述第二交互概率预估模型对应所述目标模型评估指标的第二指标值；

在一个示例性的实施方式中，所述特征确定单元包括：

图8是根据一示例性实施例示出的一种直播推荐装置的框图。参照图8，该装置包括候选直播确定单元810、交互概率确定单元820、目标候选直播确定单元830和推荐单元840，其中：

候选直播确定单元810，被配置为执行响应于目标终端的直播推荐请求，确定候选直播；

交互概率确定单元820，被配置为执行将所述目标终端的终端特征和所述候选直播的直播特征输入直播推荐模型，得到所述直播推荐模型输出的所述候选直播对应的交互概率；所述交互概率表征所述目标终端与所述候选直播之间存在交互的概率；

目标候选直播确定单元830，被配置为执行根据各所述候选直播对应的交互概率，确定所述候选直播中的目标候选直播；

推荐单元840，被配置为执行向所述目标终端推荐所述目标候选直播；

其中，所述直播推荐模型是根据本公开实施例中提供的任意一种直播推荐模型训练方法训练得到的。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个示例性的实施方式中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现本公开实施例中提供的任意一种直播推荐模型训练方法或者直播推荐方法。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图9是根据一示例性实施例示出的一种电子设备的框图，如图9所示，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（CentralProcessing Units，CPU）910（中央处理器910可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器930，一个或一个以上存储应用程序923或数据922的存储介质920（例如一个或一个以上海量存储设备）。其中，存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器910可以设置为与存储介质920通信，在服务器900上执行存储介质920中的一系列指令操作。服务器900还可以包括一个或一个以上电源960，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口940，和/或，一个或一个以上操作系统921，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器900的通信供应商提供的无线网络。在一个实例中，输入输出接口940包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口940可以为射频（RadioFrequency，RF）模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器900还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

在一个示例性的实施方式中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器930，上述指令可由装置900的处理器910执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在一个示例性的实施方式中，还提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本公开实施例提供的任意一种直播推荐模型训练方法或者直播推荐方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种直播推荐模型训练方法，其特征在于，包括：

响应于样本终端的直播推荐请求，获取待在所述样本终端上展示的样本直播对应的特征信息、以及获取基于展示所述样本直播得到的交互信息；所述交互信息包括第一交互信息和第二交互信息，所述第二交互信息对应的第二交互发生在所述第一交互信息对应的第一交互之后；

基于所述目标样本对预设神经网络模型进行多任务训练，并根据所述多任务训练结束时的神经网络模型得到直播推荐模型；其中，所述多任务训练包括预估第一交互概率的任务训练和预估第二交互概率的任务训练；所述直播推荐模型用于在直播推荐中，确定目标终端与候选直播之间存在所述第二交互的概率。

2.根据权利要求1所述的直播推荐模型训练方法，其特征在于，所述将所述样本直播对应的特征信息、所述交互信息进行拼接处理，得到目标样本，包括：

3.根据权利要求1所述的直播推荐模型训练方法，其特征在于，所述第一交互信息包括在所述第一交互发生后的第一预设时间段内的交互信息；

4.根据权利要求1~3中任一项所述的直播推荐模型训练方法，其特征在于，所述基于所述目标样本对预设神经网络模型进行多任务训练，并根据所述多任务训练结束时的神经网络模型得到直播推荐模型，包括：

5.根据权利要求4所述的直播推荐模型训练方法，其特征在于，所述第二交互包括针对所述样本直播中推荐对象信息集合的第一子交互、针对所述推荐对象信息集合中推荐对象信息的第二子交互以及针对所述推荐对象信息对应推荐对象的第三子交互。

6.根据权利要求5所述的直播推荐模型训练方法，其特征在于，所述将所述嵌入向量输入至所述预设神经网络模型的第二交互预估模块，得到所述第二交互预估模块输出的第二交互概率包括：

7.根据权利要求6所述的直播推荐模型训练方法，其特征在于，所述根据所述第一交互概率、所述第二交互概率和所述目标样本中的第二交互信息确定第二损失值，包括：

确定所述第一交互概率与所述第一预估概率的第一乘积，并根据所述第一乘积和第一子交互信息确定第一子损失值；所述第一子交互信息是所述第二交互信息中与所述第一子交互对应的交互信息；

8.根据权利要求4所述的直播推荐模型训练方法，其特征在于，所述目标样本中样本直播对应的特征信息包括对应所述第一交互预估模块的第一特征和对应所述第二交互预估模块的第二特征；

9.根据权利要求8所述的直播推荐模型训练方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的直播推荐模型训练方法，其特征在于，所述根据所述第一指标值、所述第二指标值、所述第三指标值和所述第四指标值，确定所述特征为所述第一特征或者所述第二特征，包括：

11.一种直播推荐方法，其特征在于，包括：

响应于目标终端的直播推荐请求，确定候选直播；

将所述目标终端的终端特征和所述候选直播的直播特征输入直播推荐模型，得到所述直播推荐模型输出的所述候选直播对应的交互概率；所述交互概率表征所述目标终端与所述候选直播之间存在第二交互的概率；

向所述目标终端推荐所述目标候选直播；

其中，所述直播推荐模型是根据权利要求1~10中任一所述直播推荐模型训练方法训练得到的。

12.一种直播推荐模型训练装置，其特征在于，包括：

信息获取单元，被配置为执行响应于样本终端的直播推荐请求，获取待在所述样本终端上展示的样本直播对应的特征信息、以及获取基于展示所述样本直播得到的交互信息；所述交互信息包括第一交互信息和第二交互信息，所述第二交互信息对应的第二交互发生在所述第一交互信息对应的第一交互之后；

训练单元，被配置为执行基于所述目标样本对预设神经网络模型进行多任务训练，并根据所述多任务训练结束时的神经网络模型得到直播推荐模型；其中，所述多任务训练包括预估第一交互概率的任务训练和预估第二交互概率的任务训练；所述直播推荐模型用于在直播推荐中，确定目标终端与候选直播之间存在所述第二交互的概率。

13.根据权利要求12所述的直播推荐模型训练装置，其特征在于，所述拼接单元包括：

14.根据权利要求12所述的直播推荐模型训练装置，其特征在于，所述第一交互信息包括在所述第一交互发生后的第一预设时间段内的交互信息；

15.根据权利要求12~14中任一项所述的直播推荐模型训练装置，其特征在于，所述训练单元包括：

16.根据权利要求15所述的直播推荐模型训练装置，其特征在于，所述第二交互包括针对所述样本直播中推荐对象信息集合的第一子交互、针对所述推荐对象信息集合中推荐对象信息的第二子交互以及针对所述推荐对象信息对应推荐对象的第三子交互。

17.根据权利要求16所述的直播推荐模型训练装置，其特征在于，所述预估单元包括：

18.根据权利要求17所述的直播推荐模型训练装置，其特征在于，所述第二损失值确定单元包括：

19.根据权利要求15所述的直播推荐模型训练装置，其特征在于，所述目标样本中样本直播对应的特征信息包括对应所述第一交互预估模块的第一特征和对应所述第二交互预估模块的第二特征；所述特征表示单元包括：

所述参数调整单元包括：

20.根据权利要求18所述的直播推荐模型训练装置，其特征在于，所述装置还包括：

模型获取单元，被配置为执行获取第一交互概率预估模型和第二交互概率预估模型；

所述第一交互概率预估模型和所述第二交互概率预估模型是根据目标样本集合中用于模型训练的训练集合训练得到的，所述目标样本集合被划分为所述训练集合和测试集合；

21.根据权利要求20所述的直播推荐模型训练装置，其特征在于，所述特征确定单元包括：

22.一种直播推荐装置，其特征在于，包括：

交互概率确定单元，被配置为执行将所述目标终端的终端特征和所述候选直播的直播特征输入直播推荐模型，得到所述直播推荐模型输出的所述候选直播对应的交互概率；所述交互概率表征所述目标终端与所述候选直播之间存在第二交互的概率；

23.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至10中任一项所述的直播推荐模型训练方法，或者权利要求11所述的直播推荐方法。

24.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至10中任一项所述的直播推荐模型训练方法，或者权利要求11所述的直播推荐方法。

25.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至10中任一项所述的直播推荐模型训练方法，或者权利要求11所述的直播推荐方法。