CN114781625B

CN114781625B - 一种网络模型训练、推送内容确定方法及装置

Info

Publication number: CN114781625B
Application number: CN202210659314.7A
Authority: CN
Inventors: 胡斌斌; 周俊; 张志强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-09-23
Anticipated expiration: 2042-06-13
Also published as: CN114781625A

Abstract

本说明书实施例提供了一种网络模型训练、推送内容确定方法及装置。网络模型包括自注意力网络和第一神经网络，该网络模型用于确定用户针对待推送内容的偏好评分，计算设备可以基于该偏好评分确定针对用户的推送内容。在训练网络模型时，可以基于用户的历史点击行为的时间戳，在预设维度空间中进行时间映射，得到时间编码；基于历史点击行为包含的点击内容和对应的时间编码，生成用户的时间序列特征；利用自注意力网络，基于时间序列特征和待推送内容，确定用于表征用户的历史点击行为与待推送内容之间关系的第一输出结果；利用第一神经网络，基于第一输出结果和用户的第一特征，确定用户针对待推送内容的偏好评分，基于偏好评分更新网络模型。

Description

一种网络模型训练、推送内容确定方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习技术领域，尤其涉及一种网络模型训练、推送内容确定方法及装置。

背景技术

随着社会的发展和技术的进步，出现了越来越多的服务平台为用户提供各种服务。很多的服务平台能够通过服务器和客户端为用户提供便捷的线上服务。例如，电子商务平台能够为用户提供各种商品信息，共用户浏览、选择和购买。为了提供更丰富的服务，服务平台也会在保证用户数据隐私和安全性的前提下，根据用户的浏览、点击记录为用户推送更丰富的内容，供用户选择。这在一定程度上给用户提供便利。

目前，希望能有改进的方案，可以更准确、更合理地为用户提供推送内容。

发明内容

本说明书一个或多个实施例描述了一种网络模型训练、推送内容确定方法及装置，以更准确、更合理地为用户提供推送内容。具体的技术方案如下。

第一方面，实施例提供了一种网络模型训练方法，所述网络模型包括自注意力网络和第一神经网络；所述方法包括：

获取第一用户的若干个历史点击行为，任意一个历史点击行为包括时间戳和点击内容；

基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为对应的时间编码；

基于若干个历史点击行为包含的点击内容和对应的时间编码，生成所述第一用户的时间序列特征；

利用所述自注意力网络，基于所述时间序列特征和待推送内容，确定用于表征所述第一用户的历史点击行为与所述待推送内容之间关系的第一输出结果；

利用所述第一神经网络，基于所述第一输出结果和所述第一用户的第一特征，确定所述第一用户针对所述待推送内容的偏好评分；

基于所述偏好评分更新所述网络模型。

在一种实施方式中，基于若干个时间戳，在预设维度空间中进行时间映射的步骤包括：

将若干个时间戳与选定的第一时刻之间的时间间隔，在预设维度空间中进行时间映射，得到若干个历史点击行为对应的时间间隔的时间编码；其中，所述第一时刻晚于若干个时间戳表示的时刻。

在一种实施方式中，所述将若干个时间戳与选定的第一时刻之间的时间间隔，在预设维度空间中进行时间映射的步骤，包括：

利用基于傅里叶级数确定的、用于表征所述预设维度空间映射关系的时间编码函数，确定若干个时间间隔对应的时间编码。

在一种实施方式中，所述生成所述第一用户的时间序列特征的步骤，包括：

基于若干个点击内容的特征与对应的时间编码的拼接，生成所述时间序列特征。

在一种实施方式中，所述网络模型还包括第二神经网络；在确定所述第一输出结果之后，所述方法还包括：

利用所述第二神经网络，基于所述第一输出结果、所述第一用户的第二特征和所述若干个历史点击行为，确定所述第一用户针对所述待推送内容的点击意愿值；

所述基于所述偏好评分更新所述网络模型的步骤，包括：

基于所述偏好评分和所述点击意愿值，更新所述网络模型。

在一种实施方式中，确定第一用户针对所述待推送内容的点击意愿值的步骤，包括：

利用所述第二神经网络，基于所述第一输出结果、所述第二特征和第一时间间隔，确定所述第一用户针对所述待推送内容的累积点击意愿值；其中，第一时间间隔是最近一次历史点击行为的时间戳与第一时刻之间的间隔；

基于所述累积点击意愿值，确定所述第一用户在所述第一时刻针对所述待推送内容的点击意愿值。

在一种实施方式中，所述更新所述网络模型的步骤，包括：

基于所述偏好评分对应的预测结果与标签值之间的差异，确定第一损失；其中，所述预测结果和标签值用于表征所述第一用户在第一时刻是否点击所述待推送内容；

基于所述点击意愿值确定第二损失；

基于所述第一损失和所述第二损失，对所述网络模型进行更新。

第二方面，实施例提供了一种推送内容确定方法，包括：

获取第二用户的若干个历史点击行为，任意一个历史点击行为包括时间戳和点击内容；

基于若干个历史点击行为包含的点击内容和对应的时间编码，生成所述第二用户的时间序列特征；

基于所述第二用户的第一特征、所述时间序列特征和待推送内容，利用第一方面训练的网络模型，确定所述第二用户针对所述待推送内容的偏好评分；

基于所述偏好评分，从所述待推送内容中确定针对所述第二用户的推送内容。

在一种实施方式中，所述网络模型还包括第二神经网络；

所述确定所述第二用户针对所述待推送内容的偏好评分的步骤，包括：

基于所述第二用户的第一特征、第二特征、所述时间序列特征、待推送内容和若干个历史点击行为，利用训练的所述网络模型，确定所述第二用户针对所述待推送内容的偏好评分和点击意愿值；

所述基于所述偏好评分，从所述待推送内容中确定针对所述第二用户的推送内容的步骤，包括：

基于所述偏好评分和点击意愿值，从所述待推送内容中确定针对所述第二用户的推送内容。

第三方面，实施例提供了一种网络模型训练装置，所述网络模型包括自注意力网络和第一神经网络；所述装置包括：

第一获取模块，配置为获取第一用户的若干个历史点击行为，任意一个历史点击行为包括时间戳和点击内容；

第一映射模块，配置为基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为对应的时间编码；

第一编码模块，配置为基于若干个历史点击行为包含的点击内容和对应的时间编码，生成所述第一用户的时间序列特征；

第一确定模块，配置为利用所述自注意力网络，基于所述时间序列特征和待推送内容，确定用于表征所述第一用户的历史点击行为与所述待推送内容之间关系的第一输出结果；

第二确定模块，配置为利用所述第一神经网络，基于所述第一输出结果和所述第一用户的第一特征，确定所述第一用户针对所述待推送内容的偏好评分；

第一更新模块，配置为基于所述偏好评分更新所述网络模型。

在一种实施方式中，所述网络模型还包括第二神经网络；所述装置还包括：

第三确定模块，配置为在确定所述第一输出结果之后，利用所述第二神经网络，基于所述第一输出结果、所述第一用户的第二特征和所述若干个历史点击行为，确定所述第一用户针对所述待推送内容的点击意愿值；

所述第一更新模块，具体配置为：

基于所述偏好评分和所述点击意愿值，更新所述网络模型。

第四方面，实施例提供了一种推送内容确定装置，包括：

第二获取模块，配置为获取第二用户的若干个历史点击行为，任意一个历史点击行为包括时间戳和点击内容；

第二映射模块，配置为基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为对应的时间编码；

第二编码模块，配置为基于若干个历史点击行为包含的点击内容和对应的时间编码，生成所述第二用户的时间序列特征；

第一预测模块，配置为基于所述第二用户的第一特征、所述时间序列特征和待推送内容，利用第一方面训练的网络模型，确定所述第二用户针对所述待推送内容的偏好评分；

第四确定模块，配置为基于所述偏好评分，从所述待推送内容中确定针对所述第二用户的推送内容。

第五方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面至第二方面中任一项所述的方法。

第六方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面至第二方面中任一项所述的方法。

本说明书实施例提供的方法及装置中，用户的偏好会受到他们已经互动过的内容的影响，这种影响会随着时间的推移而变化，基于用户的历史点击行为中的时间戳进行时间映射，将时间映射在连续的高维空间中，能够更好地挖掘出隐藏在时间戳中的用户偏好随时间变化的模式，然后利用时间编码构建时间序列特征，并利用网络模型提取时间序列特征中的深层特征，进而确定用户针对待推送内容的偏好评分。利用这种方式训练的网络模型，能够更好地提取隐藏在用户历史点击行为中的时间模式，利用这种网络模型的预测结果能够更准确、更合理地为用户提供推送内容。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1-1为本说明书披露的一个实施例的实施场景示意图；

图1-2是用户针对推送内容的购买数量与时间间隔的一个关系图；

图2为实施例提供的一种网络模型训练方法的流程示意图；

图3为实施例提供的一种推送内容确定方法的流程示意图；

图4为实施例提供的一种网络模型训练装置的示意性框图；

图5为实施例提供的一种推送内容确定装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1-1为本说明书披露的一个实施例的实施场景示意图。训练集中包含多个用户的多个历史点击行为作为样本。用户的历史点击行为可以采用对应的时间戳（t₁，t₂，…，t_N）、点击内容等信息表示。样本的标签可以是某个时刻t用户对待推送内容是否进行点击的信息，时刻t晚于历史点击行为的时间戳表示的时刻。在训练时，计算设备可以基于用户的历史点击行为中的时间戳进行时间编码，从而将时间映射到连续的高维空间中，接着基于时间编码和点击内容构建用户的时间序列特征。然后，利用网络模型包含的自注意力网络和第一神经网络，基于时间序列特征和待推送内容（v₁，v₂等），确定用户对待推送内容的偏好评分。

计算设备可以是服务平台中的设备。服务平台可以为用户提供各种服务，例如网络购物平台、通信服务平台、列车点餐平台等。服务平台可以通过客户端和服务器相配合的方式，为用户提供服务。在保护用户的数据隐私和安全性的前提下，服务器可以通过客户端获取用户的点击行为记录（即历史点击行为），并通过这些点击行为向用户推送相关的内容，为用户提供便利。通过对一定时长内多个用户针对推送的商品a和b的点击行为、购买行为进行分析，并绘制购买数量与时间间隔的图表（时间间隔是历史的购买行为与某个时刻之间的时间间隔），申请人发现，用户针对不同推荐内容的兴趣具有较强的时间模式，用户的偏好会受到他们已经互动过的内容的影响，这种影响会随着时间的推移而变化。图1-2是用户针对推送内容的购买数量与时间间隔的一个关系图。

在以上分析的基础上，为了更好地提取历史点击行为中隐含的深层特征，本说明书实施例提供了一种网络模型训练方法。在该方法中包含以下步骤：步骤S210，获取第一用户的若干个历史点击行为，任意一个历史点击行为包括时间戳和点击内容；步骤S220，基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为对应的时间编码；步骤S230，基于若干个历史点击行为包含的点击内容和对应的时间编码，生成第一用户的时间序列特征；步骤S240，利用自注意力网络，基于时间序列特征和待推送内容，确定用于表征第一用户的历史点击行为与待推送内容之间关系的第一输出结果；步骤S250，利用第一神经网络，基于第一输出结果和第一用户的第一特征，确定第一用户针对待推送内容的偏好评分；步骤S260，基于偏好评分更新网络模型。

在本实施例中，可以将用户的历史点击行为中的时间戳进行时间映射，将时间信息映射到连续的高维空间，从而使得时间特征更加可分、连续，利用时间编码构建的时间序列特征能够更好地刻画用户行为的时序性，基于该时间序列特征对网络模型进行训练，能够使得网络模型从时间序列特征中学习到更深层特征，从而更好地预测用户的偏好评分。

图2为实施例提供的一种网络模型训练方法的流程示意图。其中，网络模型包括自注意力网络和第一神经网络。网络模型用于确定用户针对待推荐内容的偏好评分。其中，自注意力网络用于基于输入的时间序列特征和待推送内容，确定表征用户的历史点击行为与待推送内容之间关系的输出结果；第一神经网络用于基于自注意力网络的输出结果和用户特征，确定用户针对待推送内容的偏好评分。为了训练网络模型，可以预先收集多个用户在一定时长（例如90天）内对推送内容的历史点击行为，作为训练集中的样本，并可以将某个时刻t用户是否对推送内容进行点击确定标签值，标签值可以是0或1。所有的待推送内容可以有很多个，例如100个或200个等，并存放在待推送内容库中。在某个时刻向用户推送的推送内容可以是少数几个，例如9个、10个或12个等。推送内容是从待推送内容中选出的。

该方法通过计算设备执行，该计算设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该方法包括以下步骤。

在步骤S210中，获取第一用户A的若干个历史点击行为，任意一个历史点击行为包括时间戳和点击内容。第一用户A可以是训练集中的任意一个用户。第一用户A的历史点击行为的数量可以是一个或多个。训练集中可以包含一定时期内（例如一个月内，或三个月内）多个用户的历史点击行为。历史点击行为中的时间戳是发生历史点击行为的时刻，点击内容是推送内容中的任意一个。第一用户A的若干个历史点击行为可以按照时间戳从早到晚或从晚到早进行排列，例如时间戳从晚到早排列（t₁，t₂，…，t_N），这里是以N个历史点击行为为例。

在步骤S220中，基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为对应的时间编码。其中，预设维度空间可以是预先设定的较高维度的空间，例如是d维矢量空间，d是整数。在具体实施时，可以直接将时间戳在预设维度空间中进行时间映射，也可以将若干个时间戳与选定的第一时刻t之间的时间间隔，在预设维度空间中进行时间映射，得到若干个历史点击行为对应的时间间隔的时间编码。其中，第一时刻t晚于若干个时间戳表示的时刻，例如第一时刻t可以是当前时刻。时间戳的时间编码，或者时间间隔的时间编码，表示的是对应的时间特征向量或时间特征矩阵，是将时间戳或时间间隔映射在高维空间之后得到的特征。

在将时间戳在预设维度空间中进行时间映射时，具体可以利用基于傅里叶级数确定的、用于表征预设维度空间映射关系的时间编码函数来进行时间映射。在将若干个时间戳与选定的第一时刻之间的时间间隔，在预设维度空间中进行时间映射时，也可以利用上述时间编码函数，确定若干个时间间隔对应的时间编码。

为了将时间戳或时间间隔进行时间编码，可以从时间域T到d维矢量空间找到一个映射函数Ф：T→R^d，并且该映射函数Ф能够保留用户的偏好。基于Mercer原理和傅里叶级数，可以采用频率参数ω定义映射函数Ф：

其中，最右侧的T是转置符号，c₁，c_2j，c_2j+1等系数属于模型训练中的超参数，可以根据经验或训练过程设定。基于傅里叶级数的截断性质，可以取式（1）的前d维，把式（1）的Ф_ω截断成Ф_ω,d,然后通过频率集{ω₁，…，ω_k}连接多个被缩短了的周期映射函数，得到如下的时间编码函数：

其中，||表示连接操作，Ф_ωk,d ^M是第k个截断后的映射函数。频率集{ω₁，…，ω_k}是模型训练中的超参数，可以根据经验或训练过程设定。

在对时间戳进行时间映射时，可以将时间戳的值代入式（2）所示的时间编码函数，得到该时间戳对应的时间编码。在对时间间隔进行时间映射时，可以将时间间隔代入式（2）所示的时间编码函数，得到该时间间隔对应的时间编码。

在步骤S230中，基于若干个历史点击行为包含的点击内容和对应的时间编码，生成第一用户A的时间序列特征。例如，也可以将若干个点击内容的特征和对应的时间编码分别作为时间序列矩阵中的行向量或列向量，也可以基于若干个点击内容的特征与对应的时间编码的拼接，将拼接后得到的向量作为时间序列特征的行向量或列向量。

例如，可以采用三元组<u,v,t>来表示第一时刻t之前用户的历史点击行为，即：

对于N个历史点击行为,i∈[1，N]，其对应N个点击内容（v₁，v₂，…，v_N），每个点击内容可以经过映射（embedding）得到该点击内容的特征向量e_v1…e_vN。将N干个点击内容的特征与对应的时间编码拼接起来，并按照一定的顺序组成第一用户A的时间序列特征Z：

其中，等式左侧的项是在第一时刻t得到的与时间相关的第一用户A的时间序列矩阵；等式右侧是用分号隔开的N项，每一项代表点击内容的特征向量（例如e_v1）与对应的时间编码（例如Ф_d ^M）的拼接，每一项是一个向量，可以作为时间序列矩阵的一行；||是连接操作，T是转置符号。

在步骤S240中，利用自注意力网络，基于时间序列特征Z和待推送内容v，确定用于表征第一用户A的历史点击行为与待推送内容之间关系的第一输出结果。

其中，待推送内容可以有一个或多个，例如待推送内容v₁、v₂等。为了描述方便，下面以一个待推送内容为例进行说明，当有多个待推送内容时，针对每一个待推送内容执行相同的操作。待推送内容可以包括商品、餐品或服务等。待推送内容可以包含文字内容和分类。历史点击行为中包含的点击内容是从推送内容中得到的，因此点击内容、推送内容都可以包括商品、餐品或服务等，待推送内容可以包含文字内容和分类。

在确定第一输出结果时，可以将时间序列特征Z和待推送内容v输入自注意力网络，通过该自注意力网络确定第一输出结果。在将时间序列特征Z和待推送内容v输入自注意力网络时，可以将时间序列特征Z和待推送内容v的特征向量e_v拼接成联合序列矩阵，将联合序列矩阵输入自注意力模型；也可以将待推送内容v的特征向量e_v与时间间隔0的时间编码进行拼接，将拼接后的特征向量与时间序列特征Z进行拼接，得到联合序列矩阵。例如，可以得到如下的联合序列矩阵L：

其中，等式右侧的最后一项，是待推送内容的特征向量e_v与时间间隔0的时间编码的拼接，而这最后一项可以作为时间序列特征Z中的一行或一列。

式（4）可以表示在第一时刻t得到的与时间相关的联合序列矩阵，该联合序列矩阵可以记录第一用户A的历史点击行为与待推送内容v之间的关系。将该联合序列矩阵输入自注意力网络，通过自注意力网络可以提取其中隐含的表征第一用户A的历史点击行为与待推送内容v之间的深层关系的第一输出结果。

自注意力网络可以挖掘输入信息中各项之间隐含的权重，也就是建立输入信息之间的长距离依赖关系。在自注意力网络中，可以采用基于缩放点积（Scaled dot-ProductAttention）的自注意力，得到用于总结第一用户A的历史点击行为影响的第一输出结果h：

其中，Q_u,v(t)、K_u,v(t)和V_u,v(t)分别表示查询向量、键向量和值向量，其与第一时刻t的用户u和待推荐内容v相关；D是查询向量、键向量和值向量的维度；T是转置符号。

查询向量、键向量和值向量分别是联合序列矩阵L的线性映射：

其中，W_Q、W_K和W_V是自注意力网络中的参数。

在步骤S250中，利用第一神经网络，基于第一输出结果h和第一用户A的第一特征，确定第一用户A针对待推送内容v的偏好评分r。其中，第一特征可以包括用户属性特征e_u和用户与待推荐内容的上下文特征c_u,v。用户属性特征可以包括用户的标识（id）、所在地和活跃程度等特征。偏好评分用于表征用户对待推送内容的偏好程度。第一神经网络可以采用前馈神经网络等实现。

在确定偏好评分时，可以将第一输出结果h和第一特征直接输入第一神经网络，通过第一神经网络确定第一用户A针对待推送内容v的偏好评分；也可以将第一输出结果h和第一特征进行拼接，将拼接后的特征矩阵输入第一神经网络。

在步骤S260中，基于偏好评分r更新网络模型。在更新时，包括基于偏好评分r更新自注意力网络中的参数和第一神经网络中的参数。

具体的，可以将偏好评分输入例如sigmoid函数、ReLU函数等激活函数，得到第一用户A针对待推送内容v是否会进行点击的预测结果，接着基于该预测结果与标签值之间的差异，确定预测损失，向减小该预测损失的方向更新网络模型。在确定预测损失时，可以利用交叉熵来确定。

其中，上面提到的若干个历史点击行为代表第一用户A在过去时间中的行为，其中隐含了第一用户A的偏好信息。为了训练网络模型，训练集中还可以存储有样本标签，该样本标签可以表示第一用户A在第一时刻t是否点击了待推送内容v。而网络模型可以利用若干个历史点击行为来预测该第一用户A在第一时刻的偏好，从而将预测结果与标签值进行对比。

上述步骤S210~S260为一次模型迭代过程。在实际应用中，也可以利用多个用户的历史点击行为执行步骤S210~S250，在步骤S260中利用多个用户的偏好评分更新网络模型。在训练过程中，可以基于训练集中包含的多个用户的样本，对网络模型进行多次迭代，直至网络模型的训练过程达到收敛条件。收敛条件可以包括：模型的迭代次数达到预设次数阈值，或者预测损失小于预设损失值等。

在本说明书的另一实施例中，图2所示的网络模型还可以包括第二神经网络。在步骤S240中确定第一输出结果h之后，还可以继续采用第二神经网络确定第一用户A针对待推送内容的点击意愿值。具体的，可以利用第二神经网络，基于第一输出结果h、第一用户A的第二特征和若干个历史点击行为，确定第一用户A针对待推送内容的点击意愿值。第二神经网络也可以采用前馈神经网络等实现。

在步骤S260中基于偏好评分更新网络模型时，可以基于偏好评分r和点击意愿值λ，更新网络模型，其中包括更新自注意力模型、第一神经网络和第二神经网络中的模型参数。

在确定第一用户A针对待推送内容v的点击意愿值时，可以通过多种方式进行，例如可以直接训练第二神经网络，使得第二神经网络输入第一用户A针对待推送内容v的点击意愿值，也可以训练第二神经网络确定累积点击意愿值，接着再基于累积点击意愿值求得点击意愿值。在确定累积点击意愿值时，可以针对所有历史点击行为确定累积点击意愿值，也可以选择若干个历史点击行为中的某一个历史点击行为确定累积点击意愿值。

在一种实施方式中，可以利用第二神经网络，基于第一输出结果h、第一用户A的第二特征和第一时间间隔τ，确定第一用户A针对待推送内容v的累积点击意愿值Ω，基于累积点击意愿值Ω，确定第一用户A在第一时刻t针对待推送内容v的点击意愿值ψ。

其中，第一时间间隔τ是最近一次历史点击行为的时间戳与第一时刻t之间的间隔。第二特征可以包括用户属性特征。

在基于累积点击意愿值Ω确定点击意愿值ψ时，可以是对累积点击意愿值的时间间隔求导，也可以是在求导之后再乘以某个预设系数，得到点击意愿值ψ。

在本实施例中，时间点过程可以用于在序列中建模动态，从而基于历史点击行为S_u,v估计待推送内容v的可能性。该建模过程的核心是构造有条件的强度函数λ_v(t|S_u,v)，从而捕捉用户变化的兴趣。为了方便起见，将该强度函数进行如下改写：

λ_v(t|S_u,v)=ψ_u,v(t-t_i|h_u,v)

其中，ψ_v是一个非负函数。为了求出第一用户A针对待推送内容v进行点击的可能性λ_v，可以通过建模累积强度函数Ω_u,v，并对累积强度函数求导，得到强度函数ψ_v：

其中，τ=t-t_i，t_i是最近一次历史点击行为的时间戳，τ表示最近一次历史点击行为到第一时刻t的时间间隔。采用强度自由公式来模拟用户对待推送内容的时间感知偏好，这针对现实世界中的复杂场景来说是更合适的。采用第二神经网络来模拟累积强度函数：

Ω_u,v(τ|h_u,v)=g(W_L…g（W[e_u||h_u,v||τ]+b₁）+b_L) （8）

其中，W₁、…、W_L≥0，b₁、…、b_L≥0，都是第二神经网络的参数；e_u是第二特征。

在通过式（8）求得累积点击意愿值Ω_u,v(τ|h_u,v)之后，可以利用式（7）得到在第一时刻t用户u针对待推送内容v的点击意愿值ψ_u,v。

在步骤S260中更新网络模型时，可以采用以下步骤进行：

步骤1a，基于偏好评分对应的预测结果与标签值之间的差异，确定第一损失；

步骤2a，基于点击意愿值确定第二损失；

步骤3a，基于第一损失和第二损失，对网络模型进行更新。

其中，预测结果和标签值用于表征第一用户A在第一时刻t是否点击待推送内容v，不同之处是，预测结果是通过网络模型预测得到，标签值是样本的标注值。将偏好评分输入激活函数，可以得到上述预测结果。在步骤3a中对网络模型进行更新时，可以基于第一损失与第二损失的和值进行更新，也可以再对和值进行预设处理后进行模型参数更新。

在步骤2a中基于点击意愿值确定第二损失时，可以利用多种方式进行。例如，可以基于最大似然估计（Maximum Likelihood Estimation, MLE）或最大后验概率估计（Maximum a Posteriori estimation，MAP），来学习时间点过程中的参数。下面以MLE为例，说明确定第二损失的方式。

在MLE中，在时间间隔[0,T]之间的可能性L_T可以通过下式给出：

其中，等式右侧第一项模拟过去事件（也就是历史点击记录）的对数强度函数总和；第二项模拟无限多事件的对数似然，其中始终采用负采用策略；log的底数被省略了。可以利用式（9）来求得第二损失，并与第一损失进行迭代，得到以下预测损失：

其中，C是交叉熵函数，r_u,v是用户u对待推送内容v是否会进行点击的预测结果，y_u,v是标签值；λ_v是用户u针对待推送内容v的点击意愿值，v'是没有被用户u点击的待推送内容，λ_v'是没有被用户u点击的点击意愿值，v'从负样本生成器的噪声分布P_neg中采集负样本。负样本是否个时刻没有被点击的推送内容。用户u可以替换为第一用户A。T是训练集中所有样本的总时长，例如训练集中包含三个月内用户的历史点击行为，T则为三个月。

在确定预测损失之后，向减小该预测损失的方向更新网络模型，包括更新自注意力网络的参数、第一神经网络的参数和第二神经网络的参数。

以上内容是针对网络模型训练过程的说明。在对网络模型训练完成后，可以利用该网络模型确定推送内容。当网络模型训练更准确时，所确定的推送内容也会更加合理，当将推送内容推送给用户时，也能提高用户体验。下面结合图3对推送内容的确定方法进行说明。

图3为实施例提供的一种推送内容确定方法的流程示意图。该方法通过计算设备执行。该方法可以包括以下步骤。

步骤S310，获取第二用户B的若干个历史点击行为；

步骤S320，基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为对应的时间编码；

步骤S330，基于若干个历史点击行为包含的点击内容和对应的时间编码，生成第二用户B的时间序列特征；

步骤S340，基于第二用户B的第一特征、时间序列特征和待推送内容，利用图2实施例提供的训练后的网络模型，确定第二用户B针对待推送内容的偏好评分；

步骤S350，基于偏好评分，从待推送内容中确定针对第二用户的推送内容。

其中，任意一个历史点击行为包括时间戳和点击内容。第二用户B是任意一个待向其进行内容推送的对象。上述步骤S320~S330的执行过程可以参见图2实施例中步骤S220~S230的说明，而仅需将其中的文字表述第一用户替换为第二用户即可，此处不再赘述。

在步骤S340中，在确定第二用户B针对待推送内容的偏好评分时，可以利用网络模型中的自注意力网络，基于时间序列特征和待推送内容，确定用于表征第二用户的历史点击行为与待推送内容之间关系的第二输出结果；接着，利用网络模型中的第一神经网络，基于第二输出结果和第二用户B的第一特征，确定第二用户B针对待推送内容的偏好评分。上述步骤的具体实施方式可以参见图2所示实施例中步骤S240和S250的说明，仅需将其中的第一用户替换为第二用户，将第一输出结果替换为第二输出结果即可。

在步骤S350中，在确定推送内容时，可以将偏好评分最大的k个待推荐内容确定为针对第二用户B的推送内容，k取整数。

在本说明书的另一实施例中，网络模型还可以包括第二神经网络。在图3所示实施例中，步骤S340中确定第二用户B针对待推送内容的偏好评分时，可以基于第二用户B的第一特征、第二特征、时间序列特征、待推送内容和若干个历史点击行为，利用训练的网络模型，确定第二用户B针对待推送内容的偏好评分和点击意愿值。在执行上述步骤时，具体可以包括：利用自注意力网络，基于时间序列特征和待推送内容，确定第二输出结果；接着，利用第一神经网络，基于第二输出结果和第二用户B的第一特征，确定第二用户B针对待推送内容的偏好评分；利用第二神经网络，基于第二输出结果、第二特征和若干个历史点击行为，确定第二用户B针对待推送内容的点击意愿值。上述步骤的具体实施方式可以参见图2所述实施例中的相关说明，此处不再赘述。

在步骤S350中，基于偏好评分和点击意愿值，从待推送内容中确定针对第二用户B的推送内容。具体的，可以确定对应的偏好评分与点击意愿值的乘积值，从多个乘积值中选择最大的k个乘积值，将该k个乘积值对应的待推送内容确定为针对第二用户B的推送内容。

在本实施例中，将用户的历史点击行为中的时间戳进行时间映射，将时间信息映射到连续的高维空间，从而使得时间特征更加可分、连续，利用时间编码构建的时间序列特征能够更好地刻画用户行为的时序性。利用训练后的网络模型，基于时间序列特征进行预测时，能够根据预测结果确定更准确、更合理的推送内容。

本说明书中，第一神经网络、第一特征、第一用户、第一输出结果、第一时刻和第一损失等词语中的“第一”，以及文中相应的“第二”，仅仅是为了区分和描述方便，而不具有任何限定意义。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

图4为实施例提供的一种网络模型训练装置的示意性框图。该网络模型包括自注意力网络和第一神经网络。该装置可以部署在计算设备中，计算设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该装置实施例与图2所示方法实施例相对应。该装置400包括：

第一获取模块410，配置为获取第一用户的若干个历史点击行为，任意一个历史点击行为包括时间戳和点击内容；

第一映射模块420，配置为基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为对应的时间编码；

第一编码模块430，配置为基于若干个历史点击行为包含的点击内容和对应的时间编码，生成所述第一用户的时间序列特征；

第一确定模块440，配置为利用所述自注意力网络，基于所述时间序列特征和待推送内容，确定用于表征所述第一用户的历史点击行为与所述待推送内容之间关系的第一输出结果；

第二确定模块450，配置为利用所述第一神经网络，基于所述第一输出结果和所述第一用户的第一特征，确定所述第一用户针对所述待推送内容的偏好评分；

第一更新模块470，配置为基于所述偏好评分更新所述网络模型。

在一种实施方式中，所述第一映射模块420具体配置为：

在一种实施方式中，所述第一编码模块430具体配置为：

在一种实施方式中，所述网络模型还包括第二神经网络；所述装置400还包括：

第三确定模块460，配置为在确定所述第一输出结果之后，利用所述第二神经网络，基于所述第一输出结果、所述第一用户的第二特征和所述若干个历史点击行为，确定所述第一用户针对所述待推送内容的点击意愿值；

所述第一更新模块470具体配置为：

基于所述偏好评分和所述点击意愿值，更新所述网络模型。

在一种实施方式中，所述第三确定模块460包括：

第一确定子模块（图中未示出），配置为利用所述第二神经网络，基于所述第一输出结果、所述第二特征和第一时间间隔，确定所述第一用户针对所述待推送内容的累积点击意愿值；其中，第一时间间隔是最近一次历史点击行为的时间戳与第一时刻之间的间隔；

第二确定子模块（图中未示出），配置为基于所述累积点击意愿值，确定所述第一用户在所述第一时刻针对所述待推送内容的点击意愿值。

在一种实施方式中，所述第一更新模块470包括：

第一损失子模块（图中未示出），配置为基于所述偏好评分对应的预测结果与标签值之间的差异，确定第一损失；其中，所述预测结果和标签值用于表征所述第一用户在第一时刻是否点击所述待推送内容；

第二损失子模块（图中未示出），配置为基于所述点击意愿值确定第二损失；

第一更新子模块（图中未示出），配置为基于所述第一损失和所述第二损失，对所述网络模型进行更新。

图5为实施例提供的一种推送内容确定装置的示意性框图。该装置可以部署在计算设备中，计算设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该装置实施例与图3所示方法实施例相对应。该装置500包括：

第二获取模块510，配置为获取第二用户的若干个历史点击行为，任意一个历史点击行为包括时间戳和点击内容；

第二映射模块520，配置为基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为对应的时间编码；

第二编码模块530，配置为基于若干个历史点击行为包含的点击内容和对应的时间编码，生成所述第二用户的时间序列特征；

第一预测模块540，配置为基于所述第二用户的第一特征、所述时间序列特征和待推送内容，利用图2实施例训练的网络模型，确定所述第二用户针对所述待推送内容的偏好评分；

第四确定模块550，配置为基于所述偏好评分，从所述待推送内容中确定针对所述第二用户的推送内容。

在一种实施方式中，网络模型还包括第二神经网络；第一预测模块540具体配置为：

第四确定模块550具体配置为：

上述各个装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图1-1、图1-2、图2和图3任一项所述的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图1-1、图1-2、图2和图3任一项所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种网络模型训练方法，所述网络模型包括自注意力网络和第一神经网络；所述方法包括：

基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为分别对应的时间编码；

基于所述偏好评分更新所述网络模型。

2.根据权利要求1所述的方法，所述基于若干个时间戳，在预设维度空间中进行时间映射的步骤，包括：

3.根据权利要求2所述的方法，所述将若干个时间戳与选定的第一时刻之间的时间间隔，在预设维度空间中进行时间映射的步骤，包括：

4.根据权利要求1所述的方法，所述生成所述第一用户的时间序列特征的步骤，包括：

5.根据权利要求1所述的方法，所述网络模型还包括第二神经网络；在确定所述第一输出结果之后，所述方法还包括：

所述基于所述偏好评分更新所述网络模型的步骤，包括：

基于所述偏好评分和所述点击意愿值，更新所述网络模型。

6.根据权利要求5所述的方法，所述确定所述第一用户针对所述待推送内容的点击意愿值的步骤，包括：

7.根据权利要求5所述的方法，所述更新所述网络模型的步骤，包括：

基于所述点击意愿值确定第二损失；

8.一种推送内容确定方法，包括：

基于所述第二用户的第一特征、所述时间序列特征和待推送内容，利用如权利要求1所述的方法训练的网络模型，确定所述第二用户针对所述待推送内容的偏好评分；

9.根据权利要求8所述的方法，所述网络模型还包括第二神经网络；

10.一种网络模型训练装置，所述网络模型包括自注意力网络和第一神经网络；所述装置包括：

第一映射模块，配置为基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为分别对应的时间编码；

11.根据权利要求10所述的装置，所述网络模型还包括第二神经网络；所述装置还包括：

所述第一更新模块，具体配置为：

基于所述偏好评分和所述点击意愿值，更新所述网络模型。

12.一种推送内容确定装置，包括：

第二映射模块，配置为基于若干个时间戳，在预设维度空间中进行时间映射，得到与若干个历史点击行为分别对应的时间编码；

第一预测模块，配置为基于所述第二用户的第一特征、所述时间序列特征和待推送内容，利用如权利要求1所述的方法训练的网络模型，确定所述第二用户针对所述待推送内容的偏好评分；

13.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项所述的方法。

14.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。