CN113127727A

CN113127727A - 信息推荐模型确定方法、信息推荐方法及装置

Info

Publication number: CN113127727A
Application number: CN201911422030.0A
Authority: CN
Inventors: 王惠照; 李建丽; 郑凯; 夏虎
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-16

Abstract

本申请提供了一种信息推荐模型确定方法、信息推荐方法及装置，确定方法包括：获取样本用户针对已推送内容的样本行为信息；构建用于表征样本用户行为的样本特征向量序列；将样本特征向量序列中的第1个至第K‑1个样本特征向量输入至编码器得到样本编码向量，从编码器的预设网络层输出的状态向量；确定与第K个样本特征向量对应的预测相关度；基于预测相关度以及第K个样本特征向量的实际相关度训练编码器；基于训练得到的编码器确定信息推荐模型。该过程通过学习不同样本用户做出不同行为的特征，进而基于其历史行为预测其做出某项未来行为的概率，使得信息推荐模型具有更高的准确度，进而能够提高针对目标用户偏好的推送信息的准确度。

Description

信息推荐模型确定方法、信息推荐方法及装置

技术领域

本申请涉及计算机技术领域，尤其是涉及信息推荐模型确定方法、信息推荐方法及装置。

背景技术

目前的信息推荐方法，在对目标用户进行信息推荐的过程中，通常利用目标用户前几次的历史选择信息，确定待推送的推送信息。并且，目前的信息推荐方法，在很大程度上是基于紧邻的历史选择信息，确定待推送的推送信息。相隔越近的历史选择信息，对确定的推送信息的影响程度越高。

然而，实际应用过程中，紧邻的历史选择信息，反而不会被目标用户作为当前想选择的推送信息，因此，使用目前的信息推荐方法进行信息推荐，确定出的针对目标用户偏好的推送信息准确度较低。

发明内容

有鉴于此，本申请的目的在于提供信息推荐模型确定方法、信息推荐方法及装置，以提高推送满足目标用户偏好的信息的准确度。

第一方面，本申请实施例提供了一种信息推荐模型确定方法，该信息推荐模型确定方法包括：

获取样本用户针对已推送内容的样本行为信息；

基于所述样本行为信息的先后顺序，构建用于表征所述样本用户行为的样本特征向量序列；所述样本特征向量序列中包括K个样本特征向量；

将所述样本特征向量序列中的第1个至第K-1个样本特征向量输入至编码器，得到样本编码向量，以及所述编码器的预设网络层输出的状态向量；

基于所述样本编码向量、所述状态向量以及所述样本特征向量序列中的第K个样本特征向量，确定与所述第K个样本特征向量对应的预测相关度；其中，所述预测相关度用于表征所述样本用户在执行了与第1个至第K-1个样本特征向量对应的行为后，执行与第K个样本特征向量对应的行为的概率；

基于所述预测相关度以及所述第K个样本特征向量的实际相关度，训练所述编码器；

基于训练得到的所述编码器确定所述信息推荐模型。

一种可选实施方式中，所述编码器包括：第一神经网络以及第二神经网络；

则所述将所述样本特征向量序列中的第1个至第K-1个样本特征向量输入至编码器，得到样本编码向量，以及所述编码器的预设网络层输出的状态向量，具体包括：

将所述样本特征向量序列中的第1个至第K-2个样本特征向量输入至第一神经网络，得到与第1个至第K-2个样本特征向量分别对应的样本中间特征向量；以及在将第K-2个样本特征向量序列输入至所述第一神经网络后，从所述第一神经网络的预设网络层得到中间状态向量；

将所述第1个至第K-2个样本特征向量分别对应的样本中间特征向量、所述中间状态向量、以及第K-1个样本特征向量输入至第二神经网络，得到与各个样本中间特征向量分别对应的权重；以及从所述第二神经网络的预设网络层得到所述状态向量；

基于各个所述样本中间特征向量，以及各个所述样本中间特征向量分别对应的权重，得到所述样本编码向量。

一种可选实施方式中，所述第一神经网络包括：第一子网络以及第二子网络；

则所述将所述样本特征向量序列中的第1个至第K-2个样本特征向量输入至第一神经网络，得到与第1个至第K-2个样本特征向量分别对应的样本中间特征向量，具体包括：

将所述样本特征向量序列中的第1个至第K-2个样本特征向量正序依次输入至所述第一子网络，得到与所述第1个至第K-2个样本特征向量分别对应的第一中间向量；

将所述样本特征向量序列中的第1个至第K-2个样本特征向量逆序依次输入至所述第二子网络，得到与所述第1个至第K-2个样本特征向量分别对应的第二中间向量；

针对所述第1个至第K-2个样本特征向量中的每个样本特征向量，基于该样本特征向量对应的第一中间向量以及第二中间向量，生成与该样本特征向量对应的样本中间特征向量。

一种可选实施方式中，所述第二神经网络包括：第三子网络以及第四子网络；

则所述将所述第1个至第K-2个样本特征向量分别对应样本中间特征向量、所述中间状态向量、以及第K-1个样本特征向量输入至第二神经网络，得到与各个样本中间特征向量分别对应的权重，具体包括：

将所述中间状态向量以及所述第K-1个样本特征向量输入至第三子网络，得到与所述第K-1个样本特征向量对应的第三中间向量；

将所述第三中间向量以及所述第1个至第K-2个样本特征向量分别对应样本中间特征向量输入至所述第四子网络，得到与各个所述样本中间特征向量分别对应的权重。

第二方面，本申请实施例提供了一种信息推荐方法，包括：

获取待推送用户针对多个已推送内容的历史行为信息；

基于所述历史行为信息的先后顺序以及至少一个待推送内容，构建与各个待推送内容分别对应的特征向量序列；

针对每个待推送内容，将与该待推送内容对应的特征向量序列输入至信息推荐模型中，得到与该待推送内容对应的相关度；

基于各个待推送内容分别对应的相关度的大小，从多个所述待推送内容中确定至少一个目标推送内容，并将所述目标推送内容推送至所述待推送用户；

其中，所述信息推荐模型基于第一方面任意一项所述的信息推荐模型的确定方法确定。

第三方面，本申请实施例还提供一种信息推荐模型确定装置，该信息推荐模型确定装置包括：第一获取模块、第一构建模块、第一输入模块、第一确定模块、训练模块以及第二确定模块，其中：

所述第一获取模块，用于获取样本用户针对已推送内容的样本行为信息；

所述第一构建模块，用于基于所述样本行为信息的先后顺序，构建用于表征所述样本用户行为的样本特征向量序列；所述样本特征向量序列中包括K个样本特征向量；

所述第一输入模块，用于将所述样本特征向量序列中的第1个至第K-1个样本特征向量输入至编码器，得到样本编码向量，以及所述编码器的预设网络层输出的状态向量；

所述第一确定模块，用于基于所述样本编码向量、所述状态向量以及所述样本特征向量序列中的第K个样本特征向量，确定与所述第K个样本特征向量对应的预测相关度；其中，所述预测相关度用于表征所述样本用户在执行了与第1个至第K-1个样本特征向量对应的行为后，执行与第K个样本特征向量对应的行为的概率；

所述训练模块，用于基于所述预测相关度以及所述第K个样本特征向量的实际相关度，训练所述编码器；

所述第二确定模块，用于基于训练得到的所述编码器确定所述信息推荐模型。

所述第一输入模块，在将所述样本特征向量序列中的第1个至第K-1个样本特征向量输入至编码器，得到样本编码向量，以及所述编码器的预设网络层输出的状态向量时，用于：

所述第一输入模块，在将所述样本特征向量序列中的第1个至第K-2个样本特征向量输入至第一神经网络，得到与第1个至第K-2个样本特征向量分别对应的样本中间特征向量时，用于：

所述第一输入模块，在将所述第1个至第K-2个样本特征向量分别对应样本中间特征向量、所述中间状态向量、以及第K-1个样本特征向量输入至第二神经网络，得到与各个样本中间特征向量分别对应的权重时，用于：

第四方面，本申请实施例还提供一种信息推荐装置，该信息推荐装置包括：第二获取模块、第二构建模块、第二输入模块以及第三确定模块，其中：

所述第二获取模块，用于获取待推送用户针对多个已推送内容的历史行为信息；

所述第二构建模块，用于基于所述历史行为信息的先后顺序以及至少一个待推送内容，构建与各个待推送内容分别对应的特征向量序列；

所述第二输入模块，用于对每个待推送内容，将与该待推送内容对应的特征向量序列输入至信息推荐模型中，得到与该待推送内容对应的相关度；

所述第三确定模块，用于基于各个待推送内容分别对应的相关度的大小，从多个所述待推送内容中确定至少一个目标推送内容，并将所述目标推送内容推送至所述待推送用户；

其中，所述信息推荐模型基于第一方面中任意一项所述的信息推荐模型的确定方法确定。

第五方面，本申请实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤；

或者执行上述第二方面，或第二方面中任一种可能的实施方式中的步骤。

第六方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤；

本申请实施例在确定信息推荐模型时，在获取样本用户针对已推送内容的样本行为信息后，基于样本行为信息的先后顺序，构建用于表征样本用户行为的样本特征向量序列；之后将样本特征向量序列中的第1个至第K-1个样本特征向量输入至编码器，得到样本编码向量，以及编码器的预设网络层输出的状态向量；基于样本编码向量、状态向量以及样本特征向量序列中的第K个样本特征向量，确定与第K个样本特征向量对应的预测相关度，并基于预测相关度以及第K个样本特征向量的实际相关度，训练编码器；基于训练得到的编码器确定信息推荐模型。该过程通过学习不同样本用户做出不同行为的特征，进而基于其历史行为，预测其做出某项未来行为的概率，使得最终确定的信息推荐模型具有更高的准确度，进而能够提高针对目标用户偏好的推送信息的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例所提供的一种信息推荐模型确定方法的流程图；

图2示出了本申请实施例所提供的模型结构示意图；

图3示出了本申请实施例所提供的得到样本编码向量以及状态向量的具体方法的流程图；

图4示出了本申请实施例所提供的一种信息推荐方法的流程图；

图5示出了本申请实施例所提供的一种信息推荐模型确定装置的结构示意图；

图6示出了本申请实施例所提供的一种信息推荐装置的结构示意图；

图7示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到现有技术中，在对目标用户进行信息推荐的过程中，通常利用目标用户前几次的历史选择信息，确定待推送的推送信息，相隔越近的历史选择信息，对确定的推送信息的影响程度越高。然而，实际应用过程中，紧邻的历史选择信息，反而不会被目标用户作为当前想选择的推送信息，因此，使用目前的信息推荐方法进行信息推荐，无法准确确定满足目标用户偏好的推送信息。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本公开实施例所提供的信息推荐模型确定方法、信息推荐方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该信息推荐模型确定方法、信息推荐方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面首先以执行主体为计算机设备为例对本公开实施例提供的信息推荐模型确定方法加以说明。

参见图1～图2，其中图1示出本申请实施例提供的一种信息推荐模型确定方法的流程图；图2示出本申请实施例提供的一种信息推荐模型的结构示意图；

所述方法包括步骤S101～S103其中：

S101：获取样本用户针对已推送内容的样本行为信息。

S102：基于所述样本行为信息的先后顺序，构建用于表征所述样本用户行为的样本特征向量序列；所述样本特征向量序列中包括K个样本特征向量。

S103：将所述样本特征向量序列中的第1个至第K-1个样本特征向量输入至编码器，得到样本编码向量，以及所述编码器的预设网络层输出的状态向量。

S104：基于所述样本编码向量、所述状态向量以及所述样本特征向量序列中的第K个样本特征向量，确定与所述第K个样本特征向量对应的预测相关度；其中，所述预测相关度用于表征所述样本用户在执行了与第1个至第K-1个样本特征向量对应的行为后，执行与第K个样本特征向量对应的行为的概率。

S105：基于所述预测相关度以及所述第K个样本特征向量的实际相关度，训练所述编码器。

S106：基于训练得到的所述编码器确定所述信息推荐模型。

下面分别对上述S101～S106分别加以详细说明。

一：在上述S101中，本申请实施例提供的方法应用于不同类型的信息推荐领域时，待推送内有所区别，所对应的样本行为信息也有所区别。

例如，将该方法应用于视频推送领域，待推送内容即为视频；对应的样本行为信息例如包括：样本用户对视频的观看时间、观看时长、对视频的操作(如点击、收藏、快进、评论)，视频的类型、视频中涉及到的演员及导演等信息、用户对视频的评分、其他人对视频的综合评分等，此外，还可以包括视频针对的对象、以及样本用户的性别、年龄、职业等信息。

例如视频的类型可以为电影、电视剧、综艺节目等多种类型中的任一种，其中所述电影种类又可分为科幻片、爱情片、恐怖片等多种类型，类似的，电视剧也可以分为家庭伦理剧、古装剧、偶像剧等多种类型，综艺节目也可以分为音乐类、竞技类、冒险类等多种类型。

用户对于待推送内容的行为信息可以是选择观看上述一种类型的视频信息，以及观看该视频信息的时间以及时长，例如：A先生在下午五点十分观看了一部科幻电影，观看时长为一个小时；A先生晚上八点十五分观看了一部家庭伦理电视剧，观看时长为40分钟等。

用户对于待推送内容的行为信息还可以是用户对待推送内容的评分或是评论信息，例如：A先生对其所观看的科幻电影的评分为4分，且其评论信息为“剧情有点牵强，不过演员的演技还是不错的！”；A先生对其所观看的家庭伦理电视剧的评分为3分，且其评论信息为“剧情太狗血了！！！”等。

用户对于待推送内容的行为信息还可以包括该用户的自身信息，例如：该用户的年龄、性别、职业，包括一些爱好、地区等信息，方便后续的处理过程。

又例如，将该方法应用于商品推送领域，待推送内容即为商品；对应的样本行为信息例如包括：用户对商品的操作，如点击、加入购物车、购买、从购物车中删除、退货等；样本行为信息还可以包括商品本身具有的属性，如商品的价格区间、商品的类型、商品的用途、商品的规格、商品的名称、商品所面向的群体等；样本行为信息还可以包括样本用户的属性信息，如样本用户的年龄、购买频率、不同种类的商品的购买均价、年购买支出、月购买支出、经常购买的商品种类等。

具体的，根据实际的应用领域进行具体设定。

二：在上述S102中，按照上述步骤S101中获取的所述样本行为信息的先后顺序，构建样本特征向量序列。

这里，样本行为信息的先后顺序，是指用户对各个待推送内容发生了具体行为的时间顺序。例如若某一用户在一个月内，先后对商品A发生了点击查看操作、对商品B发生了购买操作、对商品C发生了加入购物车操作，则生成的样本特征向量序列中，按照操作时间的先后顺序，依次包括：

基于对商品A发生了点击查看操作所生成的样本特征向量；

基于对商品B发生了购买操作所生成的样本特征向量；

以及基于对商品C发生了加入购物车操作所生成的样本特征向量。

又例如，依照样本行为信息中的时间信息，将样本行为信息进行排序，所述样本行为信息中包含样本用户针对待推送内容的行为、以及样本用户与待推送内容的特征信息，例如：2019年12月11日x时x分，A先生观看xx综艺节目，且观看时长为xx分钟xx秒，该综艺节目为竞技类，A先生对评分为4分，评论为“很好看”，该A先生年龄为30岁，基于这些信息生成第一个样本特征向量。

2019年12月12日x时x分，A先生观看xx电影，且观看时长为xx分钟xx秒，该电影的类型为动作片，A先生对评分为2分，评论为“一般般”，该A先生年龄为30岁，基于这些信息生成第二个样本特征向量。

最终所生成的特征向量序列包括：第一个样本特征向量、第二个样本特征向量。

这里需要注意的是，上述仅仅为样本特征向量的生成示例，实际过程中，样本特征向量序列中所包括的样本特征向量的数量，可以根据实际的需求进行具体设定。

在具体实施中，每一样本特征向量序列作为一个样本；进而，能够得到用于确定信息推荐模型的多个样本。

样本包括：正样本以及负样本。

其中，正样本是基于样本行为信息直接构造的。例如，某样本用户在t1时刻～t10时刻的样本行为信息依次包括：A1、A2、A3、A4、A5、……、A9、A10，在K为5的情况下，正样本中依次可以包括：基于A1构建的样本特征向量、基于A2构建的样本特征向量、基于A3构建的样本特征向量、基于A4构建的样本特征向量、和基于A5构建的样本特征向量。

负样本则是基于该样本用户样本行为信息，以及伪行为信息构造；其中，伪行为信息是指该样本用户并未真实发生的行为所确定的行为信息。该伪行为信息，例如可以为随机构造的，或其他的样本用户在任一时刻的样本行为信息，或该样本用户在其他时刻的样本行为信息。负样本可以在构建了正样本后，对正样本中最后一个样本特征向量进行替换得到；也可以先确定K-1个样本特征向量，然后再基于伪行为信息，构建第K个样本特征向量，进而先确定的K-1个样本特征向量和第K个样本特征向量一起构成负样本中的K个样本特征向量。

例如，某样本用户在t1时刻～t10时刻的样本行为信息依次包括：A1、A2、A3、A4、A5、……、A9、A10，在K为5的情况下，负样本中依次可以包括：基于A1构建的样本特征向量、基于A2构建的样本特征向量、基于A3构建的样本特征向量、基于A4构建的样本特征向量、和基于M1构建的样本特征向量。

其中，M1和M5不同。其中，M5可以是另一样本用户在某一时刻的样本行为信息，或者为随机构建的样本行为信息，或者是该样本用户的样本行为信息中，除了A5以外的任一样本行为信息。

在一种可能的实施方式中，针对一个样本用户可以仅生成一个样本特征向量序列，例如可以先获取多个样本用户在多个不同时刻对已推送内容的样本行为信息，然后针对每个样本用户，从该样本用户在多个不同时刻对已推送内容的样本行为信息中，选择连续的K个时刻分别对应的样本行为信息，以基于选择的K个时刻分别对应的样本行为信息，生成与该样本用户对应的样本行为特征向量序列。该选择可以是随机选择，也可以是将距离当前时间最近的K个时刻分别对应的样本行为信息，确定为用于生成样本行为特征向量序列的样本行为信息。

例如，某样本用户在t1时刻～t10时刻的样本行为信息依次包括：A1、A2、A3、A4、A5、……、A9、A10，在K为5，且在样本为正样本的情况下，随机确定的5个样本行为信息例如包括：A1、A2、A3、A4、A5。将距离当前时间最近的5个时刻分别对应的样本行为信息，确定为用于生成样本行为特征向量序列的样本行为信息的情况下，确定的5个样本行为信息包括：A6、A7、A8、A9、A10。在样本为负样本的情况下，随机确定的5个样本行为信息例如包括：A1、A2、A3、A4、A5。

在另一种可能的实施方式中，针对一个样本用户可以生成多个样本特征向量序列。

样本用户在t1时刻～t10时刻的样本行为信息依次包括：A1、A2、A3、A4、A5、……、A9、A10，在K为5的情况下，且在样本为正样本的情况下，所确定的样本行为信息例如可以有6组，分别为：

A1、A2、A3、A4、A5；

A2、A3、A4、A5、A6；

A3、A4、A5、A6、A7；

A4、A5、A6、A7、A8；

A5、A6、A7、A8、A9；

A6、A7、A8、A9、A10。

最终能够基于上述确定的6组样本行为信息，构建6个样本特征向量序列。

三：在上述S103中，样本编码向量，是编码器对样本特征向量序列中的第1个至第K-1个样本特征向量进行编码生成的。

编码器的预设网络层能够输出状态向量。

其中，编码向量和状态向量中，均包含了第1个至第K-1个样本特征向量的特征。

具体地，本申请实施例提供一种编码器的具体结构，包括：第一神经网络以及第二神经网络。

其中，第一神经网络用于提取第1个至第K-2个样本特征向量中所包含的特征，以得到与第1个至第K-2个样本特征向量分别对应的样本中间特征向量；第二神经网络，用于基于第1个至第K-2个样本特征向量对第K-1个样本特征向量的影响信息(也即中间状态向量)，提取第二特征向量的特征信息，并基于该特征信息对第1个至第K-2个样本特征向量分别对应的样本中间特征向量进行注意力处理，得到与第1个至第K-2个样本特征向量分别对应的权重。

最终，能够提取到第1个至第K-1个样本特征向量的特征信息。

具体地，参见图3所示，步骤S103具体可以为：

S301：将所述样本特征向量序列中的第1个至第K-2个样本特征向量输入至第一神经网络，得到与第1个至第K-2个样本特征向量分别对应的样本中间特征向量；以及在将第K-2个样本特征向量序列输入至所述第一神经网络后，从所述第一神经网络的预设网络层得到中间状态向量。

具体地：第一神经网络包括：第一子网络以及第二子网络；

则将所述样本特征向量序列中的第1个至第K-2个样本特征向量输入至第一神经网络，得到与第1个至第K-2个样本特征向量分别对应的样本中间特征向量，具体包括：

这里，可以针对第1个至第K-2个样本特征向量中的每个样本特征向量，可以将所述每个样本特征向量对应的第一中间向量和第二中间向量进行拼接或者求和，以得到所述每个样本特征向量对应的样本中间特征向量。

其中，第一子网络包括循环神经网络(Recurrent neural networks，RNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、门控循环单元(Gated Recurrent Unit，GRU)中的任一种。

第二子网络也包括循环神经网络(Recurrent neural networks，RNN、长短期记忆网络(Long Short-Term Memory，LSTM)、门控循环单元(Gated Recurrent Unit，GRU)中任一种。

在一种可能的实施方式中，第一子网络和第二子网络可以为不同的神经网络，进而不同的神经网络能够提取到第1个至第K-2个样本特征向量中不同的特征，使得到的第1个至第K-2个样本特征向量分别对应的样本中间特征向量，分别具有第1个至第K-2个样本特征向量中更丰富的信息，进而能够提升模型精度。

其中，中间状态向量是在第一子网络对第K-2个样本特征向量进行处理过程中，从第一子网络的预设网络层得到的；该预设网络层例如为第一子网络中的任一隐藏层。在此时，由于是将第1个至第K-2个样本特征向量正序依次输入至第一子网络中，第一子网络的特性关系，其在对时间在后的样本特征向量进行特征提取的时候，会受到其对时间在先的样本特征向量进行特征提取过程的影响，也即，最终所得到的中间状态向量，实际上包含了第1至第K-2个样本特征向量中的特征。

S302：将所述第1个至第K-2个样本特征向量分别对应的样本中间特征向量、所述中间状态向量、以及第K-1个样本特征向量输入至第二神经网络，得到与各个样本中间特征向量分别对应的权重；以及从所述第二神经网络的预设网络层得到所述状态向量。

具体地，所述第二神经网络包括：第三子网络以及第四子网络；

将所述中间状态向量以及所述第K-1个样本特征向量输入至第三子网络，得到与所述第K-1个样本特征向量对应的第三中间向量。

这里，第三子网络例如包括循环神经网络(Recurrent neural networks，RNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、门控循环单元(Gated Recurrent Unit，GRU)中的任一种。

一种可能的实施方式中，第三子网络的参数和第一子网络的参数可以相同。这里，参数例如包括：网络结构、每一层网络层的具体参数等。

第四子网络，例如可以为一带有单个隐藏层的前馈神经网络层，以及一计算模块；第1个至第K-2个样本特征向量分别对应的样本中间特征向量、第三中间向量在输入至第四子网络时，将各个样本中间特征向量依次输入至该前馈神经网络。

针对第1个至第K-2个样本特征向量分别对应的样本中间特征向量中的任一样本中间特征向量h，将其和第三中间向量一起输入至前馈神经网络中，得到e(h,s)＝Utanh(Vh+Ws)；

其中，U，V，W是该前馈神经网络的参数。tanh(Vh+Ws)为激活函数。

然后计算模块基于下述公式计算第1个至第K-2个样本特征向量分别对应的样本中间特征向量所对应的权重：

其中，a_i为第1个至第K-2个样本特征向量中，第i个样本特征向量所对应的权重。h_i表示第i个样本特征向量所对应的样本中间特征向量；s_K-1表示第K-1个样本特征向量对应的第三中间向量。

最终，得到第1个至第K-2个样本特征向量分别对应的样本中间特征向量所对应的权重。

S303：基于各个所述样本中间特征向量，以及各个所述样本中间特征向量分别对应的权重，得到所述样本编码向量。

这里，例如可以基于各个所述样本中间特征向量分别对应的权重，对各个样本中间特征向量进行加权求和，得到样本编码向量。

示例性的，其具体的操作流程如下：

假设存在10个样本特征向量，将所述第1个至第9个样本特征向量作为所述编码器的输入数据，确定第10个样本特征向量的预测相关度。

首先，将所述第1个至第8个样本特征向量正序输入至第一神经网络的第一子网络，得到与所述第1个至第8个样本特征向量分别对应的第一中间向量，并且将所述第1个至第8个样本特征向量逆序输入至第一神经网络种的第二子网络，得到与所述第1个至第8个样本特征向量分别对应的第二中间向量。针对第1个样本特征向量，将该第1个样本特征向量对应的第一中间向量和第二中间向量求和，得到与该第1个样本特征向量对应的样本中间特征向量。并针对第2个、第3个、……、第8个样本特征向量依次执行该过程，得到与第2个～第8个样本特征向量分别对应的样本中间特征向量。

在将第8个样本特征向量序列输入至所述第一神经网络后，从所述第一神经网络的预设网络层得到中间状态向量。

之后，将所述中间状态向量以及所述第9个样本特征向量输入第二神经网络中的第三子网络，得到与所述9个样本特征向量对应的第三中间向量；将所述第三中间向量以及所述第1个至第8个样本特征向量分别对应样本中间特征向量输入至第四子网络，就可以得到第1个至第8个样本中间特征向量分别对应的权重。

基于第1个至第8个样本中间特征向量分别对应的权重，对第1个至第8个样本中间特征向量进行加权求和，得到对第1个至第9个样本特征向量进行编码的编码向量，并从第三子网络的预设网络层输出状态向量，用于后续操作。

四：在上述S104中，例如可以使用预设的门函数(Gating Function)，对所述样本编码向量、所述状态向量、所述第三样本特征向量进行门函数运算，得到与所述第三样本特征向量对应的预测相关度。

具体的门函数可以根据实际的需要进行具体设定，在此不再赘述。

五：在上述S105和S106中，基于步骤S104得到的所述预测相关度以及所述第K个样本特征向量的实际相关度，训练所述编码器。

其中，所述实际相关度为在K个样本特征信息中，产生第1个至第K-1个样本特征信息之后，产生第K个样本特征信息的概率。

其中，正样本中，第K个样本特征向量的实际相关度为1；负样本中，第K个样本特征向量的实际相关度为0。

基于预测相关度以及所述第K个样本特征向量的实际相关度，训练所述编码器时，可以根据各个样本特征向量序列分别对应的预测相关度以及实际相关度，确定相关度的交叉熵损失。然后基于该交叉熵损失，调整编码器的参数。

经过对编码器参数的多轮调整，在编码器的参数不再发生变化，或者交叉熵不再减小的时候，也即该编码器收敛后，基于该编码器，确定信息推荐模型。

这里，需要注意的是，在信息推荐模型中，除了编码器外还包括有运算单元，编码器用于生成第1个至第K-2个样本特征向量分别对应的样本中间特征向量和权重，而运算单元，则用于基于第1个至第K-2个样本特征向量分别对应的样本中间特征向量和权重、编码器输出的状态向量、以及第K个样本特征向量，生成预测相关度。

另外，本申请实施例在第二神经网络中，利用了第K-1个样本特征向量，确定前K-2个样本特征向量的权重，使得模型能够学习到前K-2个样本特征向量对第K个样本特征向量的“跳级”影响，进而进一步的提升了模型的精度。

参见图4所示，为本申请实施例二提供的一种信息推荐方法的流程图，所述方法包括步骤S401～S404，其中：

S401：获取待推送用户针对多个已推送内容的历史行为信息。

S402：基于所述历史行为信息的先后顺序以及至少一个待推送内容，构建与各个待推送内容分别对应的特征向量序列。

S403：针对每个待推送内容，将与该待推送内容对应的特征向量序列输入至信息推荐模型中，得到与该待推送内容对应的相关度。

S404：基于各个待推送内容分别对应的相关度的大小，从多个所述待推送内容中确定至少一个目标推送内容，并将所述目标推送内容推送至所述待推送用户；

其中，所述信息推荐模型基于实施例一中任意一项所述的信息推荐模型的确定方法确定。

下面分别对上述S401～S404分别加以详细说明。

上述步骤S401～步骤S402的具体实现方式与上述步骤S101～步骤S102类似，在此不再赘述。

这里需要注意的是，待推送用户针对多个已推送内容的历史行为信息，是基于当前时刻来确定的。例如，若要构建包括K个特征向量的特征向量序列，则要选择距离当前时刻最近的K-1个行为信息，来确定K-1个特征向量，并基于M个待推送内容，确定M个待推送内容的特征向量，针对各个待推送内容，将该待推送内容的特征向量，作为特征向量序列中的第K个特征向量，并与确定的K-1个特征向量，构成特征向量序列，最终，得到M个特征向量序列。其中，M为大于0的整数，

然后将M个特征向量序列依次输入至信息推荐模型中，得到与M个待推送内容分别对应的相关度。

然后，根据M个待推送内容分别对应的相关度中，从M个待推送内容中，确定至少一个目标推送内容，并将所述目标推送内容推送至所述待推送用户。

示例性的，可以将相关度最大的待推送内容作为目标推送内容。

另外，也可以按照相关度从大到小的顺序，从M个待推送内容中确定多个目标推送内容，并按照各个目标推送内容分别对应的相关度大小，依次将各个目标推送内容推送至待推送用户。

参照图5所示，为本申请实施例提供的一种信息推荐模型确定装置的示意图，该信息推荐模型确定装置包括：第一获取模块51、第一构建模块52、第一输入模块53、第一确定模块54、训练模块55以及第二确定模块56，其中：

第一获取模块51，用于获取样本用户针对已推送内容的样本行为信息；

第一构建模块52，用于基于所述样本行为信息的先后顺序，构建用于表征所述样本用户行为的样本特征向量序列；所述样本特征向量序列中包括K个样本特征向量；

第一输入模块53，用于将所述样本特征向量序列中的第1个至第K-1个样本特征向量输入至编码器，得到样本编码向量，以及所述编码器的预设网络层输出的状态向量；

第一确定模块54，用于基于所述样本编码向量、所述状态向量以及所述样本特征向量序列中的第K个样本特征向量，确定与所述第K个样本特征向量对应的预测相关度；其中，所述预测相关度用于表征所述样本用户在执行了与第1个至第K-1个样本特征向量对应的行为后，执行与第K个样本特征向量对应的行为的概率；

训练模块55，用于基于所述预测相关度以及所述第K个样本特征向量的实际相关度，训练所述编码器；

第二确定模块56，用于基于训练得到的所述编码器确定所述信息推荐模型。

一种可能的实施方式中，所述编码器包括：第一神经网络以及第二神经网络；

所述第一输入模块53，在将所述样本特征向量序列中的第1个至第K-1个样本特征向量输入至编码器，得到样本编码向量，以及所述编码器的预设网络层输出的状态向量时，用于：

一种可能的实施方式中，所述第一神经网络包括：第一子网络以及第二子网络；

所述第一输入模块53，在将所述样本特征向量序列中的第1个至第K-2个样本特征向量输入至第一神经网络，得到与第1个至第K-2个样本特征向量分别对应的样本中间特征向量时，用于：

一种可能的实施方式中，所述第二神经网络包括：第三子网络以及第四子网络；

所述第一输入模块53，在将所述第1个至第K-2个样本特征向量分别对应样本中间特征向量、所述中间状态向量、以及第K-1个样本特征向量输入至第二神经网络，得到与各个样本中间特征向量分别对应的权重时，用于：

参照图6所示，为本申请实施例提供的一种信息推荐装置，该信息推荐装置包括：第二获取模块61、第二构建模块62、第二输入模块63以及第三确定模块64，其中：

第二获取模块61，用于获取待推送用户针对多个已推送内容的历史行为信息；

第二构建模块62，用于基于所述历史行为信息的先后顺序以及至少一个待推送内容，构建与各个待推送内容分别对应的特征向量序列；

第二输入模块63，用于对每个待推送内容，将与该待推送内容对应的特征向量序列输入至信息推荐模型中，得到与该待推送内容对应的相关度；

第三确定模块64，用于基于各个待推送内容分别对应的相关度的大小，从多个所述待推送内容中确定至少一个目标推送内容，并将所述目标推送内容推送至所述待推送用户；

其中，所述信息推荐模型基于上述任意一项所述的信息推荐模型的确定方法确定。

本公开实施例还提供了一种计算机设备10，如图7所示，为本公开实施例提供的计算机设备10结构示意图，包括：处理器11、存储器12、和总线13。所述存储器12存储有所述处理器11可执行的机器可读指令，当计算机设备10运行时，所述处理器11与所述存储器12之间通过总线13通信，所述机器可读指令被所述处理器11执行时执行如本公开实施例提供的信息推荐模型确定方法的步骤；或执行如本申请实施例提供的信息推荐方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的信息推荐模型确定方法的步骤，或执行如本申请实施例提供的信息推荐方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OKlyMemory，ROM)、随机存取存储器(RaKdom Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种信息推荐模型确定方法，其特征在于，该信息推荐模型确定方法包括：

获取样本用户针对已推送内容的样本行为信息；

基于训练得到的所述编码器确定所述信息推荐模型。

2.根据权利要求1所述的确定方法，其特征在于，所述编码器包括：第一神经网络以及第二神经网络；

3.根据权利要求2所述的确定方法，其特征在于，所述第一神经网络包括：第一子网络以及第二子网络；

4.根据权利要求2所述的确定方法，其特征在于，所述第二神经网络包括：第三子网络以及第四子网络；

5.一种信息推荐方法，其特征在于，包括：

获取待推送用户针对多个已推送内容的历史行为信息；

其中，所述信息推荐模型基于权利要求1-4任意一项所述的信息推荐模型的确定方法确定。

6.一种信息推荐模型确定装置，其特征在于，该信息推荐模型确定装置包括：

第一获取模块，用于获取样本用户针对已推送内容的样本行为信息；

第一构建模块，用于基于所述样本行为信息的先后顺序，构建用于表征所述样本用户行为的样本特征向量序列；所述样本特征向量序列中包括K个样本特征向量；

第一输入模块，用于将所述样本特征向量序列中的第1个至第K-1个样本特征向量输入至编码器，得到样本编码向量，以及所述编码器的预设网络层输出的状态向量；

第一确定模块，用于基于所述样本编码向量、所述状态向量以及所述样本特征向量序列中的第K个样本特征向量，确定与所述第K个样本特征向量对应的预测相关度；其中，所述预测相关度用于表征所述样本用户在执行了与第1个至第K-1个样本特征向量对应的行为后，执行与第K个样本特征向量对应的行为的概率；

训练模块，用于基于所述预测相关度以及所述第K个样本特征向量的实际相关度，训练所述编码器；

第二确定模块，用于基于训练得到的所述编码器确定所述信息推荐模型。

7.根据权利要求6所述的确定装置，其特征在于，所述编码器包括：第一神经网络以及第二神经网络；

8.根据权利要求7所述的确定装置，其特征在于，所述第一神经网络包括：第一子网络以及第二子网络；

9.根据权利要求7所述的确定装置，其特征在于，所述第二神经网络包括：第三子网络以及第四子网络；

10.一种信息推荐装置，其特征在于，包括：

第二获取模块，用于获取待推送用户针对多个已推送内容的历史行为信息；

第二构建模块，用于基于所述历史行为信息的先后顺序以及至少一个待推送内容，构建与各个待推送内容分别对应的特征向量序列；

第二输入模块，用于对每个待推送内容，将与该待推送内容对应的特征向量序列输入至信息推荐模型中，得到与该待推送内容对应的相关度；

第三确定模块，用于基于各个待推送内容分别对应的相关度的大小，从多个所述待推送内容中确定至少一个目标推送内容，并将所述目标推送内容推送至所述待推送用户；

11.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一所述的方法的步骤。