CN108304440B

CN108304440B - 游戏推送的方法、装置、计算机设备及存储介质

Info

Publication number: CN108304440B
Application number: CN201711057973.9A
Authority: CN
Inventors: 万伟; 王星雅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2021-08-31
Anticipated expiration: 2037-11-01
Also published as: CN108304440A

Abstract

本发明提出了一种游戏推送的方法，该方法包括：获取历史游戏行为数据，将历史游戏行为数据对应的时间段切分得到子时间段集合，获取每个子时间段对应的子历史游戏行为数据，确定与每个候选推荐游戏对应的游戏行为子向量，根据游戏行为子向量构建与子时间段对应的游戏行为特征向量，根据游戏行为特征向量对应的时间顺序形成与用户标识对应的时序行为特征矩阵，将时序行为特征矩阵输入已训练的游戏推荐模型，输出候选推荐游戏对应的推荐参数，根据推荐参数从候选推荐游戏中筛选出目标推荐游戏进行推荐。该游戏推送的方法，提高了游戏推送的准确度，节省了推荐资源。此外，还提出了一种游戏推送的装置、计算机设备及存储介质。

Description

游戏推送的方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机处理技术领域，特别是涉及一种游戏推送的方法、装置、计算机设备及存储介质。

背景技术

随着人们生活水平的提高和互联网的发展，越来越多的人喜欢在空闲时间玩游戏。游戏开发商们为了满足人们的游戏需求，不断地提出了各种各样的游戏。由于游戏越来越多，导致用户很难快速地找到自己感兴趣的游戏。为了方便用户获取到感兴趣的游戏，很多游戏平台会主动地为用户推荐一些游戏。但是传统的游戏推荐方式往往只是简单地收集用户标签，然后根据用户标签进行推荐，没有考虑到用户兴趣的变化，这种推荐方式并没有得到良好的推荐效果，导致推荐资源的浪费。

发明内容

基于此，有必要针对上述推荐资源浪费的问题，提出了一种可以节省推荐资源的游戏推送的方法、装置、计算机设备及存储介质。

一种游戏推送的方法，所述方法包括：

获取历史游戏行为数据，所述历史游戏行为数据存在对应的用户标识和时间信息；

将所述历史游戏行为数据对应的时间段切分得到子时间段集合；

获取所述子时间段集合中每个子时间段对应的子历史游戏行为数据，根据所述子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量；

根据各个候选推荐游戏对应的游戏行为子向量构建与所述子时间段对应的游戏行为特征向量；

根据所述游戏行为特征向量对应的时间顺序形成与所述用户标识对应的时序行为特征矩阵；

将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数，所述游戏推荐模型是通过获取多个训练用户标识对应的训练历史游戏行为数据，根据所述训练历史游戏行为数据构建与每个训练用户标识对应的训练时序行为特征矩阵和训练目标输出结果，将所述训练时序行为特征矩阵和训练目标输出结果作为训练数据，采用神经网络模型进行训练得到的；

根据所述推荐参数从所述候选推荐游戏中筛选出目标推荐游戏，向所述用户标识对应的终端推送所述目标推荐游戏。

一种游戏推送的装置，所述装置包括：

获取模块，用于获取历史游戏行为数据，所述历史游戏行为数据存在对应的用户标识和时间信息；

切分模块，用于将所述历史游戏行为数据对应的时间段切分得到子时间段集合；

确定模块，用于获取所述子时间段集合中每个子时间段对应的子历史游戏行为数据，根据所述子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量；

构建模块，用于根据各个候选推荐游戏对应的游戏行为子向量构建与所述子时间段对应的游戏行为特征向量；

形成模块，用于根据所述游戏行为特征向量对应的时间顺序形成与所述用户标识对应的时序行为特征矩阵；

输出模块，用于将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数，所述游戏推荐模型是通过获取多个训练用户标识对应的训练历史游戏行为数据，根据所述训练历史游戏行为数据构建与每个训练用户标识对应的训练时序行为特征矩阵和训练目标输出结果，将所述训练时序行为特征矩阵和训练目标输出结果作为训练数据，采用神经网络模型进行训练得到的；

推送模块，用于根据所述推荐参数从所述候选推荐游戏中筛选出目标推荐游戏，向所述用户标识对应的终端推送所述目标推荐游戏。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

上述游戏推送的方法、装置、计算机设备及存储介质，根据历史游戏行为数据构建与用户标识对应的时序行为特征矩阵，根据时序行为特征矩阵采用已训练的游戏推荐模型预测用户对候选推荐游戏的推荐参数，然后根据推荐参数进行推荐。该游戏推送的方法通过构建能够反映用户兴趣随时间变化的时序行为特征矩阵，然后采用已训练的游戏推荐模型进行预测，提高了游戏推送的准确度，节省了推荐资源。

附图说明

图1为一个实施例中游戏推送的方法的应用环境图；

图2为一个实施例中游戏推送的方法流程图；

图3为一个实施例中根据子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量的方法流程图。

图4为一个实施例中游戏行为特征矩阵的示意图；

图5为一个实施例中建立游戏推荐模型的方法流程图；

图6为一个实施例中采用深度神经网络模型对游戏推荐模型进行训练的示意图；

图7为另一个实施例中游戏推送的方法流程图；

图8为另一个实施例中建立游戏推荐模型的方法流程图；

图9为另一个实施例中采用深度神经网络模型对游戏推荐模型进行训练的示意图；

图10为一个实施例中根据推荐参数从候选推荐信息中筛选出目标推荐信息，向用户标识对应的终端推荐目标推荐信息的方法流程图；

图11为又一个实施例中游戏推送的方法流程图；

图12为一个实施例中游戏推送的装置结构框图；

图13为一个实施例中游戏推荐模型建立模块的结构框图；

图14为另一个实施例游戏推送的装置结构框图；

图15为一个实施例中计算机设备的内部结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中游戏推送的方法的应用环境图。参照图1，该游戏推送的方法应用于游戏推送的系统。该游戏推送的系统包括服务器110和终端120。服务器110与终端120通过网络连接。其中，服务器110可以是独立的服务器，也可以是多个服务器组成的服务器集群。终端120具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。具体地，服务器110获取历史游戏行为数据，所述历史游戏行为数据存在对应的用户标识和时间信息，将所述历史游戏行为数据对应的时间段切分得到子时间段集合，获取所述子时间段集合中每个子时间段对应的子历史游戏行为数据，根据所述子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量，根据各个候选推荐游戏对应的游戏行为子向量构建与所述子时间段对应的游戏行为特征向量，根据所述游戏行为特征向量对应的时间顺序形成与所述用户标识对应的时序行为特征矩阵；将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数，所述游戏推荐模型是通过获取多个训练用户标识对应的训练历史游戏行为数据，根据所述训练历史游戏行为数据构建与每个训练用户标识对应的训练时序行为特征矩阵和训练目标输出结果，将所述训练时序行为特征矩阵和训练目标输出结果作为训练数据，采用神经网络模型进行训练得到的。最后，根据所述推荐参数从所述候选推荐游戏中筛选出目标推荐游戏，向所述用户标识对应的终端120推送所述目标推荐游戏。

如图2所示，在一个实施例中，提供了一种游戏推送的方法。本实施例主要以该方法应用于上述图1中的服务器110来举例说明。参照图2，该游戏推送的方法具体包括如下步骤：

步骤S202，获取历史游戏行为数据，历史游戏行为数据存在对应的用户标识和时间信息。

其中，历史游戏行为数据是指用户与游戏进行交互产生的行为数据。比如，用户玩每款游戏的次数、天数、平均每天时长等。由于历史游戏行为数据是与用户交互产生的数据，所以存在对应的用户标识，用户标识用于唯一标识一个用户。用户标识可以是用户注册的游戏账号、也可以是终端标识、还可以是为用户分配的唯一编号等。由于历史游戏行为数据是由用户与游戏之间的交互产生的数据，而交互对应有相应的交互时间，所以历史游戏行为数据对应有相应的时间信息。时间信息包括历史游戏行为数据产生的时间。在一个实施例中，只需要获取预设时间段内(比如，1年)的历史游戏行为数据，其中，预设时间段可以根据实际情况具体设置。

步骤S204，将历史游戏行为数据对应的时间段切分得到子时间段集合。

其中，历史游戏行为数据对应有相应的时间信息，历史游戏行为数据对应的时间段是指历史游戏行为数据中最早的历史游戏行为数据产生的时刻与最晚的历史游戏行为数据产生的时刻之间的时间段。将历史游戏行为数据对应的时间段切分为若干个子时间段，得到子时间段集合。比如，历史游戏行为数据对应的时间段为1年，将该时间段随机切分得到4个子时间段，组成子时间段集合。后续分别提取与每个子时间段对应的历史游戏行为数据。

步骤S206，获取子时间段集合中每个子时间段对应的子历史游戏行为数据，根据子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量。

其中，将历史游戏行为数据对应的时间段切分得到若干个子时间段，由于历史游戏行为数据对应有时间信息，所以对应的也将历史游戏行为数据切分得到若干个子历史游戏行为数据，分别获取每个子时间段对应的子历史游戏行为数据，然后根据子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量。游戏行为子向量反应了子时间段中游戏的行为特征。具体地，从子历史游戏行为数据中分别提取与每个候选推荐游戏对应的候选游戏行为数据，然后根据候选游戏行为数据根据预设的规则确定该候选推荐游戏对应的游戏行为子向量。比如，根据候选游戏行为数据统计候选推荐游戏在这个子时间段内一共玩了几次游戏，游戏的开始等级以及最终等级，平均每天时长等，然后确定候选推荐游戏对应的游戏行为子向量，比如，将(游戏次数，游戏最初等级，游戏最后等级，平均每天时长，付费次数)作为游戏行为子向量。如何用户没有玩过某款游戏，那么就获取不到相应的候选游戏行为数据，可以用0向量来表示相应的游戏行为子向量。

步骤S208，根据各个候选推荐游戏对应的游戏行为子向量构建与子时间段对应的游戏行为特征向量。

其中，游戏行为特征向量是由多个游戏行为子向量组成的。游戏行为特征向量反应了子时间段中用户的游戏行为特征，比如，用户在这个子时间段内与每款候选推荐游戏交互了多少次，每次交互的时间等。具体地，游戏行为特征向量是由各个候选推荐游戏对应的游戏行为子向量按照预设规则组成的。比如，一共有5个候选推荐游戏，对应的游戏行为子向量分为A、B、C、D、E、F，将这五个游戏行为子向量按照预设顺序组成游戏行为特征向量，比如，假设预设顺序为C、D、A、B、E、F，那么按照这样的顺序将相应的游戏行为子向量进行组合得到子时间段对应的游戏行为特征向量。

步骤S210，根据游戏行为特征向量对应的时间顺序形成与用户标识对应的时序行为特征矩阵。

其中，时序行为特征矩阵是由多个游戏行为特征向量构成的，并按照游戏行为特征向量对应的时间先后顺序组成的。具体地，确定了与每个子时间段对应的游戏行为特征向量后，按照各个子时间段的时间先后顺序，即游戏行为特征向量对应的时间先后顺序形成与用户标识对应的时序行为特征矩阵。通过构造与每个子时间段对应的游戏行为特征向量，然后再根据各个子时间段对应的游戏行为特征向量组合为与时间关联的时序行为特征矩阵，更加有利于反映出用户游戏行为特征随着时间的变化情况，从而有利于后续更加准确地预测出用户下一时间段感兴趣的游戏。

由于用户对游戏的兴趣会随着时间不断变化，所以通过构建与时间关联的游戏时序行为特征矩阵有利于后续得到更加准确的预测效果。比如，对于刚刚接触游戏的用户可能会选择简单、容易上手、大众化的游戏，随着对游戏的理解越来越深入，用户可能会选择更具有挑战性、难度更大、更小众的游戏，而且每个用户玩游戏的速度、程度都非常不一样，所以通过收集用户的历史游戏行为数据，构成具有时序特征的游戏行为特征矩阵，有利于预测用户接下来将会感兴趣的游戏，然后进行推荐。

步骤S212，将时序行为特征矩阵输入已训练的游戏推荐模型，输出候选推荐游戏对应的推荐参数，游戏推荐模型是通过获取多个训练用户标识对应的训练历史游戏行为数据，根据训练历史游戏行为数据构建与每个训练用户标识对应的训练时序行为特征矩阵和训练目标输出结果，将训练时序行为特征矩阵和训练目标输出结果作为训练数据，采用神经网络模型进行训练得到的。

其中，游戏推荐模型用于预测用户接下来将会对哪些候选游戏感兴趣，通过将能够反映用户游戏兴趣随时间变化的时序行为特征矩阵作为已训练的游戏推荐模型，输出相应的候选推荐游戏的推荐参数，推荐参数反映了用户对候选推荐游戏的感兴趣情况。具体地，游戏推荐模型是采用神经网络模型(比如，LSTM模型)进行训练得到，通过获取多个训练用户标识对应的训练历史游戏行为数据，根据训练历史游戏行为数据构建与每个训练用户标识对应的训练时序行为特矩阵，并且构建与训练时序行为特征矩阵对应的训练目标输出结果，然后将训练时序行为特征矩阵和训练目标输出结果作为神经网络模型的训练数据对模型进行训练得到目标游戏推荐模型。在一个实施例中，推荐参数为输出的对候选推荐游戏是否推荐的结果，即推荐参数为推荐或不推荐，后续直接根据该推荐结果即可确定是否推荐候选推荐游戏。在另一个实施例中，推荐参数为计算得到的推荐概率或不推荐概率，即输出的是用户对候选推荐游戏感兴趣的概率，后续根据推荐概率确定是否推荐候选推荐游戏。

步骤S214，根据推荐参数从候选推荐游戏中筛选出目标推荐游戏，向用户标识对应的终端推送目标推荐游戏。

其中，推荐参数反映了用户对候选推荐游戏的感兴趣情况。根据推荐参数从候选推荐游戏中筛选出目标推荐游戏。推荐参数可以是推荐概率，也可以直接是推荐结果。具体地，若推荐参数是一个推荐概率，则可以预先设置一个推荐阈值，若推荐参数大于预设的推荐阈值，则说明用户对该候选推荐游戏感兴趣，将该候选推荐游戏作为目标推荐游戏推送到与用户标识对应的终端。若推荐参数是推荐或不推荐的结果，则直接根据得到的推荐或不推荐结果来确定是否向用户标识对应的终端推送候选推荐游戏，即如果推荐参数为推荐，则向用户标识对应的终端进行推送，若推荐参数为不推荐，则不向用户标识对应的终端进行推送。在另一个实施例中，推荐参数包括候选推荐游戏的推荐概率，根据多个候选推荐游戏对应的推荐概率的大小生成与用户标识对应的游戏推荐列表，然后根据游戏推荐列表中排列的先后顺序确定与用户标识对应的推荐游戏。比如，将推荐游戏按照推荐概率从大到小排序，然后将排在前面的候选推荐游戏作为目标推荐游戏。

上述游戏推送的方法，根据历史游戏行为数据构建与用户标识对应的时序行为特征矩阵，根据时序行为特征矩阵采用已训练的游戏推荐模型预测用户对候选推荐游戏的推荐参数，然后根据推荐参数进行推荐。该游戏推送的方法通过构建能够反映用户兴趣随时间变化的时序行为特征矩阵，然后采用已训练的游戏推荐模型进行预测，提高了游戏推送的准确度，节省了推荐资源。

在一个实施例中，将历史游戏行为数据对应的时间段切分得到子时间段集合的步骤包括：将历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段集合。

其中，单位时间是指自定义的用于划分时间的标准，比如，可以将1天作为单位时间，也可以将1周作为单位时间，还可以将1个月作为单位时间等。通过设置单位时间，然后采用单位时间对历史游戏行为数据对应的时间段进行切分能够得到时间间隔相同的子时间段。历史游戏行为数据对应有相应的时间信息，历史游戏行为数据对应的时间段是指历史游戏行为数据中最早的历史游戏行为数据产生的时刻与最晚的历史游戏行为数据产生的时刻之间的时间段。将历史游戏行为数据对应的时间段根据预先设置的单位时间间隔进行切分得到单位时间段，即子时间段。比如，假设历史游戏行为数据对应的时间段为1年，若单位时间为1个月，那么根据单位时间间隔将对应的时间段切分，将会得到12个子时间段，如果单位时间为3个月，那么将会切分得到4个子时间段。

如图3所示，在一个实施例中，获取子时间段集合中每个子时间段对应的子历史游戏行为数据，根据子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量的步骤S206包括：

步骤S206A，从子历史游戏行为数据中提取与每个候选推荐游戏对应的候选游戏行为数据，若候选推荐游戏存在对应的候选游戏行为数据，则进入步骤S206B，若候选推荐游戏不存在对应的候选游戏行为数据，则进入步骤S206C。

步骤S206B，将候选推荐游戏对应的游戏行为子向量设为0。

步骤S206C，根据候选游戏行为数据构建与候选推荐游戏对应的游戏行为子向量。

其中，获取到与每个子时间段对应的子历史游戏行为数据后，从子历史游戏行为数据中提取与每个候选推荐游戏对应的候选游戏行为数据，若子历史游戏行为数据中存在与候选推荐游戏对应的候选游戏行为数据，则根据候选游戏行为数据构建与该候选推荐游戏对应的游戏行为子向量。若子历史游戏行为数据中不存在与候选推荐游戏对应的候选游戏行为数据，则说明在该子时间段内用户没玩过该候选推荐游戏，直接将该候选推荐游戏对应的游戏行为子向量设为0。举个例子，假设游戏行为子向量为5维的向量，包括在该子时间段内交互的次数，每次交互的时长、付费次数、付费天数和付费金额。通过获取每个候选推荐游戏对应的候选游戏行为数据来确定每个候选推荐游戏对应的游戏行为子向量，若不存在对应的候选游戏行为数据，则将相应游戏行为子向量对应的元素值都设为0，即为一个5维的0向量。

如图4所示，为一个实施例中用户对应的游戏行为特征矩阵的示意图。在该实施例中，以月为单位时间，假设一共有N个候选推荐游戏，收集用户近M个月的游戏行为数据。收集的信息包括但不限于：用户当月玩每款游戏的次数、天数、平均每天时长、用户当前玩每款游戏的付费次数、天数、金额，用户当月月初每款游戏的等级、月末每款游戏的等级。并将同一款游戏的行为数据集中起来。根据收集到的M个月的游戏行为数据构建与用户对应的游戏行为特征矩阵，然后预测第M+1月用户对候选推荐游戏的感兴趣情况。

如图5所示，在一个实施例中，在将时序行为特征矩阵输入已训练的游戏推荐模型，输出候选推荐游戏对应的推荐参数的步骤之前还包括：建立游戏推荐模型。建立游戏推荐模型的步骤包括：

步骤S201A，获取训练历史游戏行为数据，训练历史游戏行为数据存在对应的训练用户标识。

其中，训练历史游戏行为数据是指用于游戏推荐模型训练的历史游戏行为数据。同样地，该训练历史游戏行为数据存在对应的训练用户标识。

步骤S201B，将训练游戏历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段。

其中，单位时间是指自定义的用于划分时间的标准，比如，可以将1天作为单位时间，也可以将1周作为单位时间，还可以将1个月作为单位时间等。通过设置单位时间，然后采用单位时间对训练历史游戏行为数据对应的时间段进行切分能够得到时间间隔相同的子时间段。训练历史游戏行为数据对应有相应的时间信息，训练历史游戏行为数据对应的时间段是指训练历史游戏行为数据中最早的训练历史游戏行为数据产生的时刻与最晚的训练历史游戏行为数据产生的时刻之间的时间段。将训练历史游戏行为数据对应的时间段根据预先设置的单位时间间隔进行切分得到单位时间段，即子时间段。比如，假设训练历史游戏行为数据对应的时间段为1年，若单位时间为1个月，那么根据单位时间间隔将对应的时间段切分，将会得到12个子时间段，如果单位时间为3个月，那么将会切分得到4个子时间段。

步骤S201C，获取每个子时间段内候选推荐游戏对应的训练子历史游戏行为数据，根据训练子历史游戏行为数据确定与每个子时间段对应的训练游戏行为特征向量。

其中，将训练历史游戏行为数据对应的时间段划分得到若干个子时间段后，可以分别获取每个子时间段对应的训练历史游戏行为数据，为了便于区分，称为“训练子历史游戏行为数据”。根据训练子历史游戏行为数据构建与每个子时间段对应的训练游戏行为特征向量。训练游戏行为特征向量反应了子时间段中训练用户的游戏行为特征，比如，用户在这个子时间段与候选推荐游戏交互了多少次，每次交互的时间等。

步骤S201D，根据训练游戏行为特征向量对应的时间顺序形成与训练用户标识对应的训练时序行为特征矩阵。

其中，确定了与每个子时间段对应的训练游戏行为特征向量后，按照各个子时间段的先后顺序，即按照训练游戏行为特征向量对应的时间先后顺序形成与用户标识对应的训练时序行为特征矩阵。训练时序行为特征矩阵是由多个训练游戏行为特征向量组成的。

步骤S201E，获取训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据目标历史游戏行为数据确定与训练时序行为特征矩阵对应的目标输出结果。

其中，下一单位时间段是指将要预测的目标单位时间段。下一单位时间段是与历史游戏行为数据对应的时间段相对应的。比如，历史游戏行为数据对应的时间段为2017年的1月-2017年的6月，假设是以月为单位时间，那么下一单位时间段是指2017年的7月。通过将训练历史游戏行为数据对应的时间段切分为多个子时间段，然后获取每个子时间段对应的训练游戏行为特征向量，之后再根据每个训练游戏行为特征向量对应的时间先后顺序组合为训练时序行为特征矩阵，该训练时序行为特征矩阵反应了用户游戏行为特征随着单位时间间隔的变化情况，获取训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据的目的是确定与训练时序行为特征矩阵对应的目标输出结果。因为训练游戏推荐模型的目的是为了根据已知的时序行为特征矩阵来预测未知的下一单位时间段用户可能感兴趣的信息并予以推荐。而训练游戏推荐模型的过程中需要将相应的已知的下一单位时间段实际输出的结果作为期望的输出来对模型进行训练。具体地，获取下一单位时间段对应的目标历史游戏行为数据，根据目标历史游戏行为数据确定与训练时序行为特征矩阵对应的目标输出结果。

步骤S201F，将训练时序行为特征矩阵作为游戏推荐模型的输入，将对应的目标输出结果作为期望的输出进行训练，得到目标游戏推荐模型。

其中，将能够代表用户兴趣变化情况的训练时序行为特征矩阵作为游戏推荐模型的输入，将对应的目标输出结果作为期望的输出进行训练。在训练的过程中通过不断调整游戏推荐的模型参数使得实际输出的推荐结果与目标输出结果不断接近，直到两者的误差符合条件，完成对模型的训练。具体地，对游戏推荐模型进行训练可以采用任何支持时序的神经网络模型，比如，可以使用LSTM(Long Short-Term Memory，时间递归神经网络)模型进行训练。

如图6所示，为一个实施例中采用深度神经网络模型(以LSTM模型为例)对游戏推荐模型进行训练的示意图。LSTM模型包括输入层、隐藏层、输出层。其中，隐藏层可以有多层(图6中以两层隐藏层作为示意)。相邻的层与层之间的神经元都是全连接的，也就是说，第i层的中的任意一个神经元一定与第i+1层的任意一个神经元相连。根据收集到的训练历史游戏行为数据构建训练时序行为特征矩阵，将训练时序行为特征矩阵作为输入层的输入。将与训练时间段对应的下一个单位时间段中用户对各个候选推荐游戏是否感兴趣作为期望的输出。其中，如果感兴趣则记为1，不感兴趣记为0，从而构造出目标向量，举个例子，如果有14个候选推荐游戏。那么相应的目标输出结果可以表示为(0，0，0，1，0，0，0，1，0，0，0，0，1，0)。

如图7所示，在一个实施例中，提出了一种游戏推送的方法，该方法包括以下步骤：

步骤S702，获取历史游戏行为数据，历史游戏行为数据存在对应的用户标识和时间信息。

步骤S704，将历史游戏行为数据对应的时间段切分得到子时间段集合。

步骤S706，获取子时间段集合中每个子时间段对应的子历史游戏行为数据，根据子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量。

步骤S708，根据各个候选推荐游戏对应的游戏行为子向量构建与子时间段对应的游戏行为特征向量。

步骤S710，根据游戏行为特征向量对应的时间顺序形成与用户标识对应的时序行为特征矩阵。

步骤S712，获取与用户标识对应的非时序行为数据，根据非时序行为数据构建与用户标识对应的非时序行为特征矩阵。

步骤S714，将时序行为特征矩阵和非时序行为特征矩阵作为已训练的游戏推荐模型的输入，输出候选推荐游戏对应的推荐参数。

步骤S716，根据推荐参数从候选推荐游戏中筛选出目标推荐游戏，向用户标识对应的终端推送目标推荐游戏。

其中，为了能够更准确地预测用户接下来感兴趣的游戏，除了获取与候选推荐游戏对应的历史游戏行为数据，构建相应的时序行为特征矩阵外，还可以获取与用户标识对应的非时序行为数据，然后根据非时序行为数据构建与用户标识对应的非时序行为特征矩阵。非时序行为数据是指与时间无关的行为数据。比如，用户的好友数、关注和被关注数，用户的年龄、性别、城市等与时间无关的数据。非时序特征矩阵的构建是通过将非时序行为数据可以按照预设的顺序组合而成的，比如，按照(年龄、性别、城市、好友数、被关注数、关注数)这样的顺序构成与用户标识对应的非时序行为特征矩阵。获取到时序行为特征矩阵和非时序特征矩阵后，同时将时序行为特征矩阵和非时序特征矩阵一起作为已训练的游戏推荐模型的输入，然后获取输出的候选推荐游戏对应的推荐参数。由于用户的兴趣可能会因为性别、年龄、地域等的不同而有很大的差异，所以通过同时考虑用户的时序行为特征和非时序行为特征有利于进一步提高游戏推送的准确度，从而进一步节省推荐资源。

在一个实施例中，在根据非时序行为数据构建与用户标识对应的非时序行为特征矩阵的步骤之前还包括：若历史游戏行为数据对应的时间段小于预设时间长度，则进入获取与用户标识对应的非时序行为数据的步骤。

其中，对于新用户来说，其对应的历史游戏行为数据往往比较少，为了提高对新用户推荐的准确度，首先，判断获取到的历史游戏行为数据对应的时间段是否小于预设时间长度，历史游戏行为数据对应的时间段反映了用户与候选推荐游戏进行交互的时间长度，如果只获取到一个用户近一个月的历史游戏行为数据，那么说明该用户与候选推荐游戏进行交互的时间还比较短，该用户属于一个新用户。由于该新用户的历史游戏行为数据对应的时间段比较短，为了提高推荐的准确性，还需要获取用户的非时序行为数据作为辅助。在一个实施例中，预先设置预设时间长度，然后将获取到的历史游戏行为数据对应的时间段与预设时间长度进行比较，如果小于预设时间长度，则获取非时序行为数据，如果不小于，则不需要获取非时序行为数据。比如，设置预设时间长度为1年，如果获取到的历史游戏行为数据对应的时间段小于1年，那么需要获取用户的非时序行为数据。

如图8所示，在一个实施例中，在将时序行为特征矩阵和非时序行为特征矩阵作为已训练的游戏推荐模型的输入，输出候选推荐游戏对应的推荐参数的步骤之前还包括：：建立游戏推荐模型。建立游戏推荐模型包括以下步骤：

步骤S701A，获取训练历史游戏行为数据，训练历史游戏行为数据存在对应的训练用户标识。

步骤S701B，根据训练历史游戏行为数据对应的时间信息构建与训练用户标识对应的训练时序行为特征矩阵。

步骤S701C，获取与训练用户标识对应的非时序行为数据，根据非时序行为数据构建与训练用户标识对应的训练非时序行为特征矩阵。

步骤S701D，获取训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据目标历史游戏行为数据确定对应的目标输出结果。

步骤S701E，将训练时序行为特征矩阵和训练非时序行为特征矩阵作为游戏推荐模型的输入，将对应的目标输出结果作为期望的输出进行训练，得到目标游戏推荐模型。

上述游戏推荐模型的建立，在训练的过程中，不但需要获取与候选推荐游戏对应的训练历史游戏行为数据，根据训练历史游戏行为数据对应的时间信息构建与训练用户标识对应的训练时序行为特征矩阵，还需要获取与训练用户标识对应的非时序行为数据，根据非时序行为数据构建与训练用户标识对应的训练非时序行为特征矩阵。然后获取训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据目标历史游戏行为数据确定对应的目标输出结果，该目标输出结果即为期望的输出结果。然后将训练时序行为特征矩阵和训练非时序行为特征矩阵作为游戏推荐模型的输入，将相应的目标输出结果作为期望的输出对游戏推荐模型进行训练。在训练的过程中通过不断调整游戏推荐的模型参数使得实际输出的推荐结果与目标输出结果不断接近，直到两者的误差符合条件，完成对模型的训练。

如图9所示，为一个实施例中采用深度神经网络模型对游戏推荐模型进行训练的示意图。深度神经网络模型包括输入层、隐藏层和输出层。其中，隐藏层可以有多层(图9中以两层隐藏层作为示意)。相邻的层与层之间的神经元都是全连接的，也就是说，第i层的中的任意一个神经元一定与第i+1层的任意一个神经元相连。以收集到的训练历史游戏行为数据构造的训练时序行为特征矩阵和收集到的非时序行为数据构造的非时序行为特征矩阵一起作为输入，将与训练时间段对应的下一个单位时间段中用户对各个候选推荐游戏是否感兴趣作为期望的输出，训练得到游戏推荐模型对应的神经元的个数和各个神经元对应的权重和偏差。

如图10所示，在一个实施例中，推荐参数包括候选推荐游戏的推荐概率；根据推荐参数从候选推荐游戏中筛选出目标推荐游戏，向用户标识对应的终端推荐目标推荐游戏的步骤S214包括：

步骤S214A，从候选推荐游戏中筛选出用户未交互过的目标候选推荐游戏。

具体地，候选推荐游戏有多个，由于用户对已经交互过的候选推荐游戏已经有了比较深的了解，不需要再为用户推荐这部分游戏。通过从多个候选推荐游戏中筛选出用户未交互过的候选推荐游戏作为目标候选推荐游戏。比如，总共有N个候选推荐游戏，从这N个候选推荐游戏中筛选出用户从未玩过的游戏。

步骤S214B，根据目标候选推荐游戏对应的推荐概率生成与用户标识对应的游戏推荐列表。

具体地，通过游戏推荐模型输出与每个候选推荐游戏对应的推荐概率，根据目标候选推荐游戏对应的推荐概率生成与用户标识对应的游戏推荐列表。其中，目标候选推荐游戏有多个，根据每个目标候选推荐游戏对应的推荐概率的大小生成游戏推荐列表。游戏推荐列表中目标推荐游戏按照推荐概率从大到小排列。

步骤S214C，根据游戏推荐列表确定与用户标识对应的目标推荐游戏。

具体地，在得到游戏推荐列表后，可以根据预设的推荐标准确定与用户标识对应的目标推荐游戏。在一个实施例中，可以将游戏推荐列表中排在前三位的目标候选推荐游戏作为与用户标识对应的目标推荐游戏，也可以只将排在第一位的作为与用户标识对应的目标推荐游戏。

在一个实施例中，将时序行为特征矩阵输入已训练的游戏推荐模型，输出候选推荐游戏对应的推荐参数的步骤包括：根据时序行为特征矩阵得到输入层节点序列，将输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，将下一隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的候选推荐游戏的推荐参数。

具体地，游戏推荐模型为采用支持时序的神经网络模型训练得到，比如，循环神经网络模型(RNN模型)，LSTM模型等。以RNN模型为例来进行说明。循环神经网络模型包括输入层、隐层和输出层，其中，隐层可以为多层。输入层节点序列是指输入到输入层的各个输入参数的排列顺序，其是根据时序行为特征矩阵本身形成的序列。比如，时序行为特征矩阵是由M个行为特征向量组成的，那么相应的输入层节点列表可以是这M个行为特征向量按照顺序形成的序列。输入层的作用是将输入的参数进行投影变换处理，得到第一隐层对应的隐层节点序列，即将输入层的输出作为第一隐层的输入，隐层节点序列是指该隐层所对应的输入参数的序列。将第一隐层作为当前处理隐层，然后获取当前处理隐层的输出作为下一层隐层的输入。输入层、隐层和输出层都是由神经元构成的，每个神经元作为相应层的一个神经元节点。相邻的层与层之间的神经元都是全连接的，也就是说，第i层的中的任意一个神经元一定与第i+1层的任意一个神经元相连。每个隐层和输出层中的各个神经元节点都对应有相应的权重，输入层没有权重。在获取到当前处理隐层对应的隐层节点序列后，根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重以及上一时刻当前处理隐层的输出计算一个中间值，然后对得到的中间值采用非线性映射得到下一层隐层的隐层节点序列。在一个具体的实施例中，RNN中的层与层之间的游戏传递的规则可以表示为如下形式：

其中，

为t时刻处于当前层h单元的值，I为前一层神经元节点的总个数，即当前层输入参数的总个数，H为当前层中的神经元节点的总个数，w_ih是单元i到单元h的权重，w_h'h是单元h'到单元h的权重，

表示当前层前一时刻的输出。

为

经过激励函数(非线性映射)之后的值。

然后，将获取到的下一层隐层作为当前处理隐层，判断当前处理隐层是否为最后一层隐层，若是，则根据当前处理隐层对应的隐层节点序列和当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射计算得到输出层对应的输出层节点序列，如果不是，则根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，依次类推，直到输出层。

最后，根据最后一层隐层对应的隐层节点序列和各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到输出层对应的输出层节点序列，即将最后一层隐层的输出作为输出层的输入，然后输出层根据对应的输出层节点序列和输出层对应的各神经元节点的权重和上一时刻输出层的输出并采用非线性映射计算得到与各个候选推荐游戏对应的推荐参数。

如图11所示，提出了一种游戏推送的方法，该方法包括以下步骤：

步骤S1101，获取历史游戏行为数据，历史游戏行为数据存在对应的用户标识和时间信息。

步骤S1102，将历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段。

步骤S1103，从子历史游戏行为数据中提取与每个候选推荐游戏对应的候选游戏行为数据；若存在候选推荐游戏不存在对应的候选游戏行为数据，则进入步骤S1104，若候选推荐游戏存在对应的候选游戏行为数据，则进入步骤S1105。

步骤S1104，将候选推荐游戏对应的游戏行为子向量设为0。

步骤S1105，根据候选游戏行为数据构建与候选推荐游戏对应的游戏行为子向量。

步骤S1106，根据各个候选推荐游戏对应的游戏行为子向量构建与子时间段对应的游戏行为特征向量。

步骤S1107，根据游戏行为特征向量对应的时间顺序形成与用户标识对应的时序行为特征矩阵。

步骤S1108，将时序行为特征矩阵输入已训练的游戏推荐模型，输出候选推荐游戏对应的推荐参数，游戏推荐模型是通过获取多个训练用户标识对应的训练历史游戏行为数据，根据训练历史游戏行为数据构建与每个训练用户标识对应的训练时序行为特征矩阵和训练目标输出结果，将训练时序行为特征矩阵和训练目标输出结果作为训练数据，采用神经网络模型进行训练得到的。

步骤S1109，从候选推荐游戏中筛选出用户未交互过的目标候选推荐游戏；

步骤S1110，根据目标候选推荐游戏对应的推荐概率生成与用户标识对应的游戏推荐列表；

步骤S1111，根据游戏推荐列表确定与用户标识对应的目标推荐游戏。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图12所示，提出了一种游戏推送的装置，该装置包括：

获取模块1202，用于获取历史游戏行为数据，所述历史游戏行为数据存在对应的用户标识和时间信息；

切分模块1204，用于将所述历史游戏行为数据对应的时间段切分得到子时间段集合；

确定模块1206，用于获取所述子时间段集合中每个子时间段对应的子历史游戏行为数据，根据所述子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量；

构建模块1208，用于根据各个候选推荐游戏对应的游戏行为子向量构建与所述子时间段对应的游戏行为特征向量；

形成模块1210，用于根据所述游戏行为特征向量对应的时间顺序形成与所述用户标识对应的时序行为特征矩阵；

输出模块1212，用于将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数，所述游戏推荐模型是通过获取多个训练用户标识对应的训练历史游戏行为数据，根据所述训练历史游戏行为数据构建与每个训练用户标识对应的训练时序行为特征矩阵和训练目标输出结果，将所述训练时序行为特征矩阵和训练目标输出结果作为训练数据，采用神经网络模型进行训练得到的；

推送模块1214，用于根据所述推荐参数从所述候选推荐游戏中筛选出目标推荐游戏，向所述用户标识对应的终端推送所述目标推荐游戏。

在一个实施例中，所述切分模块还用于将所述历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段集合。

在一个实施例中，所述确定模块还用于从所述子历史游戏行为数据中提取与每个候选推荐游戏对应的历史游戏行为数据；当候选推荐游戏不存在对应的历史游戏行为数据时，则将候选推荐游戏对应的游戏行为子向量设为0；当候选推荐游戏存在对应的历史游戏行为数据时，根据所述历史游戏行为数据构建与所述候选推荐游戏对应的游戏行为子向量。

如图13所示，在一个实施例中，上述游戏推送的装置还包括：第一游戏推荐模型建立模块1201，包括：

训练数据获取模块1201A，用于获取训练历史游戏行为数据，所述训练历史游戏行为数据存在对应的训练用户标识。

时间段切分模块1201B，用于将所述训练游戏历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段。

训练向量确定模块1201C，用于获取每个子时间段内候选推荐游戏对应的训练子历史游戏行为数据，根据所述训练子历史游戏行为数据确定与所述每个子时间段对应的训练游戏行为特征向量。

训练矩阵形成模块1201D，用于根据所述训练游戏行为特征向量对应的时间顺序形成与所述训练用户标识对应的训练时序行为特征矩阵。

结果确定模块1201E，用于获取所述训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据所述目标历史游戏行为数据确定与所述训练时序行为特征矩阵对应的目标输出结果。

训练模块1201F，用于将所述训练时序行为特征矩阵作为所述游戏推荐模型的输入，将对应的所述目标输出结果作为期望的输出进行训练，得到目标游戏推荐模型。

如图14所示，在一个实施例中，上述游戏推送的装置还包括：

非时序行为特征矩阵构建模块1211，用于获取与所述用户标识对应的非时序行为数据，根据所述非时序行为数据构建与所述用户标识对应的非时序行为特征矩阵；

所述输出模块1212还用于将所述时序行为特征矩阵和所述非时序行为特征矩阵作为已训练的游戏推荐模型的输入，输出所述候选推荐游戏对应的推荐参数。

在一个实施例中，上述游戏推送的装置还包括：判断模块，用于若所述历史游戏行为数据对应的时间段小于预设时间长度，则通知所述非时序行为特征矩阵构建模块获取与所述用户标识对应的非时序行为数据。

在一个实施例中，上述游戏推送的装置还包括：第二游戏推荐模型建立模块。第二游戏推荐模型建立模块包括：训练行为数据获取模块，用于获取训练历史游戏行为数据，所述训练历史游戏行为数据存在对应的训练用户标识；时序行为特征矩阵构建模块，用于根据所述训练历史游戏行为数据对应的时间信息构建与所述训练用户标识对应的训练时序行为特征矩阵；非时序行为特征矩阵构建模块，用于获取与所述训练用户标识对应的非时序行为数据，根据所述非时序行为数据构建与所述训练用户标识对应的训练非时序行为特征矩阵；输出结果确定模块，用于获取所述训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据所述目标历史游戏行为数据确定对应的目标输出结果；模型训练模块，用于将所述训练时序行为特征矩阵和所述训练非时序行为特征矩阵作为所述游戏推荐模型的输入，将对应的所述目标输出结果作为期望的输出进行训练，得到目标游戏推荐模型。

在一个实施例中，所述推荐参数包括候选推荐游戏的推荐概率；所述推荐模块还用于从所述候选推荐游戏中筛选出用户未交互过的目标候选推荐游戏；根据目标候选推荐游戏对应的推荐概率生成与所述用户标识对应的游戏推荐列表；根据所述游戏推荐列表确定与所述用户标识对应的目标推荐游戏。

在一个实施例中，所述输出模块还用于根据所述时序行为特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，将下一隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的候选推荐游戏的推荐参数。

图15示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器110。如图15所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现应用程序发布方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行应用程序发布方法。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的游戏推送的装置可以实现为一种计算机程序的形式，计算机程序可在如图15所示的计算机设备上运行。计算机设备的存储器中可存储组成该游戏推送的装置的各个程序模块，比如，图12所示的获取模块1202、切分模块1204、确定模块1206、构建模块1208、形成模块1210、输出模块1212、推送模块1214。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的游戏推送的方法中的步骤。例如，图15所示的计算机设备可以通过如图12所示的游戏推送的装置中的获取模块1202获取历史游戏行为数据，所述历史游戏行为数据存在对应的用户标识和时间信息；通过切分模块1204将所述历史游戏行为数据对应的时间段切分得到子时间段集合；通过确定模块1206获取所述子时间段集合中每个子时间段对应的子历史游戏行为数据，根据所述子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量；通过构建模块1208根据各个候选推荐游戏对应的游戏行为子向量构建与所述子时间段对应的游戏行为特征向量；通过形成模块1210根据所述游戏行为特征向量对应的时间顺序形成与所述用户标识对应的时序行为特征矩阵；通过输出模块1212将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数，所述游戏推荐模型是通过获取多个训练用户标识对应的训练历史游戏行为数据，根据所述训练历史游戏行为数据构建与每个训练用户标识对应的训练时序行为特征矩阵和训练目标输出结果，将所述训练时序行为特征矩阵和训练目标输出结果作为训练数据，采用神经网络模型进行训练得到的；通过推送模块1214根据所述推荐参数从所述候选推荐游戏中筛选出目标推荐游戏，向所述用户标识对应的终端推送所述目标推荐游戏。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取历史游戏行为数据，所述历史游戏行为数据存在对应的用户标识和时间信息；将所述历史游戏行为数据对应的时间段切分得到子时间段集合；获取所述子时间段集合中每个子时间段对应的子历史游戏行为数据，根据所述子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量；根据各个候选推荐游戏对应的游戏行为子向量构建与所述子时间段对应的游戏行为特征向量；根据所述游戏行为特征向量对应的时间顺序形成与所述用户标识对应的时序行为特征矩阵；将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数，所述游戏推荐模型是通过获取多个训练用户标识对应的训练历史游戏行为数据，根据所述训练历史游戏行为数据构建与每个训练用户标识对应的训练时序行为特征矩阵和训练目标输出结果，将所述训练时序行为特征矩阵和训练目标输出结果作为训练数据，采用神经网络模型进行训练得到的；根据所述推荐参数从所述候选推荐游戏中筛选出目标推荐游戏，向所述用户标识对应的终端推送所述目标推荐游戏。

在一个实施例中，所述将所述历史游戏行为数据对应的时间段切分得到子时间段集合的步骤包括：将所述历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段集合。

在一个实施例中，所述获取所述子时间段集合中每个子时间段对应的子历史游戏行为数据，根据所述子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量的步骤包括：从所述子历史游戏行为数据中提取与每个候选推荐游戏对应的候选游戏行为数据；当候选推荐游戏不存在对应的候选游戏行为数据时，则将候选推荐游戏对应的游戏行为子向量设为0；当候选推荐游戏存在对应的候选游戏行为数据时，根据所述候选游戏行为数据构建与所述候选推荐游戏对应的游戏行为子向量。

在一个实施例中，所述处理器在执行将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数的步骤之前，还用于执行以下步骤：获取训练历史游戏行为数据，所述训练历史游戏行为数据存在对应的训练用户标识；将所述训练游戏历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段；获取每个子时间段内候选推荐游戏对应的训练子历史游戏行为数据，根据所述训练子历史游戏行为数据确定与所述每个子时间段对应的训练游戏行为特征向量；根据所述训练游戏行为特征向量对应的时间顺序形成与所述训练用户标识对应的训练时序行为特征矩阵；获取所述训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据所述目标历史游戏行为数据确定与所述训练时序行为特征矩阵对应的目标输出结果；将所述训练时序行为特征矩阵作为所述游戏推荐模型的输入，将对应的所述目标输出结果作为期望的输出进行训练，得到目标游戏推荐模型。

在一个实施例中，所述处理器在执行所述将所述时序行为特征矩阵作为已训练的游戏推荐模型的输入，输出候选推荐游戏对应的推荐参数的步骤之前，还用于执行以下步骤：获取与所述用户标识对应的非时序行为数据，根据所述非时序行为数据构建与所述用户标识对应的非时序行为特征矩阵；所述将所述时序行为特征矩阵作为已训练的游戏推荐模型的输入，输出所述候选推荐游戏对应的推荐参数的步骤包括：将所述时序行为特征矩阵和所述非时序行为特征矩阵作为已训练的游戏推荐模型的输入，输出所述候选推荐游戏对应的推荐参数。

在一个实施例中，所述处理器在执行所述根据所述非时序行为数据构建与所述用户标识对应的非时序行为特征矩阵的步骤之前，还用于执行以下步骤：若所述历史游戏行为数据对应的时间段小于预设时间长度，则进入获取与所述用户标识对应的非时序行为数据的步骤。

在一个实施例中，所述处理器在执行所述将所述时序行为特征矩阵和所述非时序行为特征矩阵作为已训练的游戏推荐模型的输入，输出所述候选推荐游戏对应的推荐参数的步骤之前，还用于执行以下步骤：获取训练历史游戏行为数据，所述训练历史游戏行为数据存在对应的训练用户标识；根据所述训练历史游戏行为数据对应的时间信息构建与所述训练用户标识对应的训练时序行为特征矩阵；获取与所述训练用户标识对应的非时序行为数据，根据所述非时序行为数据构建与所述训练用户标识对应的训练非时序行为特征矩阵；获取所述训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据所述目标历史游戏行为数据确定对应的目标输出结果；将所述训练时序行为特征矩阵和所述训练非时序行为特征矩阵作为所述游戏推荐模型的输入，将对应的所述目标输出结果作为期望的输出进行训练，得到目标游戏推荐模型。

在一个实施例中，所述推荐参数包括候选推荐游戏的推荐概率；所述根据所述推荐参数从所述候选推荐游戏中筛选出目标推荐游戏，向所述用户标识对应的终端推荐所述目标推荐游戏的步骤包括：从所述候选推荐游戏中筛选出用户未交互过的目标候选推荐游戏；根据目标候选推荐游戏对应的推荐概率生成与所述用户标识对应的游戏推荐列表；根据所述游戏推荐列表确定与所述用户标识对应的目标推荐游戏。

在一个实施例中，所述将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数的步骤包括：根据所述时序行为特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，将下一隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的候选推荐游戏的推荐参数。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：获取历史游戏行为数据，所述历史游戏行为数据存在对应的用户标识和时间信息；将所述历史游戏行为数据对应的时间段切分得到子时间段集合；获取所述子时间段集合中每个子时间段对应的子历史游戏行为数据，根据所述子历史游戏行为数据确定与每个候选推荐游戏对应的游戏行为子向量；根据各个候选推荐游戏对应的游戏行为子向量构建与所述子时间段对应的游戏行为特征向量；根据所述游戏行为特征向量对应的时间顺序形成与所述用户标识对应的时序行为特征矩阵；将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数，所述游戏推荐模型是通过获取多个训练用户标识对应的训练历史游戏行为数据，根据所述训练历史游戏行为数据构建与每个训练用户标识对应的训练时序行为特征矩阵和训练目标输出结果，将所述训练时序行为特征矩阵和训练目标输出结果作为训练数据，采用神经网络模型进行训练得到的；根据所述推荐参数从所述候选推荐游戏中筛选出目标推荐游戏，向所述用户标识对应的终端推送所述目标推荐游戏。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种游戏推送的方法，所述方法包括：

获取所述子时间段集合中每个子时间段对应的子历史游戏行为数据，从所述子历史游戏行为数据中提取与每个候选推荐游戏对应的候选游戏行为数据，以确定每个候选推荐游戏对应的游戏行为子向量；

2.根据权利要求1所述的方法，其特征在于，所述将所述历史游戏行为数据对应的时间段切分得到子时间段集合的步骤包括：

将所述历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段集合。

3.根据权利要求1所述的方法，其特征在于，所述从所述子历史游戏行为数据中提取与每个候选推荐游戏对应的候选游戏行为数据，以确定每个候选推荐游戏对应的游戏行为子向量，包括：

当所述子历史游戏行为数据中不存在与候选推荐游戏对应的候选游戏行为数据时，则将所述候选推荐游戏对应的游戏行为子向量设为0；

当所述子历史游戏行为数据中存在与所述候选推荐游戏对应的候选游戏行为数据时，根据所述候选游戏行为数据构建与所述候选推荐游戏对应的游戏行为子向量。

4.根据权利要求2所述的方法，其特征在于，在将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数的步骤之前还包括：

获取训练历史游戏行为数据，所述训练历史游戏行为数据存在对应的训练用户标识；

将所述训练游戏历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段；

获取每个子时间段内候选推荐游戏对应的训练子历史游戏行为数据，根据所述训练子历史游戏行为数据确定与所述每个子时间段对应的训练游戏行为特征向量；

根据所述训练游戏行为特征向量对应的时间顺序形成与所述训练用户标识对应的训练时序行为特征矩阵；

获取所述训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据所述目标历史游戏行为数据确定与所述训练时序行为特征矩阵对应的目标输出结果；

将所述训练时序行为特征矩阵作为所述游戏推荐模型的输入，将对应的所述目标输出结果作为期望的输出进行训练，得到目标游戏推荐模型。

5.根据权利要求1所述的方法，其特征在于，在所述将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出候选推荐游戏对应的推荐参数的步骤之前还包括：

获取与所述用户标识对应的非时序行为数据，根据所述非时序行为数据构建与所述用户标识对应的非时序行为特征矩阵；

所述将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数的步骤包括：

将所述时序行为特征矩阵和所述非时序行为特征矩阵作为已训练的游戏推荐模型的输入，输出所述候选推荐游戏对应的推荐参数。

6.根据权利要求5所述的方法，其特征在于，在所述根据所述非时序行为数据构建与所述用户标识对应的非时序行为特征矩阵的步骤之前还包括：

若所述历史游戏行为数据对应的时间段小于预设时间长度，则进入获取与所述用户标识对应的非时序行为数据的步骤。

7.根据权利要求5所述的方法，其特征在于，在所述将所述时序行为特征矩阵和所述非时序行为特征矩阵作为已训练的游戏推荐模型的输入，输出所述候选推荐游戏对应的推荐参数的步骤之前还包括：

根据所述训练历史游戏行为数据对应的时间信息构建与所述训练用户标识对应的训练时序行为特征矩阵；

获取与所述训练用户标识对应的非时序行为数据，根据所述非时序行为数据构建与所述训练用户标识对应的训练非时序行为特征矩阵；

获取所述训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据所述目标历史游戏行为数据确定对应的目标输出结果；

将所述训练时序行为特征矩阵和所述训练非时序行为特征矩阵作为所述游戏推荐模型的输入，将对应的所述目标输出结果作为期望的输出进行训练，得到目标游戏推荐模型。

8.根据权利要求1所述的方法，其特征在于，所述推荐参数包括候选推荐游戏的推荐概率；所述根据所述推荐参数从所述候选推荐游戏中筛选出目标推荐游戏，向所述用户标识对应的终端推荐所述目标推荐游戏的步骤包括：

从所述候选推荐游戏中筛选出用户未交互过的目标候选推荐游戏；

根据目标候选推荐游戏对应的推荐概率生成与所述用户标识对应的游戏推荐列表；

根据所述游戏推荐列表确定与所述用户标识对应的目标推荐游戏。

9.根据权利要求1所述的方法，其特征在于，所述将所述时序行为特征矩阵输入已训练的游戏推荐模型，输出所述候选推荐游戏对应的推荐参数的步骤包括：

根据所述时序行为特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层；

根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，将下一隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的候选推荐游戏的推荐参数。

10.一种游戏推送的装置，所述装置包括：

确定模块，用于获取所述子时间段集合中每个子时间段对应的子历史游戏行为数据，从所述子历史游戏行为数据中提取与每个候选推荐游戏对应的候选游戏行为数据，以确定每个候选推荐游戏对应的游戏行为子向量；

11.根据权利要求10所述的装置，其特征在于，所述切分模块还用于将所述历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段集合。

12.根据权利要求10所述的装置，其特征在于，所述确定模块还用于当所述子历史游戏行为数据中不存在与候选推荐游戏对应的历史游戏行为数据时，则将所述候选推荐游戏对应的游戏行为子向量设为0；当所述子历史游戏行为数据中存在与所述候选推荐游戏对应的历史游戏行为数据时，根据所述历史游戏行为数据构建与所述候选推荐游戏对应的游戏行为子向量。

13.根据权利要求11所述的装置，其特征在于，所述装置还包括：

训练数据获取模块，用于获取训练历史游戏行为数据，所述训练历史游戏行为数据存在对应的训练用户标识；

时间段切分模块，用于将所述训练游戏历史游戏行为数据对应的时间段根据单位时间间隔切分形成子时间段；

训练向量确定模块，用于获取每个子时间段内候选推荐游戏对应的训练子历史游戏行为数据，根据所述训练子历史游戏行为数据确定与所述每个子时间段对应的训练游戏行为特征向量；

训练矩阵形成模块，用于根据所述训练游戏行为特征向量对应的时间顺序形成与所述训练用户标识对应的训练时序行为特征矩阵；

结果确定模块，用于获取所述训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据所述目标历史游戏行为数据确定与所述训练时序行为特征矩阵对应的目标输出结果；

训练模块，用于将所述训练时序行为特征矩阵作为所述游戏推荐模型的输入，将对应的所述目标输出结果作为期望的输出进行训练，得到目标游戏推荐模型。

14.根据权利要求10所述的装置，其特征在于，所述装置还包括：

非时序行为特征矩阵构建模块，用于获取与所述用户标识对应的非时序行为数据，根据所述非时序行为数据构建与所述用户标识对应的非时序行为特征矩阵；

所述输出模块，还用于将所述时序行为特征矩阵和所述非时序行为特征矩阵作为已训练的游戏推荐模型的输入，输出所述候选推荐游戏对应的推荐参数。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括判断模块，所述判断模块，用于若所述历史游戏行为数据对应的时间段小于预设时间长度，则进入获取与所述用户标识对应的非时序行为数据的步骤。

16.根据权利要求14所述的装置，其特征在于，所述装置还包括第二游戏推荐模型建立模块；所述第二游戏推荐模型建立模块包括：

训练行为数据获取模块，用于获取训练历史游戏行为数据，所述训练历史游戏行为数据存在对应的训练用户标识；

时序行为特征矩阵构建模块，用于根据所述训练历史游戏行为数据对应的时间信息构建与所述训练用户标识对应的训练时序行为特征矩阵；

非时序行为特征矩阵构建模块，用于获取与所述训练用户标识对应的非时序行为数据，根据所述非时序行为数据构建与所述训练用户标识对应的训练非时序行为特征矩阵；

输出结果确定模块，用于获取所述训练用户标识对应的下一单位时间段对应的目标历史游戏行为数据，根据所述目标历史游戏行为数据确定对应的目标输出结果；

模型训练模块，用于将所述训练时序行为特征矩阵和所述训练非时序行为特征矩阵作为所述游戏推荐模型的输入，将对应的所述目标输出结果作为期望的输出进行训练，得到目标游戏推荐模型。

17.根据权利要求10所述的装置，其特征在于，所述推荐参数包括候选推荐游戏的推荐概率；所述推荐模块，还用于从所述候选推荐游戏中筛选出用户未交互过的目标候选推荐游戏；根据目标候选推荐游戏对应的推荐概率生成与所述用户标识对应的游戏推荐列表；根据所述游戏推荐列表确定与所述用户标识对应的目标推荐游戏。

18.根据权利要求10所述的装置，其特征在于，所述输出模块，还用于根据所述时序行为特征矩阵得到输入层节点序列，将所述输入层节点序列进行投影得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层；根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列，将下一隐层作为当前处理隐层，重复进入根据当前处理隐层对应的隐层节点序列、当前处理隐层对应的各个神经元节点的权重和上一时刻当前处理隐层的输出采用非线性映射得到下一层隐层的隐层节点序列的步骤，直到输出层，获取输出层输出的候选推荐游戏的推荐参数。

19.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。

20.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。