CN110727705A

CN110727705A - 信息推荐方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110727705A
Application number: CN201910969323.4A
Authority: CN
Inventors: 屈石林; 原发杰; 郭贵冰; 熊健
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-01-24
Anticipated expiration: 2039-10-12
Also published as: CN110727705B

Abstract

本发明实施例提供了一种信息推荐方法、装置、电子设备及计算机可读存储介质，该方法可以包括：获取用户当前时刻的当前行为信息；根据当前行为信息、以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息；根据当前时刻的第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息；基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息。在本方案中，当前时刻的第三特征信息受用户所有历史行为信息影响，基于该当前时刻的第三特征信息可以准确反映出用户的兴趣变化，从而使得基于当前时刻的第一特征信息和第三特征信息确定得到的待推荐信息更加准确。

Description

信息推荐方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及信息处理技术领域，具体而言，本发明涉及一种信息推荐方法、装置、电子设备及计算机可读存储介质。

背景技术

现有的信息推荐方法中，通常是基于用户当前时刻的当前行为信息和当前时刻之前的一段时间内的历史行为信息，预测下一时刻推荐给用户的信息，但是，由于历史行为信息是当前时刻之前的一段时间内的信息，不能全面反映出用户行为的特点，以及兴趣变化，从而使得预测得到的下一时刻的推荐信息不够准确。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，可使得预测出的推荐信息更加准确。本发明采用的技术方案如下：

第一方面，本发明提供了一种信息推荐方法，该方法包括：

获取用户当前时刻的当前行为信息；

根据当前行为信息、以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息；

根据当前时刻的第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息；

其中，上一时刻的第二特征信息是将上一时刻的第一特征信息和上一时刻的第三特征信息融合得到的，初始时刻的第三特征信息是基于初始时刻的第一特征信息得到的；

基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息。

本发明第一方面的实施例中，当前时刻对应的用户的历史行为信息包括上一时刻的行为信息、以及上一时刻对应的历史行为信息；

根据当前行为信息、以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息，包括：

提取当前行为信息的行为特征信息；

基于行为特征信息、上一时刻对应的隐层特征信息以及上一时刻对应的第三特征信息，确定当前时刻的第一特征信息；

上一时刻对应的隐层特征信息是通过以下方式确定的：

根据上一时刻对应的行为信息、上一时刻的上一时刻对应的隐层特征信息、以及上一时刻的上一时刻对应的第三特征信息，确定上一时刻对应的隐层特征信息；

其中，初始时刻的隐层特征信息是基于初始时刻对应的用户的行为信息得到的。

本发明第一方面的实施例中，根据当前时刻的第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息，包括：

基于上一时刻对应的用户的历史行为信息，确定上一时刻的上一时刻对应的用户的历史特征信息，初始时刻的历史特征信息是基于初始时刻的第二特征信息确定的；

基于当前时刻的第一特征信息、上一时刻对应的历史特征信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息。

本发明第一方面的实施例中，基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息，包括：

将当前时刻的第一特征信息、以及当前时刻的第三特征信息进行融合，得到当前时刻的第二特征信息；

基于当前时刻的第二特征信息，确定下一时刻的待推荐信息。

本发明第一方面的实施例中，该方法还包括：

基于当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，更新上一时刻对应的历史特征信息。

本发明第一方面的实施例中，基于当前行为信息以及上一时刻对应的隐层特征信息，更新上一时刻对应的历史特征信息，包括：

基于当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，确定上一时刻对应的历史特征信息的待更新特征信息，待更新特征信息包括待删除特征信息或待增加特征信息中的至少一项；

基于待更新特征信息，对上一时刻对应的历史特征信息进行更新。

本发明第一方面的实施例中，基于待更新特征信息，对上一时刻对应的历史特征信息进行更新，包括：

基于当前行为信息以及上一时刻对应的历史特征信息，确定待更新特征信息对应的第一权重；

基于第一权重以及待更新特征信息，对上一时刻对应的历史特征信息进行更新。

本发明第一方面的实施例中，第一权重包括第二权重和第三权重，基于当前行为信息，确定待更新特征信息对应的第一权重，包括：

基于当前行为信息，确定当前行为信息中的关键词；

基于关键词以及上一时刻对应的历史特征信息，确定第二权重；

基于当前行为信息的利用信息，确定第三权重；

基于第三权重和第二权重，得到第一权重。

本发明第一方面的实施例中，上一时刻对应的第三特征信息是通过以下方式确定的：基于上一时刻对应的历史特征信息，确定上一时刻对应的第三特征信息。

本发明第一方面的实施例中，基于上一时刻对应的历史特征信息，确定上一时刻对应的第三特征信息，包括：

基于上一时刻对应的历史特征信息，以及上一时刻对应的历史特征信息对应的第一权重，确定上一时刻对应的历史特征信息对应的时序特征信息；

基于上一时刻对应的历史特征信息对应的时序特征信息、当前行为信息、上一时刻对应的历史特征信息对应的第一权重、以及上一时刻的上一时刻对应的历史特征信息对应的第五权重，确定上一时刻对应的历史特征信息对应的第五权重；

基于上一时刻对应的历史特征信息对应的第五权重，以及上一时刻对应的历史特征信息，确定上一时刻对应的第三特征信息。

本发明第一方面的实施例中，上一时刻对应的历史特征信息包括上一时刻的上一时刻对应的历史特征信息，基于上一时刻对应的历史特征信息，以及上一时刻对应的历史特征信息对应的第一权重，确定上一时刻对应的历史特征信息对应的时序特征信息，包括：

基于上一时刻的上一时刻对应的历史特征信息对应的时序特征信息、上一时刻对应的历史特征信息对应的第一权重、以及上一时刻的上一时刻对应的历史特征信息对应的时序特征信息对应的第四权重，确定上一时刻对应的历史特征信息对应的时序特征信息；

其中，初始时刻的第四权重是基于初始时刻的对应的历史特征信息对应的第一权重确定的。

本发明第一方面的实施例中，第五权重包括第六权重和第七权重，基于上一时刻对应的历史特征信息对应的时序特征信息、当前行为信息、上一时刻对应的历史特征信息对应的第一权重、以及上一时刻的上一时刻对应的历史特征信息对应的第五权重，确定上一时刻对应的历史特征信息对应的第五权重，包括：

基于上一时刻对应的历史特征信息对应的时序特征信息、以及上一时刻的上一时刻对应的历史特征信息对应的第五权重，确定上一时刻的历史特征信息对应的第六权重和第七权重；

其中，第六权重用于表征上一时刻对应的第三特征信息的第一读取方式，第七权重用于表征上一时刻对应的第三特征信息的第二读取方式；

基于当前行为信息中的关键词，确定上一时刻的历史特征信息对应的第八权重；

基于上一时刻的历史特征信息对应的第八权重、第六权重、和第七权重，确定上一时刻对应的历史特征信息对应的第五权重。

本发明第一方面的实施例中，第二特征信息是通过神经网络模型得到的，神经网络模型包括第一网络模型和第二网络模型；

其中，第一网络模型用于基于用户当前时刻的当前行为信息，以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息，根据当前时刻的第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息，基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息；第二网络模型用于更新并存储历史特征信息，以及用于基于第一特征信息得到第三特征信息；

其中，神经网络模型是基于训练样本数据对第一网络模型的模型参数进行训练更新得到的。

本发明第一方面的实施例中，该方法由服务器执行，该服务器为区块链系统中的一个节点。第二方面，本发明提供了一种信息推荐装置，该装置包括：

当前行为信息获取模块，用于获取用户当前时刻的当前行为信息；

第一特征信息确定模块，用于根据当前行为信息、以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息；

第三特征信息确定模块，用于根据当前时刻的第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息；

待推荐信息确定模块，用于基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息。

本发明第二方面的实施例中，当前时刻对应的用户的历史行为信息包括上一时刻的行为信息、以及上一时刻对应的历史行为信息；

第一特征信息确定模块在根据当前行为信息、以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息时，具体用于：

提取当前行为信息的行为特征信息；

上一时刻对应的隐层特征信息是通过以下方式确定的：

本发明第二方面的实施例中，第三特征信息确定模块在根据当前时刻的第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息时，具体用于：

本发明第二方面的实施例中，待推荐信息确定模块在基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息时，具体用于：

本发明第二方面的实施例中，该装置还包括：

历史特征信息更新模块，用于基于当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，更新上一时刻对应的历史特征信息。

本发明第二方面的实施例中，历史特征信息更新模块在基于当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，更新上一时刻对应的历史特征信息时，具体用于：

本发明第二方面的实施例中，历史特征信息更新模块在基于待更新特征信息，对上一时刻对应的历史特征信息进行更新时，具体用于：

本发明第二方面的实施例中，历史特征信息更新模块在第一权重包括第二权重和第三权重，基于当前行为信息，确定待更新特征信息对应的第一权重时，具体用于：

基于当前行为信息，确定当前行为信息中的关键词；

基于当前行为信息的利用信息，确定第三权重；

基于第三权重和第二权重，得到第一权重。

本发明第二方面的实施例中，该装置还包括：

第三特征信息读取模块，用于通过以下方式确定上一时刻对应的第三特征信息：

基于上一时刻对应的历史特征信息，确定上一时刻对应的第三特征信息。

本发明第二方面的实施例中，第三特征信息读取模块在基于上一时刻对应的历史特征信息，确定上一时刻对应的第三特征信息时，具体用于：

本发明第二方面的实施例中，上一时刻对应的历史特征信息包括上一时刻的上一时刻对应的历史特征信息，第三特征信息读取模块在基于上一时刻对应的历史特征信息，以及上一时刻对应的历史特征信息对应的第一权重，确定上一时刻对应的历史特征信息对应的时序特征信息时，具体用于：

本发明第二方面的实施例中，第五权重包括第六权重和第七权重，第三特征信息读取模块在基于上一时刻对应的历史特征信息对应的时序特征信息、当前行为信息、上一时刻对应的历史特征信息对应的第一权重、以及上一时刻的上一时刻对应的历史特征信息对应的第五权重，确定上一时刻对应的历史特征信息对应的第五权重时，具体用于：

本发明第二方面的实施例中，第二特征信息是通过神经网络模型得到的，神经网络模型包括第一网络模型和第二网络模型；

第三方面，本发明提供了一种电子设备，该电子设备包括：

处理器和存储器；

存储器，用于存储计算机操作指令；

处理器，用于通过调用计算机操作指令，执行如本发明的第一方面和任一实施例中所示的方法。

第四方面，本发明提供了一种计算机可读存储介质，该存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本发明的第一方面任一实施例中所示的方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例的信息推荐方法、装置、电子设备及计算机可读存储介质，可以基于当前时刻的当前行为信息和当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息，然后基于该第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息，其中，上一时刻的第二特征信息是基于上一时刻的第一特征信息和上一时刻的第三特征信息确定的，则当前时刻的第三特征信息受上一时刻的第三特征信息的影响，即当前时刻的第三特征信息受用户所有历史行为信息影响，基于该当前时刻的第三特征信息可以准确反映出用户的兴趣变化，从而使得基于当前时刻的第一特征信息和当前时刻的第三特征信息确定得到的下一时刻的待推荐信息更加准确，更加满足用户的需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍。

图1为本发明的实施例提供的一种GRU模型的网络结构示意图；

图2为本发明的实施例提供的一种RUM模型的网络结构示意图；

图3为本发明的实施例提供的一种信息推荐方法的流程示意图；

图4为本发明的实施例提供的一种历史特征信息更新示意图；

图5为本发明的实施例提供的一种人类认知抉择过程的信息流示意图；

图6为本发明的实施例提供的一种神经网络模型的网络结构示意图；

图7为本发明的实施例提供的一种分布式系统应用于区块链系统的结构示意图；

图8为本发明的实施例提供的一种区块结构的示意图；

图9为本发明的实施例提供的一种信息推荐装置的结构示意图；

图10为本发明的实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面详细描述本发明的实施例，该实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明：

首先，为了更好的理解及说明本发明实施例的方案，下面对本发明实施例中所涉及到的一些技术用语进行简单说明。

神经网络(NeuralNetwork，NN)：是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

RNN(Recurrent Neural Network，循环神经网络)：是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。

GRU(Gated Recurrent Unit，门控循环单元)：是RNN神经网络的一种变体。

RUM(a framework integrating Recommender system with external UserMemory networks)模型：是一种基于外部用户记忆网络的集成推荐系统框架。

GRU4Rec模型：一种基于会话的递归神经网络推荐模型，通过使用由GRU单元组成的深度RNN对会话进行建模。

会话：会话是服务器端用来记录识别用户的一种机制。典型的场景比如短视频，服务端为特定的对象创建了特定的会话，该会话用于标识这个对象，并且跟踪用户的浏览观看行为。本发明中可以将会话理解为具有时序关系的一些记录序列。

one-hot：是一种向量编码方式，也称之为独热编码。

MRR(Mean Reciprocal Rank)：平均倒数排名。

Recall：召回率。

NDCG(Normalized Discounted Cumulative Gain)：归一化折损累计增益。

上述的Recall、MRR以及NDCG是推荐系统常用的几个评价指标。

在现有技术中，信息推荐可以通过以下方式实现：

第一种方式：基于GRU4Rec模型的推荐方式：由于RNN比较容易面临梯度消失或者爆炸的问题，该方案中的神经网络模型采用RNN的变种GRU模型。GRU4Rec模型的网络结构示意图如图1所示，该模型可以包括多个GRU层(图1中所示的GRU layer)、以及一个前馈网络层(图1中所示的Feedforward layer，具体可以采用全连接层)。基于该GRU4Rec模型，以短视频推荐应用场景为例，已知一个会话(比如，一个用户一段时间内所观看的视频)中的观看视频序列为x₁，x₂，...，x_T-1，依次将x₁，x₂，...，x_T-1输入到GRU4Rec模型中，预测T时刻被观看的视频。

如图1中所示，基于用户当前所观看的视频序列x₁，x₂，...，x_T-1，通过该GRU4Rec模型预测下一时刻即T时刻被观看的概率最大的视频，具体的，在基于模型进行预测时，序列中的各视频x_i(i＝1，2，...，T-1)，可以首先被转换为one-hot向量，随后将one-hot向量通过嵌入层(图1中所示的Embedding layer)转换成一定维度的嵌入向量，之后经过多层GRU单元(图1中所示的GRU layer)完成序列化建模，完成序列化建模之后再经过一个全连接层得到下一次每个视频被观看的概率，选取其中概率最大的视频即为x_T。

第二种方式：基于RUM模型的推荐方式：RUM模型适用于显示用户(显示用户指的是在对应的应用程序有对应账号的用户)和物品的推荐系统。以用户购物为应用场景为例，如图2所示，假设对于某用户j，该用户购物历史记录按照时间由远及近的顺序可以表示为v₁，...，v_i-2，v_i-1，v_i，...，v_T，该模型会对每个物品以及用户建模，生成相应的嵌入向量。

在模型的训练过程中，选定用户j和物品i组合，基于用户j对应的特征向量u_j(图2中所示的New User Embedding)和物品i对应的特征向量v_i(图2中所示的Item Embedding)的内积生成预测评分

该预测评分用来标识该物品j是否可作为下一次可能是该用户购买的物品。

其中，u_j由用户记忆嵌入向量

(图2中所示的UserMemoryEmbedding，从用户历史购买物品记录中发生于购买物品i之前的最近l个物品的特征向量)和用户固有嵌入向量(图2中所示的UserIntrinsicEmbedding，可以是表示用户固定信息的向量，比如，表示用户身份信息的向量)融合得到的。将用户历史购买物品记录中用户j对应的特征向量u_j和物品i对应的特征向量v_i可以对应记录在图2中所示的User Memory Network中。

在预测阶段，RUM模型基于用户历史购买物品记录中发生于购买物品i之前的最近l个物品的特征向量来进行下一次用户购买的物品的预测。即如果想要预测用户j购买物品i后可能购买的物品，可以基于用户j对应的特征向量u_j和物品i对应的特征向量v_i的内积来得到预测评分

(对应图2中所示的Output层的输出)，用该预测评分来标识该物品j是否可作为下一次可能是该用户购买的物品。

但是，通过第一种方式进行信息推荐存在以下问题：

(1)GRU4Rec模型只能使用嵌入向量表示、存储会话的特征信息，其表达能力弱，会产生了不必要的信息损失。

(2)在处理长会话时，例如，在短视频推荐场景，用户在一个小时的时间可以观看数百个视频，通过RNN建模容易出现梯度爆炸或者消失等问题，即便通过LSTM(Long ShortTerm Memory network，长短期记忆网络)和GRU来对长会话进行建模，也只能处理有限数量的视频，使得该模型性能较差。

(3)虽然RNN模型可以使用细胞状态来记忆过去的信息，但会话末端的输入对最终的预测结果的影响会更大，即该模型在预测阶段只考虑了局部信息，无法捕捉到该用户长期的兴趣变化，使得预测的推荐信息不准确。

通过第二种方式进行信息推荐，存在以下问题：

(1)在训练阶段，需要基于已注册的用户，才可获取到用户对应的历史购买记录信息，基于已注册的用户以及对应的历史购买记录信息进行建模，预测阶段使用训练好的模型进行下一次购买物品的预测推荐；如果没有已注册的用户，则无法完成模型的训练和使用。

(2)构建用户的购买记录信息通常依赖于该用户最新购买的l个物品，因此，只考虑了局部信息，同时也无法捕捉到该用户长期的兴趣变化，使得预测的推荐信息不准确。

(3)训练以及预测计算消耗资源大。每预测一个用户下次可能购买的物品，就要多计算多个物品的特征向量对应的内积，会产生了大量的重复计算，使得模型的性能较差。

针对现有技术存在的问题，以及更好的满足实际应用需求，本发明实施例提供了一种信息推荐方法，通过该方法可以充分考虑到用户的历史行为信息，了解该用户长期的兴趣变化，使得确定的待推荐信息更加准确。

下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

为了便于对本方案的理解与描述，首先对在本发明实施例下文中的描述中所出现的各技术用语的表示方式进行说明：

用户的当前行为信息记为x_i，i表示当前时刻；

用户当前时刻之前的各时刻的历史行为信息记为x_i-n，其中，n之1，则当前时刻的上一时刻的上一时刻的历史行为信息为x_i-1，上一时刻的上一时刻的历史行为信息为x_i-2。

用户当前时刻所对应的历史行为信息即当前时刻之前的所有历史行为信息即为x_＜i，当前时刻之前的上一时刻所对应的历史行为信息则可以记为x_＜i-1。可以理解的是，若当前时刻为第一个时刻即初始时刻，则不存在当前时刻之前的历史行为信息。

用户当前时刻的行为特征信息记为v_i，当前时刻的隐层特征信息记为h_i，当前时刻的第一特征信息记为当前时刻的第二特征信息记为o_i，当前时刻的第三特征信息记为r_i，当前时刻的历史特征信息记为M_i。

相应的，上一时刻的行为特征信息记为v_i-1，上一时刻的隐层特征信息记为h_i-1，上一时刻的第一特征信息记为上一时刻的第二特征信息记为o_i-1，上一时刻的第三特征信息记为r_i-1，上一时刻的历史特征信息记为M_i-1。

初始时刻的行为特征信息记为v₁，初始时刻的隐层特征信息为h₁，初始时刻的第一特征信息记为

初始时刻的第二特征信息记为o₁，初始时刻的第三特征信息记为r₁，初始时刻的历史特征信息记为M₁。同样的，若当前时刻为初始时刻，则实际上并不存在历史特征信息，也就是说，M₁为空。下一时刻的待推荐信息记为x_i+1。

图3示出了本发明提供的一种信息推荐方法的流程示意图，如图中所示，该方法可以包括步骤S110至步骤S140，其中：

步骤S110：获取用户当前时刻的当前行为信息。

其中，用户的行为信息是指用户在终端设备上的操作行为信息，具体可以是指用户对应用程序的操作行为信息。对于不同的应用场景，用户的行为信息通常是不同的，例如，对于购物类应用程序，用户的行为信息可以是用户购买物品的操作，也可以用户在该应用程序对应的界面中搜索某个物品的操作；再例如，对于视频观看类应用程序，用户的行为信息则可以包括用户所观看的视频的相关信息等。

而当前行为信息指的是当前最新获取到的用户的行为信息，如上述对于上述视频观看类应用程序，当前行为信息则可以包括用户最新观看的视频的相关信息。

步骤S120：根据当前行为信息、以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息。

由前文描述可知，当前时刻对应的用户的历史行为信息，指的是在当前时刻之前该用户所产生的所有行为信息。若当前时刻为初始时刻，初始时刻对应的历史行为信息实质上是不存在的，此时，初始时刻对应的历史行为信息可以为空，或者为预配置的信息。

本发明的可选实施例中，若当前时刻为初始时刻，则该步骤S120，具体可以是根据初始时刻的行为信息，确定初始时刻的第一特征信息。

由于当前时刻的第一特征信息是基于当前行为信息以及当前时刻对应的历史行为信息确定的，因此，该当前时刻的第一特征信息受当前时刻之前的所有历史行为信息影响，即当前时刻的第一特征信息可以基于当前时刻之前的所有历史行为信息，反应出该用户在当前时刻之前的兴趣变化，换句话说，基于当前时刻对应的历史行为信息确定的当前时刻的第一特征信息考虑到了用户长期的兴趣变化。

步骤S130：根据当前时刻的第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息。

其中，上一时刻的第二特征信息是将上一时刻的第一特征信息和上一时刻的第三特征信息融合得到的，初始时刻的第三特征信息是基于初始时刻的第一特征信息得到的。

由于上一时刻的第二特征信息是基于上一时刻的第一特征信息和上一时刻的第三特征信息确定的，因此，该当前时刻的第三特征信息不仅受当前时刻的第一特征信息的影响，还受上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息的影响，并且，由于上一时刻的第二特征信息受上一时刻的第三特征信息的影响，因此，该当前时刻的第三特征信息受上一时刻的第三特征信息影响，上一时刻的第三特征信息受上一时刻的上一时刻的第三特征信息影响，也就是说，该当前时刻的第三特征信息考虑了当前时刻之前的所有行为信息的影响，可以进一步地从全局反应出用户的兴趣变化。

步骤S140：基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息。

其中，由于当前时刻的第一特征信息和当前时刻的第三特征信可以准确的反应出该用户的兴趣变化，因此，基于当前时刻的第一特征信息和当前时刻的第三特征信息确定的待推荐信息更加准确。

本发明实施例所提供的信息推荐方法，可以基于当前时刻的当前行为信息和当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息，然后基于该第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息，其中，上一时刻的第二特征信息是基于上一时刻的第一特征信息和上一时刻的第三特征信息确定的，则当前时刻的第三特征信息受上一时刻的第三特征信息的影响，当前时刻的第三特征信息受用户所有历史行为信息影响，基于该当前时刻的第三特征信息可以准确反映出用户的兴趣变化，从而使得基于当前时刻的第一特征信息和当前时刻的第三特征信息确定得到的下一时刻的待推荐信息更加准确，更加满足用户的需求。

本发明的可选方案中，当前时刻对应的用户的历史行为信息包括上一时刻的行为信息、以及上一时刻对应的历史行为信息；

步骤S120中，根据当前行为信息、以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息，可以包括：

提取当前行为信息的行为特征信息；

基于当前行为信息的行为特征信息、上一时刻对应的隐层特征信息以及上一时刻对应的第三特征信息，确定当前时刻的第一特征信息；

上一时刻对应的隐层特征信息是通过以下方式确定的：

具体的，提取当前行为信息x_i的行为特征信息v_i，基于该行为特征信息v_i、上一时刻对应的隐层特征信息h_i-1以及上一时刻对应的第三特征信息r_i-1，可通过以下公式(1)确定当前时刻的第一特征信息

其中，基于上述公式(1)可知，初始时刻的第一特征信息

是基于初始时刻的行为信息x₁确定的，即基于初始时刻的行为特征信息v₁确定的。上一时刻对应的隐层特征信息h_i-1是基于上一时刻对应的行为信息x_i-1、上一时刻的上一时刻对应的隐层特征信息h_i-2、以及上一时刻的上一时刻对应的第三特征信息r_i-2，通过以下公式(2)确定的：

h_i-1＝f_h(h_i-2，v_i-1，r_i-2) (2)

其中，v_i-1是提取上一时刻对应的行为信息x_i-1得到的行为特征信息，基于上述公式(2)可知，初始时刻的隐层特征信息h₁是基于初始时刻对应的行为信息x₁得到的，具体的，初始时刻的没有对应的上一时刻的隐层特征信息和第三特征信息，只有基于初始时刻对应的行为信息x₁对应的特征信息v₁，因此，初始时刻的隐层特征信息h₁实际上是基于初始时刻的行为信息x₁对应的特征信息v₁确定的。

本发明的可选方案中，当前时刻的第三特征信息r_i是基于当前时刻的第一特征信息上一时刻对应的用户的历史行为信息x_i-1，以及上一时刻的第二特征信息h_i-1确定的，具体为：基于上一时刻对应的用户的历史行为信息x_i-1，确定该上一时刻对应的历史特征信息M_i-1，其中，初始时刻的初历史特征信息M₁是基于初始时刻的第二特征信息o₁确定的，基于当前时刻对应的历史行为信息，可以确定当前时刻的历史特征信息，上一时刻对应的历史特征信息M_i-1可通过以下公式(3)确定：

M_i＝f_m(o_i，M_i-1) (3)

在确定得到上一时刻对应的历史特征信息M_i-1之后，可以基于以下公式(4)确定当前时刻的第三特征信息r_i

其中，基于上述公式(4)可知初始时刻的第三特征信息r₁是基于初始时刻的第一特征信息得到的，则初始时刻的下一时刻的第三特征信息r₂可以基于初始时刻的下一时刻的第一特征信息

和初始时刻的第二特征信息o₁确定，同理，第三特征信息r₃可以基于第一特征信息

和历史特征信息M₂得到，依次类推，基于上述公式(4)可以确定得到不同时刻对应的第三特征信息，且基于该不同时刻对应的第三特征信息，基于上述公式(2)可以对应得到不同时刻对应的隐层特征信息。

本发明的可选方案中，步骤S140中，基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息，可以包括：

具体的，在确定得到当前时刻的第三特征信息r_i和当前时刻的第一特征信息

后，可以通过以下公式(5)确定得到当前时刻的第二特征信息o_i：

由此，基于上述公式(1)至公式(5)可知，下一时刻的信息是基于上一时刻的信息和当前时刻的信息确定的，在确定出下一时刻的信息后，该下一时刻的信息可以作为下一时刻的下一时刻的上一时刻的信息，即上一时刻的信息一直影响下一时刻的信息预测结果，由此，在基于当前时刻的信息预测下一时刻的信息时，结合了当前时刻的上一时刻的信息，使得预测得到的下一时刻的信息更加准确。

本发明的可选方案中，该方法还可以包括：

具体的，由于上一时刻的历史特征信息中包括基于上一时刻的上一时刻的行为信息确定的历史特征信息，则可以基于当前时刻的当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，对上一时刻对应的历史特征信息进行更新，以使得在下一时刻进行信息推测时，可以将当前时刻的当前行为信息作为下一时刻的参考信息，使得下一时刻的待推荐信息更加准确。可以理解的是，针对每个时刻的行为信息，都可对对应时刻的历史特征信息进行更新。

本发明的可选方案中，基于当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，更新上一时刻对应的历史特征信息，可以包括：

具体的，在确定当前行为信息中的哪些信息是可以增加到上一时刻对应的历史特征信息中的，哪些信息是可以从上一时刻对应的历史特征信息中删除的，其中，增加的信息(待增加特征信息)通常是当前行为信息中对待推荐信息的确定贡献较大的信息，删除的信息(待删除特征信息)通常是当前行为信息中对待推荐信息的确定贡献较小的信息。可以理解的是，对于待更新特征信息，其中可以只包括待删除特征信息，也可以只包括待增加特征信息，可以同时包括待删除特征信息和待增加特征信息。

其中，基于当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，确定上一时刻对应的历史特征信息的待更新特征信息，包括：基于当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，确定当前时刻的隐层特征信息；基于当前时刻的隐层特征信息，确定上一时刻对应的历史特征信息的待更新特征信息。

本发明的可选方案中，基于待更新特征信息，对上一时刻对应的历史特征信息进行更新，可以包括：

具体的，由于当前行为信息中不是所有信息对待推荐信息的确定都有贡献，有些信息的贡献较大，有些信息的贡献较小，则可以基于贡献的大小确定待更新特征信息对应的权重，通过该待更新特征信息的权重对上一时刻对应的历史特征信息进行更新，可使得每次更新后的信息都更加准确的反应出用户的兴趣变化。

可以理解的是，如果待更新特征信息包括待删除特征信息和待增加特征信息，则待删除特征信息和待增加信息可以分别对应各自的权重。

本发明的可选方案中，第一权重包括第二权重和第三权重，基于当前行为信息，确定待更新特征信息对应的第一权重，包括：

基于当前行为信息，确定当前行为信息中的关键词；

基于关键词以及上一时刻对应的历史特征信息，确定第二权重

基于当前行为信息的利用信息，确定第三权重a_i；

基于第三权重和第二权重，得到第一权重。

具体的，从信息内容的角度，有些内容对确定待推荐信息的影响相对较大，比如，信息中的实体词，则可以基于当前行为信息，从该信息中提取关键词，不同的关键词对确定待推荐信息的影响程度不同，则基于当前行为信息的关键词，确定出的第二权重可以从信息的内容角度反映出对确定待推荐信息的影响。如果某关键词A为实体词，该实体词可能对确定待推荐信息的影响相对较大，则基于该关键词A对应确定出的第二权重相对较大，如果某关键词B不是实体词，则可能该关键词对确定待推荐信息的影响相对较小，则基于该关键词B确定出的第二权重相对较小。

从信息的利用角度，已经被读取过的历史特征信息的重要性相对于最近一次被保存的历史特征信息的重要性会下降，该被读取过的历史特征信息下次被重新更新的概率应该会增大；而最近一次被保存的历史特征信息的重要性大于最近一次(预设时间段，比如，当前时刻之前的一段时间)之前被保存的历史特征信息的重要性，因为该最近一次被保存的历史特征信息还未被利用，因此下一次被更新的概率应变小。则基于当前行为信息的利用信息反映出当前行为信息对确定待推荐信息的影响程度，比如，如果当前行为信息与最近一次被更新过的信息相同，表示当前行为信息对确定待推荐信息的影响相对不大，则对应确定的第三权重相对较小，如果该当前行为信息与最近一次被更新过的信息不相同，表示当前行为信息对确定待推荐信息的影响相对较大，则对应确定的第三权重相对较大。

作为一个示例，如图4所示的历史特征信息更新流程示意图，当前行为信息为x_i，基于该当前行为信息x_i、上一时刻对应的隐层特征信息h_i-1、以及上一时刻的第三特征信息r_i-1，通过确定当前时刻的隐层特征信息h_i，基于该当前时刻的隐层特征信息h_i，确定的待增加特征信息为特征向量z_i，待删除特征信息为特征向量e_i，其中，e_i∈R^m，z_i∈R^m，M_i为当前时刻对应的历史特征信息，则基于当前时刻的历史特征信息对应的第一权重

以及待更新特征信息，对上一时刻对应的历史特征信息M_i-1进行更新，具体可以通过以下公式(6)表示：

其中，⊙是向量内积，

表示向量外积，1∈R^n*m，1表示全为1的矩阵；

为当前时刻的历史特征信息对应的第一权重，

n表示当前时刻之前的历史特征信息对应存储的存储空间的数量，m为每个存储空间所存储的历史特征信息(比如，特征向量)的向量长度；R表示的是当前时刻之前的历史特征信息对应的存储空间。

第一权重包括第二权重和第三权重，第二权重记为

第三权重记为a_i，其中，确定第二权重

的方式具体为：基于该当前行为信息x_i提取到的关键词为

则当前行为信息提取到的关键词和历史特征信息中包含的关键词的相似程度，通过以下公式(7)和公式(8)可以确定出第二权重

其中，M_i-1(j)表示第i-1时刻，矩阵M_i-1的第j行元素，M_i-1(l)表示是第i-1时刻，矩阵M_i-1的第l行元素，l不大于m，K表示参数。

对应于图4中所示的Content模块，通过该模块可基于当前行为信息以及上一时刻对应的历史特征信息，确定第二权重

在该示例中，上一时刻的历史特征信息中，已经被读取过的历史特征信息的重要性相对于最近一次被保存的历史特征信息的重要性会下降，该被读取过的历史特征信息下次被重新更新的概率应该会增大；而最近一次被保存的历史特征信息的重要性大于最近一次(预设时间段，比如，当前时刻之前的一段时间)之前被保存的历史特征信息的重要性，因为该最近一次被保存的历史特征信息还未被利用，因此下一次被更新的概率应变小。在本示例中，通过第三权重a_i来表示上一时刻的历史特征信息的在确定下一时刻的待推荐信息的利用程度。

确定第三权重a_i的具体实现方式为：首先，将第i次使用(读取)的历史特征信息对应的权重u_i定义应为公式(9)：

其中，

表示上一时刻对应的第一权重，

表示的是上一时刻的历史特征信息对应的信息利用权重(下文描述的第五权重)，的确定方式将在下文进行描述，在此不再赘述，u_i的大小在[0，1]之间，基于

和f_i，通过图4中所示的分配(Allocate)模块，可以确定第三权重a_i。

通过上述公式(9)确定了当前时刻之前的每一个历史特征信息对应的权重u_i后，可对所有权重u_i进行排序，比如，按每一个历史特征信息的使用顺序进行排序，得到排序后的权重s_i，其中，s_i∈Zⁿ，Zⁿ表示所有历史特征信息对应的存储空间。

基于上述排序后的权重s_i，通过以下公式(10)可以确定第三权重a_i：

则基于确定的第二权重和第三权重，可基于以下公式(11)，确定得到第一权重：

其中，上述公式(9)至公式(11)中的f_i、

表示运算中常用的门，每个门可以对应一个神经网络，通过该神经网络可以基于当前行为信息确定上一时刻的历史特征信息的更新模式。对于上一时刻的历史特征信息更新有两种模式，第一种模式为基于当前行为信息的内容(关键词)进行更新，第二种模式为基于上一时刻的历史特征信息的利用信息(利用程度)进行更新。

在本示例中，

和

分别对应一种更新方式，

对应的更新模式为基于当前行为信息的内容进行更新，对应的更新模式为基于上一时刻的历史特征信息的利用信息进行更新。

和

和

的大小可以表示对应的更新方式所占的权重的大小，

表示的是对应于上述两种更新方式的总权重，其中，当

为0的时候，表示上一时刻的历史特征信息的更新模式为不进行更新，即

可以理解的是，上文描述的第一权重、第二权重、以及第三权重的取值范围均为[0，1]。

本发明的可选方案中，上一时刻对应的第三特征信息通过以下方式确定：

其中，上一时刻对应的第三特征信息为r_i-1，表示第i-1次读取到的第三特征信息，上一时刻对应的第三特征信息指的是上一时刻对应的历史特征信息中上一时刻所对应的信息，不包括上一时刻之前对应的历史特征信息。

本发明的可选方案中，基于上一时刻对应的历史特征信息，确定上一时刻对应的第三特征信息，可以包括：

基于上一时刻对应的历史特征信息，确定上一时刻对应的历史特征信息对应的时序特征信息L_i-1；

基于上一时刻对应的历史特征信息对应的时序特征信息、当前行为信息、上一时刻对应的历史特征信息对应的第一权重、以及上一时刻的上一时刻对应的历史特征信息对应的第五权重

确定上一时刻对应的历史特征信息对应的第五权重

基于上一时刻对应的历史特征信息对应的第五权重以及上一时刻对应的历史特征信息，确定上一时刻对应的第三特征信息。

具体的，历史特征信息对应的时序特征信息指的是各个历史特征信息存储和读取的先后顺序，通过时序特征信息表示了各个历史特征信息之间的存储和读取的时序关系，对于按照时间先后存储的历史特征信息，不同时刻的历史特征信息对于预测下一时刻的待推荐信息的贡献可能不同，则对应的读取顺序可能与存储顺序可能不同，比如，越是最近存储的历史特征信息，可能更能反映出用户最近一段时间的兴趣变化，则最近一段时间存储的历史特征信息对于预测下一时刻的待推荐信息的贡献可能大于该最近一段时间之前所存储的历史特征信息对于预测下一时刻的待推荐信息的贡献，则该最近一段时间存储的历史特征信息的读取顺序相对于存储顺序，可能在存储顺序之前，因此，基于时序特征信息可以反应出一个历史特征信息的读取时序和存储时序的先后关系，通过基于上一时刻对应的历史特征信息对应的时序特征信息确定的上一时刻对应的历史特征信息对应的第五权重更加准确的确定出已存储的历史特征信息中哪个可以是需要读取的上一时刻的第三特征信息，通常读取的都是较大的该第五权重对应的第三特征信息。

本发明的可选方案中，上一时刻对应的历史特征信息包括上一时刻的上一时刻对应的历史特征信息，基于上一时刻对应的历史特征信息，以及上一时刻对应的历史特征信息对应的第一权重，确定上一时刻对应的历史特征信息对应的时序特征信息L_i-1，可以包括：

基于上一时刻的上一时刻对应的历史特征信息对应的时序特征信息L_i-2、上一时刻对应的历史特征信息对应的第一权重W^w _i-1、以及上一时刻的上一时刻对应的历史特征信息对应的时序特征信息对应的第四权重P_i-2，确定上一时刻对应的历史特征信息对应的时序特征信息L_i-1；

具体的，为了定义时序特征信息，可以先基于所存储的各个历史特征信息的写权重(第一权重)，确定第四权重，该第四权重用于表征各个历史特征信息在存储时的重要程度，历史特征信息对应的第四权重越大，表示这个历史特征信息越重要，则在读取时，可能也是相对重要的。则可基于各个历史特征信息对应的第四权重，对上一时刻的上一时刻对应的历史特征信息对应的时序特征信息L_i-2进行更新，得到上一时刻对应的历史特征信息对应的时序特征信息L_i-1。

本发明的可选方案中，第五权重包括第六权重和第七权重，基于上一时刻对应的历史特征信息对应的时序特征信息、当前行为信息、上一时刻对应的历史特征信息对应的第一权重、以及上一时刻的上一时刻对应的历史特征信息对应的第五权重

确定上一时刻对应的历史特征信息对应的第五权重

可以包括：

基于上一时刻对应的历史特征信息对应的时序特征信息、以及上一时刻的上一时刻对应的历史特征信息对应的第五权重

确定上一时刻的历史特征信息对应的第六权重f_i-1和第七权重b_i-1；

基于当前行为信息中的关键词，确定上一时刻的历史特征信息对应的第八权重

基于上一时刻的历史特征信息对应的第八权重、第六权重、和第七权重，确定上一时刻对应的历史特征信息对应的第五权重

由于存储的各个第三特征信息也对应有时序关系，比如，存储时对应的时序关系为从1至T时刻，对于第三特征信息的读取，可以按照从1至T的顺序(向前顺序)读取，也可以按照从T至1的顺序(向后顺序)读取。即对于第三特征信息的读取包括三种读取方式，第一种方式为，基于需要读取的内容(关键词)进行读取，第二种方式为，基于向前读取的方式(第一读取方式)，第三种方式为，基于向后读取的方式(第二读取方式)。

其中，需要读取的内容可基于当前行为信息确定。第六权重的大小表示了选择第二种方式的权重，第七权重的大小表示了选择第三种方式的权重，第八权重的大小表示了选择第一种方式的权重，基于上述第六权重、第七权重以及第八权重确定得到的上一时刻对应的历史特征信息对应的第五权重可以从各个方面反映出历史特征信息以及当前行为信息对于第三特征信息读取的影响，从而使得读取到的第三特征信息可以准确的反映出用户的兴趣变化。

作为一个示例，对上一时刻的第三特征信息的确定方式进行具体说明：

当前时刻之前的各个第三特征信息之间是有时序关系的，将该时序关系通过时序特征信息(时序矩阵)表示为L_i∈[0，1]^n*n，其中，L_i[p，q]表示第p个地址(第三特征信息)在第q个地址之后。

首先，为了定义L_i，基于初始时刻的对应的历史特征信息对应的第一权重先确定初始时刻对应的第四权重，第四权重P_i可通过以下公式(12)确定：

其中，

表示的是当前时刻对应的历史特征信息对应的第一权重，则基于上述公式，可以确定得到每一时刻历史特征信息对应的第四权重。

在对当前时刻的历史特征信息进行更新后，各个第三特征信息之间的时序关系也对应进行了更新，即上一时刻的对应的历史特征信息对应的时序特征信息L_i-2进行了更新，具体可参见以下公式(13)：

其中，L_i[p，q]表示的是当前时刻对应的历史特征信息对应的时序特征信息，L_i-1[p，q]表示的是上一时刻对应的历史特征信息对应的时序特征信息，

表示当前时刻对应的历史特征信息对应的第一权重，P_i-1[q]表示的是上一时刻对应的历史特征信息对应的时序特征信息对应的第四权重。

同理，基于上述公式(13)可确定得到上一时刻对应的历史特征信息对应的时序特征信息，在此不再赘述。

在确定得到上一时刻对应的历史特征信息对应的时序特征信息之后，可以基于该时序特征信息和上一时刻的上一时刻对应的第五权重，确定得到第六权重和第七权重。

其中，第六权重和第七权重具体可通过以下公式(14)确定：

其中，公式(14)中的f_i表示第六权重，b_i表示第七权重，

表示上一时刻的历史特征信息对应的第五权重。第六权重用于表征上一时刻对应的第三特征信息的第一读取方式，第七权重用于表征上一时刻对应的第三特征信息的第二读取方式。

在确定得到上述的第六权重和第七权重之后，还需要基于当前行为信息中的关键词，确定第八权重，该第八权重的确定方式与前文第二权重的确定方式相同，在此不再赘述。

在确定了上述第六权重，第七权重和第八权重后，可以基于这几个权重，通过公式(15)确定得到上一时刻对应的历史特征信息对应的第五权重

其中，

为当前时刻对应的历史特征信息对应的第五权重，[1]、[2]和[3]分别用于标识上述三种读取方式，其中，[1]用于标识上述第二种方式，[3]用于标识上述的第三种方式，[2]用于标识上述第一种方式。

表示当前时刻的历史特征信息对应的第八权重，b_i表示当前时刻的历史特征信息对应的第六权重，f_i表示当前时刻的历史特征信息对应的第七权重，

表示的是运算中常用的门，每个门可以对应一个神经网络，通过该神经网络可以确定在读取上一时刻的第三特征信息时，上述三种读取方式中选择每种方式的权重，即基于

的大小确定上述三种读取方式中每个方式所占的权重。

接着，基于该第五权重和上一时刻对应的历史特征信息M_i-1，通过以下公式(16)确定上一时刻对应的第三特征信息r_i-1：

其中，T表示转置运算。

本发明的可选方案中，第二特征信息是通过神经网络模型得到的，神经网络模型包括第一网络模型和第二网络模型；

其中，第一网络模型用于基于用户当前时刻的当前行为信息，以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息

根据当前时刻的第一特征信息

上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息o_i-1，确定当前时刻的第三特征信息r_i，基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息；第二网络模型用于更新并存储历史特征信息，以及用于基于第一特征信息得到第三特征信息；

具体的，本发明的方案可通过神经网络模型实现，其中，该模型包括第一网络模型和第二网络模型，第一网络模型的输入为用户当前时刻的当前行为信息，输出为下一时刻的待推荐信息，其中，第一网络模型中用到的第三特征信息从第二网络模型中获取。第一网络模型可以是基于GRU、LSTM、RNN或其他神经网络训练得到的模型。神经网络模型是基于训练样本数据对第一网络模型的模型参数进行训练更新得到的，即在训练更新阶段，第二网络模型不参与模型的更新训练，由于，历史特征信息存储在第二网络模型中，不存储在第一网络模型中，则可以降低基于第一网络模型的模型参数进行更新训练时发生的梯度爆炸的问题。

另外，如果神经网络模型为RNN模型，由于RNN模型通常处理的是一维特征向量，即RNN模型通常处理的是隐层特征信息h_i，该隐层特征信息是一维特征向量，而第二网络模型存储的历史特征信息是二维特征矩阵信息，二维特征矩阵信息相较于一维特征向量更能保存完整的信息的特征，因此基于第二网络模型可以保存更加全面的历史特征信息，使得基于该历史特征信息确定的待推荐信息更加准确。另一方面，对于本发明中的神经网络模型，第三特征信息是第二网络模型基于第一特征信息确定的，相较于通过第一网络模型基于第一特征信息确定第三特征信息而言，会减少第一网络模型的数据处理量。

信息推荐(会话推荐)与现实应用密切相关，与人类认知、思考联系密切。每一个会话的产生，都代表着用户的认知、思考和抉择的过程。心理学记忆相关理论认为，人类认知抉择的过程，主要体现在摄入信息流在记忆模块中的流动，如图5中所示的人类认知抉择过程的信息流示意图。人类从外界捕获的信息首先暂存于感觉记忆中，然后由感觉记忆流向工作记忆；从工作记忆到长时记忆是信息存储的过程，相对应的从长时记忆到工作记忆就是信息提取的过程。由此可以看出，人类做出决策直接依赖于工作记忆。

对用户生成会话的过程进行更深度的模仿人类思维认知方式建模。参考心理学记忆相关理论，将输入会话、RNN模型以及外部存储(存储用户的历史特征信息，该历史特征信息指的是基于用户的历史会话信息确定的信息)分别定义为感觉记忆模块、工作记忆模块和长时记忆模块。其中，感觉记忆模块负责将外部输入的会话转化为嵌入向量并将其传入工作记忆模块；工作记忆模块负责接收感觉记忆模块输入的信息，根据暂存在工作记忆模块中的记忆信息(隐层特征信息)对输入的信息进行编码，将编码后的信息存储在长时记忆模块中，长时记忆模块负责对编码后的信息进行进一步的处理，得到深度编码信息，长时记忆模块还负责更新该深度编码信息，在会话预测阶段，可以提取长时记忆模块中的深度编码信息，与工作记忆模块的信息相融合，产生系统所需的会话预测。其中，长时记忆模块维护整个会话序列的信息，将工作记忆模块的传入信息模仿人类记忆模式进行存储，并向工作记忆模块提供全局的经验信息，丰富了预测使用的信息量。

基于上述理论，本发明提出的是一个通用的扩展性较强的框架，感觉记忆模型承担框架信息输入功能，工作记忆模块是一个控制器的角色，长期记忆模块是一个信息记忆的角色。这样控制器的选择会比较灵活，可以选择使用GRU或者LSTM，甚至是其他RNN的变种。

常见的信息推荐模型的建模有两种方式，假如，给定会话中item序列为x₁，x₂，...，x_T-1，x_T，即每个用户的历史行为信息，第一种建模方式为：最大化会话中的最后一个item出现的概率，用数学语言表示为公式(17)：

x_i＝max{p(x_T|x₁，x₂，...，x_T-1)} (17)

但是这种方式并不能最大效率的挖掘到{x₁，x₂，...，x_T-1}之间的依赖关系，特别是在T比较大的时候，如果最大化会话中的最后一个item出现的概率，那么会话头部的items会被遗忘的掉，或者是被后来的items覆盖掉，只有会话尾部的item对训练有实质的贡献。这样使预测得到的会话只考虑了items中后面的items，忽略了前面的items，使得预测得到的会话不够准确。

第二种建模方式为：对于给定会话中的item序列，最大化序列中item的联合分布(例如，x_i出现概率最大是在序列x₁，x₂，...，x_i-1出现的条件下)。并将其合写为条件概率的乘积。数学语言表示为公式(18)：

这种建模方式能够更深度的挖掘到会话内部item之间的依赖关系，使得每个item对训练都有相对最大的贡献。

本发明中的神经网络模型采用第二种建模方法。按照时间发生顺序输入练样本数据包括每个用户的历史行为信息x₁，x₂，...，x_T-1，分别预测下一时刻向用户推荐的信息x₂，x₃，...，x_T，也就是说，基于当前时刻的信息，预测下一时刻的待推荐信息需要基于上一时刻的历史行为信息(均为基于上一时刻的历史行为信息确定的)，基于x₁预测x₂，基于x₁和x₂，预测x₃，依次类推，这样在预测下一时刻的待推荐信息时，均考虑了当前时刻之前的用户行为信息，使得确定的待推荐信息更加准确。

为了对本方案进行进一步的说明，下面具体结合图6中的第一网络模型和第二网络模型对本方案进行进一步的说明：

第一网络模型包括依次级联输入层、嵌入层(图6中所示的Embedding层)、控制层(图6中所示的Controller层)和输出层(图6中所示的Feedforword层)；第二网络模型(图6中所示的Memory层)与控制层连接，神经网络模型可以是预先基于训练样本数据训练得到的模型，每个训练样本数据包括每个用户的历史行为信息，即item序列x₁，x₂，...，x_T-1，x_T，以及每个历史行为信息对应的样本标签(简称为标注结果)。

在基于训练样本数据对神经网络模型进行训练时，以图6中的历史行为信息v_i作为当前时刻的历史行为信息进行说明：将该历史行为信息输入至输入层，输入层对历史行为信息进行归一化处理(比如，归一化为设定长度的[0，1]序列)，得到一个列向量(归一化的特征向量)，该列向量的行数等于用户对应的历史行为信息的长度，如果某个用户对应的历史行为信息的长度小于设定长度，则可在该历史行为信息对应的列向量通过设定值进行补齐，该设定值通常为0，由于历史行为信息中越靠后的信息对待推荐信息的影响越大，则可将该设定值补充在列向量前面的位置。然后将归一化的特征向量输入至第一网络模型的嵌入层，将该归一化的特征向量转换为设定维度的特征向量，即行为特征信息v_i。

将该行为特征信息v_i、上一时刻的第三特征信息r_i-1、以及上一时刻的隐层特征信息h_i-1输入至控制层，该控制层是一个可扩展的RNN的框架，其可以选用不同类型的神经元(例如RNN，GRU，LSTM)。控制层基于该当前时刻的行为特征信息v_i、上一时刻的第三特征信息r_i-1、上一时刻的隐层特征信息h_i-1，通过以下公式(1)确定当前时刻的第一特征信息

其中，该当前时刻的第一特征信息

为控制层的输出，同时得到输入至下一个控制层的隐层特征信息h_i，控制层将当前时刻的第一特征信息

输入至第二网络模型。上一时刻对应的隐层特征信息h_i-1是基于上一时刻对应的行为信息x_i-1、上一时刻的上一时刻对应的隐层特征信息h_i-2、以及上一时刻的上一时刻对应的第三特征信息r_i-2，通过以下公式(2)确定的：

h_i-1＝f_h(h_i-2，v_i-1，r_i-2) (2)

其中，v_i-1是提取上一时刻对应的行为信息x_i-1得到的行为特征信息，基于上述公式(2)可知，初始时刻的隐层特征信息h₁是基于初始时刻对应的行为信息x₁得到的，具体的，初始时刻的没有对应的上一时刻的隐层特征信息和第三特征信息，即初始时刻的没有对应的上一时刻的隐层特征信息和第三特征信息可全部置为0，只有基于初始时刻对应的行为信息x₁对应的特征信息v₁，因此，初始时刻的隐层特征信息h₁实际上是基于初始时刻的行为信息x₁对应的特征信息v₁确定的。

第二网络模型中存储有上一时刻的历史特征信息M_i-1，其中，初始时刻的历史特征信息M₁是基于初始时刻的第二特征信息o₁确定的，当前时刻对应的历史行为信息指的是当前时刻之前所有历史特征信息，可由第二网络模型通过以下公式(3)确定任一时刻对应的历史特征信息M_i-1：

M_i＝f_m(o_i，M_i-1) (3)

在基于上述公式(3)确定得到上一时刻对应的历史特征信息M_i-1之后，第二网络模型可以基于以下公式(4)确定当前时刻的第三特征信息ri：

其中，基于上述公式(4)可知初始时刻的第三特征信息r₁是基于初始时刻的第一特征信息

得到的，则初始时刻的下一时刻的第三特征信息r₂可以基于初始时刻的下一时刻的第一特征信息和初始时刻的第二特征信息o₁确定。

在确定得到当前时刻的第三特征信息

和当前时刻的第一特征向量后，可以通过以下公式(5)确定得到当前时刻的第二特征信息o_i：

在确定得到当前时刻的第二特征信息o_j之后，将该当前时刻的第二特征信息o_i输入至输出层，输出层的输出为下一时刻的待推荐信息x_i+1；其中，该输出层接收控制层的输出后，可以基于该待推荐信息所对应的预测结果和对应的标注结果的相似程度来判断模型训练是否结束，如通过模型的损失函数(比如，softmax函数)是否收敛来判断模型训练是否结束，该损失函数表征了各训练样本数据的预测结果和标注结果的差异程度，如果损失函数未收敛，将训练结束时的模型作为本发明实施例应用时的神经网络模型。

在训练更新阶段，第二网络模型不参与模型的更新训练，由于历史特征信息存储在第二网络模型中，不存储在第一网络模型中，则可以降低基于第一网络模型的模型参数进行更新训练时发生的梯度爆炸的问题。并且，由于第二网络模型相较于第一网络模型中的控制层具有更大的存储空间，因此基于第二网络模型可以存储更多的历史特征信息，则基于第二网络模型存储的历史特征信息可以为信息的推荐提供全局的参考，使得预测得到的待推荐信息更准确。

基于上述训练好的神经网络模型，结合具体的应用场景进行信息的预测，具体可以为：比如，应用场景为视频推荐，用户的历史行为信息为在预设的一段时间内(可以是10分钟，也可以说1小时，也可以是1天，或者是其他自定义的时间长度)在所使用的系统中观看、点击、购买等行为，将该历史行为信息输入至训练好的神经网络模型，基于该模型即可预测出该用户之后可能感兴趣的视频。以短视频为例，某用户在一个小时内有效观看(播放时长满足预设条件，比如，预设条件为大于设定时长，或者，播放时长占视频总时长的比例大于设定值，比如，设定值为60％)为100个视频，基于本发明的方案，可以基于上述100个视频，预测出该用户下一个时间内可能感兴趣的视频，最后将该视频推荐给用户。

将本发明的方案与现有技术中的其他方案(包括传统的RNN、GRU&Mem、GRU4Rec、LSTM&Mem、LSTM4Rec)进行比较，评价指标Metrics包括MRR、Recall、NDCG；其中，各评价指标的值越高，表示该算法的性能越好。

作为一个示例，以应用1、应用2、应用3的会话数据(历史行为信息)为例，实验结果如下表1、表2和表3所示，其中，表1针对的是不同方案基于应用1的数据对应的实验结果，表2针对的是不同方案基于应用2的数据对应的实验结果，表3针对的是不同方案基于应用3的数据对应的实验结果。

其中，应用1的数据来源为针对包含10671个电影的电影库的178768个会话数据(历史行为信息)，应用1的每个用户的会话的长度为50。对于小于50的会话数据，采用填充方式在序列开始处填充0，直至序列长度达到50，对于长度超过50的会话数据，从前往后计数为50后截断，多余的会话序列作为一个新的会话。应用2的数据来源为针对包含136738段音乐数据的音乐库的970713个会话数据，应用3的数据来源为针对包含65998个视频的视频库的1048575个会话数据。应用2的长度为20，应用3的长度为10，应用2和应用3对应的数据处理规则与应用1相同。

表1

Metrics	MRR@5	Recall@5	NDCG@5	MRR@20	Recall@20	NDCG@20
							GRU4Rec	0.047	0.0583	0.0855	0.2083	0.1171	0.1881
GRU&Mem	0.0487	0.0607	0.0901	0.2181	0.1224	0.1969
							Improv	3.62％	4.12％	5.38％	4.70％	4.53％	4.68％
LSTM4Rec	0.049	0606	0.0883	0.2121	0.122	0.1941
							LSTM&Mem	0.0521	0.0644	0.0951	0.2281	0.1303	0.2075
Improv	6.32％	6.27％	7.70％	7.54％	6.80％	6.90％

表1中的Improv表示的是本发明中基于神经网络模型的信息推荐的方案，@5表示的是需要预测得到电影的数量为5，@20表示的是需要预测得到的电影的数量为20。基于表1中的数据可知，本发明的神经网络模型对应的实验数据中的各个指标相较于其他算法的各项指标相比，本发明算法的性能更好。

表2

表2中的Improv表示的是本发明中基于神经网络模型的信息推荐的方案，@5表示的是需要预测得到音乐的数量为5，@20表示的是需要预测得到的音乐的数量为20。基于表2中的数据可知，本发明的神经网络模型对应的实验数据中的各个指标相较于其他算法的各项指标相比，本发明算法的性能更好。

表3

Metrics	MRR@5	Recall@5	NDCG@5	MRR@20	Recall@20	NDCG@20
							GRU4Rec	0.0653	0.079	0.1139	0.2616	0.1606	0.2461
GRU&Mem	0.07	0.0839	0.121	0.2695	0.1718	0.2580
							Improv	7.20％	6.20％	6.23％	3.02％	6.97％	4.84％
LSTM4Rec	0.0687	0.0825	0.1181	0.2662	0.1681	0.2537
							LSTM&Mem	0.0720	0.0861	0.1240	0.2749	0.1764	0.2638
Improv	4.80％	4.36％	5.00％	3.27％	4.94％	3.98％

表3中的Improv表示的是本发明中基于神经网络模型的信息推荐的方案，@5表示的是需要预测得到视频的数量为5，@20表示的是需要预测得到的视频的数量为20。基于表3中的数据可知，本发明的神经网络模型对应的实验数据中的各个指标相较于其他算法的各项指标相比，本发明算法的性能更好。

实验中所有模型均采用Adam作为优化器，Adam是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。嵌入向量的维度(embedding size)都设为128，行为信息的长度(word size)设置为128，隐藏层的数量(hidden number)为64；应用2与应用3数据的批处理数据的长度(batch size)都设置为1024，应用1数据的批处理数据的长度(batch size)设置为512。应用1、2与3的(对应存储空间的长度)Memory slot分别设置为8，4，2；学习率(leaming rate)采用0.001，数据集进行随机划分，80％数据作为训练数据集合，剩下的20％数据作为测试数据集合。实验硬件环境采用计算引擎为GPU Tesla P40，版本1.8.0.的人工智能学习系统tensorflow。

本发明的可选方案中，该方法由服务器执行，该服务器为区块链系统中的一个节点。

由于用户的行为信息是指用户在终端设备(比如，客户端)上的操作行为信息，则用户的客户端也可以作为区块链系统中的节点，客户端以及服务器可通过网络通信的形式连接形成的分布式系统，该分布式系统作为区块链系统。

作为一个示例，参见图7，图7是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图7示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图8，图8是本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

基于与图3中所示的方法相同的原理，本发明实施例还提供了一种信息推荐装置20，如图9中所示，该装置20可以包括当前行为信息获取模块210、第一特征信息确定模块220、第三特征信息确定模块230以及待推荐信息确定模块240，其中：

当前行为信息获取模块210，用于获取用户当前时刻的当前行为信息；

第一特征信息确定模块220，用于根据当前行为信息、以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息；

第三特征信息确定模块230，用于根据当前时刻的第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息；

待推荐信息确定模块240，用于基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息。

通过本实施例中的方案，可以基于当前时刻的当前行为信息和当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息，然后基于该第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息，其中，上一时刻的第二特征信息是基于上一时刻的第一特征信息和上一时刻的第三特征信息确定的，则当前时刻的第三特征信息受上一时刻的第三特征信息的影响，当前时刻的第三特征信息受用户所有历史行为信息影响，基于该当前时刻的第三特征信息可以准确反映出用户的兴趣变化，从而使得基于当前时刻的第一特征信息和当前时刻的第三特征信息确定得到的下一时刻的待推荐信息更加准确，更加满足用户的需求。

可选的，本发明第二方面的实施例中，当前时刻对应的用户的历史行为信息包括上一时刻的行为信息、以及上一时刻对应的历史行为信息；

第一特征信息确定模块220在根据当前行为信息、以及当前时刻对应的用户的历史行为信息，确定当前时刻的第一特征信息时，具体用于：

提取当前行为信息的行为特征信息；

上一时刻对应的隐层特征信息是通过以下方式确定的：

可选的，第三特征信息确定模块230在根据当前时刻的第一特征信息、上一时刻对应的用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息时，具体用于：

可选的，待推荐信息确定模块240在基于当前时刻的第一特征信息和当前时刻的第三特征信息，确定下一时刻的待推荐信息时，具体用于：

可选的，该装置还包括：

可选的，历史特征信息更新模块在基于当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，更新上一时刻对应的历史特征信息时，具体用于：

可选的，历史特征信息更新模块在基于待更新特征信息，对上一时刻对应的历史特征信息进行更新时，具体用于：

可选的，历史特征信息更新模块在第一权重包括第二权重和第三权重，基于当前行为信息，确定待更新特征信息对应的第一权重时，具体用于：

基于当前行为信息，确定当前行为信息中的关键词；

基于当前行为信息的利用信息，确定第三权重；

基于第三权重和第二权重，得到第一权重。

可选的，该装置还包括：

第三特征信息读取模块，用于通过以下方式确定上一时刻对应的第三特征信息：基于上一时刻对应的历史特征信息，确定上一时刻对应的第三特征信息。

可选的，第三特征信息读取模块在基于上一时刻对应的历史特征信息，确定上一时刻对应的第三特征信息时，具体用于：

可选的，上一时刻对应的历史特征信息包括上一时刻的上一时刻对应的历史特征信息，第三特征信息读取模块在基于上一时刻对应的历史特征信息，以及上一时刻对应的历史特征信息对应的第一权重，确定上一时刻对应的历史特征信息对应的时序特征信息时，具体用于：

可选的，第五权重包括第六权重和第七权重，第三特征信息读取模块在基于上一时刻对应的历史特征信息对应的时序特征信息、当前行为信息、上一时刻对应的历史特征信息对应的第一权重、以及上一时刻的上一时刻对应的历史特征信息对应的第五权重，确定上一时刻对应的历史特征信息对应的第五权重时，具体用于：

可选的，第二特征信息是通过神经网络模型得到的，神经网络模型包括第一网络模型和第二网络模型；

由于本发明实施例所提供的信息推荐装置为可以执行本发明实施例中的信息推荐方法的装置，故而基于本发明实施例中所提供的信息推荐方法，本领域所属技术人员能够了解本发明实施例的信息推荐装置的具体实施方式以及其各种变化形式，所以在此对于该装置如何实现本发明实施例中的信息推荐方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中的信息推荐方法所采用的信息推荐装置，都属于本发明所欲保护的范围。

基于与本发明实施例所提供的信息推荐方法和信息推荐装置相同的原理，本发明实施例还提供了一种电子设备，该电子设备可以包括处理器和存储器。其中，存储器中存储有可读指令，可读指令由处理器加载并执行时，可以实现本发明任一实施例中所示的方法。

作为一个示例，图10中示出了本发明实施例的方案所适用的一种电子设备4000的结构示意图，如图10中所示，该电子设备4000可以包括处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本发明实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本发明方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述任一方法实施例所示的方案。应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种信息推荐方法，其特征在于，包括：

获取用户当前时刻的当前行为信息；

根据所述当前行为信息、以及当前时刻对应的所述用户的历史行为信息，确定当前时刻的第一特征信息；

根据所述当前时刻的第一特征信息、上一时刻对应的所述用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息；

其中，所述上一时刻的第二特征信息是将上一时刻的第一特征信息和上一时刻的第三特征信息融合得到的，初始时刻的第三特征信息是基于初始时刻的第一特征信息得到的；

基于所述当前时刻的第一特征信息和所述当前时刻的第三特征信息，确定下一时刻的待推荐信息。

2.根据权利要求1所述的方法，其特征在于，所述当前时刻对应的所述用户的历史行为信息包括上一时刻的行为信息、以及上一时刻对应的历史行为信息；

所述根据所述当前行为信息、以及当前时刻对应的所述用户的历史行为信息，确定当前时刻的第一特征信息，包括：

提取所述当前行为信息的行为特征信息；

基于所述行为特征信息、上一时刻对应的隐层特征信息以及所述上一时刻对应的第三特征信息，确定所述当前时刻的第一特征信息；

所述上一时刻对应的隐层特征信息是通过以下方式确定的：

根据所述上一时刻对应的行为信息、上一时刻的上一时刻对应的隐层特征信息、以及上一时刻的上一时刻对应的第三特征信息，确定所述上一时刻对应的隐层特征信息；

其中，初始时刻的隐层特征信息是基于初始时刻对应的所述用户的行为信息得到的。

3.根据权利要求1所述的方法，其特征在于，所述根据所述当前时刻的第一特征信息、上一时刻对应的所述用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息，包括：

基于所述上一时刻对应的所述用户的历史行为信息，确定所述上一时刻的上一时刻对应的所述用户的历史特征信息，初始时刻的历史特征信息是基于初始时刻的第二特征信息确定的；

基于所述当前时刻的第一特征信息、所述上一时刻对应的历史特征信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述当前时刻的第一特征信息和所述当前时刻的第三特征信息，确定下一时刻的待推荐信息，包括：

将所述当前时刻的第一特征信息、以及所述当前时刻的第三特征信息进行融合，得到当前时刻的第二特征信息；

基于所述当前时刻的第二特征信息，确定下一时刻的待推荐信息。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于所述当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，更新上一时刻对应的历史特征信息。

6.根据权利要求5所述的方法，其特征在于，所述基于所述当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，更新所述上一时刻对应的历史特征信息，包括：

基于所述当前行为信息、上一时刻对应的隐层特征信息、以及上一时刻的第三特征信息，确定所述上一时刻对应的历史特征信息的待更新特征信息，所述待更新特征信息包括待删除特征信息或待增加特征信息中的至少一项；

基于所述待更新特征信息，对所述上一时刻对应的历史特征信息进行更新。

7.根据权利要求6所述的方法，其特征在于，所述基于所述待更新特征信息，对所述上一时刻对应的历史特征信息进行更新，包括：

基于所述当前行为信息以及所述上一时刻对应的历史特征信息，确定所述待更新特征信息对应的第一权重；

基于所述第一权重以及所述待更新特征信息，对所述上一时刻对应的历史特征信息进行更新。

8.根据权利要求7所述的方法，其特征在于，所述第一权重包括第二权重和第三权重，所述基于所述当前行为信息，确定所述待更新特征信息对应的第一权重，包括：

基于所述当前行为信息，确定所述当前行为信息中的关键词；

基于所述关键词以及所述上一时刻对应的历史特征信息，确定所述第二权重；

基于所述当前行为信息的利用信息，确定所述第三权重；

基于所述第三权重和所述第二权重，得到所述第一权重。

9.根据权利要求5所述的方法，其特征在于，所述上一时刻对应的第三特征信息是通过以下方式确定的：

基于所述上一时刻对应的历史特征信息，以及上一时刻对应的历史特征信息对应的第一权重，确定所述上一时刻对应的历史特征信息对应的时序特征信息；

基于所述上一时刻对应的历史特征信息对应的时序特征信息、所述当前行为信息、所述上一时刻对应的历史特征信息对应的第一权重、以及所述上一时刻的上一时刻对应的历史特征信息对应的第五权重，确定所述上一时刻对应的历史特征信息对应的第五权重；

基于所述上一时刻对应的历史特征信息对应的第五权重，以及所述上一时刻对应的历史特征信息，确定所述上一时刻对应的第三特征信息。

10.根据权利要求9所述的方法，其特征在于，所述上一时刻对应的历史特征信息包括上一时刻的上一时刻对应的历史特征信息；

所述基于所述上一时刻对应的历史特征信息，以及上一时刻对应的历史特征信息对应的第一权重，确定所述上一时刻对应的历史特征信息对应的时序特征信息，包括：

基于所述上一时刻的上一时刻对应的历史特征信息对应的时序特征信息、所述上一时刻对应的历史特征信息对应的第一权重、以及所述上一时刻的上一时刻对应的历史特征信息对应的时序特征信息对应的第四权重，确定所述上一时刻对应的历史特征信息对应的时序特征信息；

11.根据权利要求10所述的方法，其特征在于，所述第五权重包括第六权重和第七权重；

所述基于所述上一时刻对应的历史特征信息对应的时序特征信息、所述当前行为信息、所述上一时刻对应的历史特征信息对应的第一权重、以及所述上一时刻的上一时刻对应的历史特征信息对应的第五权重，确定所述上一时刻对应的历史特征信息对应的第五权重，包括：

基于上一时刻对应的历史特征信息对应的时序特征信息、以及所述上一时刻的上一时刻对应的历史特征信息对应的第五权重，确定上一时刻的历史特征信息对应的第六权重和第七权重；

其中，所述第六权重用于表征所述上一时刻对应的第三特征信息的第一读取方式，所述第七权重用于表征所述上一时刻对应的第三特征信息的第二读取方式；

基于所述当前行为信息中的关键词，确定上一时刻的历史特征信息对应的第八权重；

基于所述上一时刻的历史特征信息对应的第八权重、所述第六权重、和所述第七权重，确定所述上一时刻对应的历史特征信息对应的第五权重。

12.根据权利要求1至3中任一项所述的方法，其特征在于，所述第二特征信息是通过神经网络模型得到的，所述神经网络模型包括第一网络模型和第二网络模型；

其中，所述第一网络模型用于基于所述用户当前时刻的当前行为信息，以及当前时刻对应的所述用户的历史行为信息，确定当前时刻的第一特征信息，根据所述当前时刻的第一特征信息、上一时刻对应的所述用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息，基于所述当前时刻的第一特征信息和所述当前时刻的第三特征信息，确定下一时刻的待推荐信息；所述第二网络模型用于更新并存储所述历史特征信息，以及用于基于所述第一特征信息得到所述第三特征信息；

其中，所述神经网络模型是基于训练样本数据对第一网络模型的模型参数进行训练更新得到的。

13.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法由服务器执行，所述服务器为区块链系统中的一个节点。

14.一种信息推荐装置，其特征在于，包括：

第一特征信息确定模块，用于根据所述当前行为信息、以及当前时刻对应的所述用户的历史行为信息，确定当前时刻的第一特征信息；

第三特征信息确定模块，用于根据所述当前时刻的第一特征信息、上一时刻对应的所述用户的历史行为信息、以及上一时刻的第二特征信息，确定当前时刻的第三特征信息；

待推荐信息确定模块，用于基于所述当前时刻的第一特征信息和所述当前时刻的第三特征信息，确定下一时刻的待推荐信息。

15.一种电子设备，其特征在于，包括：

处理器和存储器；

所述存储器，用于存储计算机操作指令；

所述处理器，用于通过调用所述计算机操作指令，执行权利要求1至13中任一项所述的方法。