CN114417182A

CN114417182A - 信息推送方法、装置、设备、介质及计算机产品

Info

Publication number: CN114417182A
Application number: CN202210078420.6A
Authority: CN
Inventors: 卢金环
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-04-29

Abstract

本发明提供一种信息推送方法、装置、设备、介质及计算机产品，该方法包括：获取待推送用户对应的推送相关数据；所述推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差；将所述推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息；所述训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q‑Learning算法训练后生成的；将所述目标推送信息发送至与所述待推送用户匹配的用户终端。本发明的信息推送方法，考虑了时间因素，从而提高了信息推送的准确性。

Description

信息推送方法、装置、设备、介质及计算机产品

技术领域

本发明涉及数据处理技术领域，尤其涉及一种信息推送方法、装置、设备、介质及计算机产品。

背景技术

信息推送是通过一定的技术标准或协议，在互联网上通过定期传送用户需要的信息来减少信息过载的一项技术。在信息推送技术领域中，推荐模型的质量能较大的影响信息推送整体质量的高低。

SVDPP算法(中文为：奇异值分解的改进算法，英文全称为：Singular ValueDecomposition Plus Plus)是一种基于协同过滤的推荐模型，该模型基于用户端和推送信息端两方面，推送信息可以包括产品、宣传等，且融入了隐式反馈信息，增强了对用户喜好方面的预测。

然而，SVDPP算法并没有考虑时间对于信息推送的影响，因而，目前信息推送的准确性还有待提高。

发明内容

本发明提供一种信息推送方法、装置、设备、介质及计算机产品，用以解决目前信息推送的准确性还有待提高的问题。

本发明第一方面提供一种信息推送方法，包括：

获取待推送用户对应的推送相关数据；所述推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差；

将所述推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息；所述训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q-Learning算法训练后生成的；

将所述目标推送信息发送至与所述待推送用户匹配的用户终端。

进一步地，如上所述的方法，所述训练至收敛的推荐模型包括训练至收敛的SVDPP算法、训练至收敛的马尔科夫决策子模型和训练至收敛的Q-Learning算法；

所述将所述推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息，包括：

根据所述推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值；

将各所述初始预测评分、与各所述初始预测评分匹配的所述奖惩值、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的Q-Learning算法，以确定各候选推送信息对应的Q值列表；所述Q值列表包括多个Q值；所述Q值用于表示相邻评分时间对应的评分之间的关联性；

根据所述Q值列表和各所述初始预测评分从各候选推送信息中确定所述目标推送信息。

进一步地，如上所述的方法，所述根据所述推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值，包括：

将所述待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分，以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法，以生成各候选推送信息对应的初始预测评分；

将各所述初始预测评分、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的马尔科夫决策子模型，以输出各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值。

进一步地，如上所述的方法，所述将所述待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分，以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法，以生成各候选推送信息对应的初始预测评分，包括：

采用训练至收敛的SVDPP算法将所述待推送用户特征转化为待推送用户特征向量和将各所述信息特征转化为对应信息特征向量；

采用训练至收敛的SVDPP算法根据各所述历史评分确定待推送用户对应的评分平均偏差和各候选推送信息的评分数据中属于待推送用户的各评分的平均值；所述待推送用户对应的评分平均偏差为待推送用户所有历史评分的平均值的偏差；所述属于待推送用户的各评分的平均值与各候选推送信息相匹配；

采用训练至收敛的SVDPP算法根据所述待推送用户特征向量、各信息特征向量、待推送用户对应的评分平均偏差、所述属于待推送用户的各评分的平均值以及各候选推送信息的评分平均偏差确定各候选推送信息对应的初始预测评分。

进一步地，如上所述的方法，所述根据所述Q值列表和各所述初始预测评分从各候选推送信息中确定所述目标推送信息，包括：

根据所述Q值列表和各所述初始预测评分确定各候选推送信息对应的最终预测评分；

将各最终预测评分以及匹配的候选推送信息按照最终预测评分从大到小排列，将其中排序靠前的预设数量的候选推送信息确定为目标推送信息。

进一步地，如上所述的方法，所述将所述推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息之前，还包括：

获取训练样本，所述训练样本中包括：目标用户特征、多个候选推送信息的信息特征、目标用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差；

将所述训练样本输入到预设推荐模型中，以对所述预设推荐模型进行训练；

采用均方根误差函数判断所述预设推荐模型是否满足收敛条件；

若所述预设推荐模型满足收敛条件，则将满足收敛条件的预设推荐模型确定为训练至收敛的推荐模型。

本发明第二方面提供一种信息推送装置，包括：

获取模块，用于获取待推送用户对应的推送相关数据；所述推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差；

确定模块，用于将所述推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息；所述训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q-Learning算法训练后生成的；

发送模块，用于将所述目标推送信息发送至与所述待推送用户匹配的用户终端。

进一步地，如上所述的装置，所述训练至收敛的推荐模型包括训练至收敛的SVDPP算法、训练至收敛的马尔科夫决策子模型和训练至收敛的Q-Learning算法；

所述确定模块具体用于：

根据所述推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值；将各所述初始预测评分、与各所述初始预测评分匹配的所述奖惩值、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的Q-Learning算法，以确定各候选推送信息对应的Q值列表；所述Q值列表包括多个Q值；所述Q值用于表示相邻评分时间对应的评分之间的关联性；根据所述Q值列表和各所述初始预测评分从各候选推送信息中确定所述目标推送信息。

进一步地，如上所述的装置，所述确定模块在根据所述推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值时，具体用于：

将所述待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分，以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法，以生成各候选推送信息对应的初始预测评分；将各所述初始预测评分、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的马尔科夫决策子模型，以输出各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值。

进一步地，如上所述的装置，所述确定模块在将所述待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分，以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法，以生成各候选推送信息对应的初始预测评分时，具体用于：

采用训练至收敛的SVDPP算法将所述待推送用户特征转化为待推送用户特征向量和将各所述信息特征转化为对应信息特征向量；采用训练至收敛的SVDPP算法根据各所述历史评分确定待推送用户对应的评分平均偏差和各候选推送信息的评分数据中属于待推送用户的各评分的平均值；所述待推送用户对应的评分平均偏差为待推送用户所有历史评分的平均值的偏差；所述属于待推送用户的各评分的平均值与各候选推送信息相匹配；采用训练至收敛的SVDPP算法根据所述待推送用户特征向量、各信息特征向量、待推送用户对应的评分平均偏差、所述属于待推送用户的各评分的平均值以及各候选推送信息的评分平均偏差确定各候选推送信息对应的初始预测评分。

进一步地，如上所述的装置，所述确定模块在根据所述Q值列表和各所述初始预测评分从各候选推送信息中确定所述目标推送信息时，具体用于：

根据所述Q值列表和各所述初始预测评分确定各候选推送信息对应的最终预测评分；将各最终预测评分以及匹配的候选推送信息按照最终预测评分从大到小排列，将其中排序靠前的预设数量的候选推送信息确定为目标推送信息。

进一步地，如上所述的装置，所述装置还包括：

训练模块，用于获取训练样本，所述训练样本中包括：目标用户特征、多个候选推送信息的信息特征、目标用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差；将所述训练样本输入到预设推荐模型中，以对所述预设推荐模型进行训练；采用均方根误差函数判断所述预设推荐模型是否满足收敛条件；若所述预设推荐模型满足收敛条件，则将满足收敛条件的预设推荐模型确定为训练至收敛的推荐模型。

本发明第三方面提供一种电子设备，包括：至少一个处理器、存储器及收发器；

所述处理器，所述存储器及所述收发器电路互连；

所述存储器存储计算机执行指令；所述收发器用于收发数据；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的信息推送方法。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的信息推送方法。

本发明第五方面提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面任一项所述的信息推送方法。

本发明提供的一种信息推送方法、装置、设备、介质及计算机产品，该方法包括：获取待推送用户对应的推送相关数据；所述推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差；将所述推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息；所述训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q-Learning算法训练后生成的；将所述目标推送信息发送至与所述待推送用户匹配的用户终端。本发明的信息推送方法，由于训练至收敛的推荐模型根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q-Learning算法训练后生成的，利用强化学习算法进行了进一步优化，同时，输入的推送相关数据中也包括评分时间，考虑了时间因素，从而提高了信息推送的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为可以实现本发明实施例的信息推送方法的场景图；

图2为本发明第一实施例提供的信息推送方法的流程示意图；

图3为本发明第二实施例提供的信息推送方法的流程示意图；

图4为本发明第二实施例提供的信息推送方法的马尔科夫决策子模型原理示意图；

图5为本发明第三实施例提供的信息推送装置的结构示意图；

图6为本发明第四实施例提供的信息推送装置的结构示意图；

图7为本发明第五实施例提供的电子设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

为了清楚理解本申请的技术方案，首先对现有技术的方案进行详细介绍。随着移动互联网的飞速发展，网络中充斥着大量冗余信息，为了解决在信息过载的情况下用户如何高效获取感兴趣信息的问题，机器学习出现了一个新的分支——推荐模型。推荐模型目前使用较多的包括协同过滤算法族：比如物品协同过滤(英文全称为：Item CollaborationFilter，英文简称为：ItemCF)、用户协同过滤(英文全称为：User Collaboration Filter，英文简称为：UserCF)、SVDPP算法等。其中，SVDPP算法使用的较多，该算法基于用户端和推送信息端，且融入了隐式反馈信息，擅于针对用户喜好方面进行推荐。

所以针对现有技术中目前信息推送的准确性还有待提高的问题，发明人在研究中发现，为了解决该问题，可以对SVDPP算法进行进一步优化，通过强化学习的方式，从时间层面对SVDPP算法进行优化，以提高推荐模型的准确性，从而提高信息推送的准确性。

具体的，首先通过获取待推送用户对应的推送相关数据。推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差。将推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息。训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q-Learning算法训练后生成的。同时，将目标推送信息发送至与待推送用户匹配的用户终端。从而提高了信息推送的准确性。

发明人基于上述的创造性发现，提出了本申请的技术方案。

下面对本发明实施例提供的信息推送方法的应用场景进行介绍。如图1所示，其中，1为第一电子设备，2为第二电子设备，3为用户终端。第二电子设备2存储有待推送用户对应的推送相关数据。当需要进行信息推送时，可以由第一电子设备1从第二电子设备2中获取待推送用户对应的推送相关数据，推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差。然后，第二电子设备2发送待推送用户对应的推送相关数据至第一电子设备1，其以用户终端3的形式进行展现。然后第一电子设备1将推送相关数据输入训练至收敛的推荐模型中，以输出目标推送信息，并将目标推送信息发送至用户终端3，从而完成对用户终端3的信息推送。

下面结合说明书附图对本发明实施例进行介绍。

图2为本发明第一实施例提供的信息推送方法的流程示意图，如图2所示，本实施例中，本发明实施例的执行主体为信息推送装置，该信息推送装置可以集成在电子设备中。则本实施例提供的信息推送方法包括以下几个步骤：

步骤S101，获取待推送用户对应的推送相关数据。推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差。

本实施例中，推送相关数据中，待推送用户特征与使用用户终端的用户相关，比如年龄、性别、手机号、用户标识、用户点击、浏览等。候选推送信息的信息特征与待推送用户特征类似，若待推送信息为产品类信息，则候选推送信息的信息特征可以包括产品规格、产品类别、产品的隐性喜好特征等，如果待推送信息为娱乐类信息，比如电影类信息，则候选推送信息的信息特征可以包括电影名称、电影类别、电影时长、电影上映时间等。

待推送用户对多个候选推送信息的历史评分和评分时间主要指待推送用户对该多个候选推送信息的历史评分，比如产品类的候选推送信息，待推送用户对每个产品的历史评分可以以具体数值表示。同时，历史评分可以为0，即代表待推送用户没有对对应产品进行过评分。

示例性的，候选推送信息为产品A、产品B、产品C、产品D，产品A-C该待推送用户曾评价过，产品A历史评分为8分，产品B历史评分为10分，产品B历史评分为6分，产品D没有评价过，则历史评分为0分。评分时间同理，若待推送用户历史评价过，则对应具体的评价时间，若待推送用户未曾评价过，则评分时间不存在。

各候选推送信息对应评分数据的评分平均偏差，代表针对每个候选推送信息对应的所有评分数据，计算得到的对应评分平均偏差。

示例性的，产品A存在3个用户评分，分别为6分，8分，7分，则对应评分平均偏差为三分之二、产品B、产品C以及产品D的计算方式与产品A的相同，在此不再赘述。

步骤S102，将推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息。训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q-Learning算法训练后生成的。

本实施例中，目标推送信息一般可以按照实际应用场景进行选择，比如产品推荐，可以是多个产品信息，电影推荐，可以是多个电影信息等。

训练至收敛的推荐模型由SVDPP算法、马尔科夫决策子模型和Q-Learning算法融合，并通过训练至收敛得到。通过马尔科夫决策子模型和Q-Learning算法对SVDPP算法的预测评分进行进一步优化，从而提高推荐模型的准确性。

步骤S103，将目标推送信息发送至与待推送用户匹配的用户终端。

本实施例中，将目标推送信息发送至用户终端后，用户可以通过用户终端来进行反馈操作，比如查看、点击等。

本发明实施例提供的一种信息推送方法，该方法包括：获取待推送用户对应的推送相关数据。推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差。将推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息。训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q-Learning算法训练后生成的。将目标推送信息发送至与待推送用户匹配的用户终端。

本发明的信息推送方法，由于训练至收敛的推荐模型根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q-Learning算法训练后生成的，利用强化学习算法进行了进一步优化，同时，输入的推送相关数据中也包括评分时间，考虑了时间因素，从而提高了信息推送的准确性。

图3为本发明第二实施例提供的信息推送方法的流程示意图，如图3所示，本实施例提供的信息推送方法，是在本发明上一实施例提供的信息推送方法的基础上，对各个步骤进行了进一步的细化。则本实施例提供的信息推送方法包括以下步骤。

步骤S201，获取待推送用户对应的推送相关数据。

本实施例中，步骤201的实现方式与本发明上一实施例中的步骤101的实现方式类似，在此不再一一赘述。

需要说明的是，训练至收敛的推荐模型包括训练至收敛的SVDPP算法、训练至收敛的马尔科夫决策子模型和训练至收敛的Q-Learning算法。

步骤S202，根据推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值。

本实施例中，训练至收敛的SVDPP算法、训练至收敛的马尔科夫决策子模型和训练至收敛的Q-Learning算法是作为一个整体进行同时训练，即将推荐模型进行训练至收敛到得到的训练至收敛的SVDPP算法、训练至收敛的马尔科夫决策子模型和训练至收敛的Q-Learning算法。

各候选推送信息对应的初始预测评分是SVDPP算法生成的，该初始预测评分需要经过后续的优化才能得到最终的目标推送信息。

可选的，本实施例中，确定初始预测评分和各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值的步骤可以具体为：

将待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分，以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法，以生成各候选推送信息对应的初始预测评分。

将各初始预测评分、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的马尔科夫决策子模型，以输出各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值。

本实施例中，SVDPP算法为：

其中，r_ui表示初始预测评分，μ表示待推送用户对候选推送信息的历史评分的平均值，b_u表示待推送用户对多个候选推送信息的评分平均偏差，b_i表示候选推送信息对应的所有历史评分的评分平均偏差，q_i表示对应候选推送信息的信息特征在各个隐藏特质上的信息特征向量，p_u表示对应待推送用户特征在各个隐藏特质上的用户特征向量，T次方表示转置，矩阵符号，N(u)为待推送用户评价过的所有候选推送信息的集合，y_j为隐式地评价了候选推送信息j的用户喜好偏置。

由上述SVDPP算法可知，将待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分，以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法时，需要由SVDPP算法对数据进行进一步的处理，具体处理如下：

采用训练至收敛的SVDPP算法将待推送用户特征转化为待推送用户特征向量和将各信息特征转化为对应信息特征向量。

采用训练至收敛的SVDPP算法根据各历史评分确定待推送用户对应的评分平均偏差和各候选推送信息的评分数据中属于待推送用户的各评分的平均值。待推送用户对应的评分平均偏差为待推送用户所有历史评分的平均值的偏差。属于待推送用户的各评分的平均值与各候选推送信息相匹配。

采用训练至收敛的SVDPP算法根据待推送用户特征向量、各信息特征向量、待推送用户对应的评分平均偏差、属于待推送用户的各评分的平均值以及各候选推送信息的评分平均偏差确定各候选推送信息对应的初始预测评分。

本实施例中，待推送用户特征向量即算法中的待推送用户特征在各个隐藏特质上的用户特征向量，信息特征向量即候选推送信息的信息特征在各个隐藏特质上的信息特征向量。

马尔科夫决策子模型的决策过程如图4所示，一般的马尔科夫决策过程由五元组＜S,A,P,γ,R_ew＞表示。其中，s_t表示状态，a_t表示动作，r_t表示回报函数。智能体感知当前环境中的状态信息，根据当前状态选择执行某些动作，环境根据选择的动作给智能体反馈一个奖惩信号，根据这个奖惩信号，智能体就从一个状态转移到了下一个状态。

将用户在不同时间戳下对候选推送信息的评分转换成五元组以构造马尔科夫决策过程。建立评分到马尔科夫决策过程的映射关系如下：

1)状态空间S，本实施例中，将用户u即待推送用户在时间t下对产品的评分记为状态

所有时间戳下的状态

构成了状态空间S。

2)动作空间A，考虑到用户u在时间t下给出了评分，该评分会影响其(t+1)时间对候选推送信息的评分

所以将

记为从

到

的动作，所有时刻的动作

构成了动作空间A。

3)状态转移概率P，用户u在状态

下采取的动作

是由时间戳决定的，动作

一旦确定，则下一个状态

也同时确定，由此认为状态之间的转移概率也是确定的，即P＝1。

4)折扣因子γ，在模型中，每次执行动作会产生对应的奖励，同一用户浏览候选推送信息如浏览产品的时间远近对选择下一步将浏览的产品的影响也会不同，γ就是反映该影响的一个因子，越是后期的奖励折扣越大，同时得到的回报总是有限的，因此，设置0≤γ<1。

5)奖惩函数R_ew，奖惩函数值表示在一个状态中完成某个动作所获得的奖励，奖惩函数值R_ew计算如下：

其中，

为(t+2)时用户u对候选推送信息的评分，

表示用SVDPP模型计算出的用户u对产品i的初始预测评分，R_ew表示用户u在状态R_ew下采取动作

所获得的奖惩值。

本实施例中，将SVDPP算法输出的初始预测评分以及待推送用户对多个候选推送信息的历史评分以及评分时间作为输入数据，输入训练至收敛的马尔科夫决策子模型中，可以确定各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值。

本实施例中，可以将待推送用户对同一个候选推送信息的历史评分以及预测初始评分，按照时间顺序排列。如待推送用户u分别在周一、周三、周五，都对同一个候选推送信息如产品A进行了评分，那么可以按照周一、周三、周五以及初始预测评分的顺序排列。

若待推送用户对某个候选推送信息从未评分过，则可以使用与某个候选推送信息在信息特征上类似的其他候选推送信息所对应的历史评分。假设某个候选推送信息为产品A，与产品A在信息特征上类似的是产品B和产品C，若待推送用户从未对产品A评分过，则可以将产品B和产品C的历史评分作为产品A的历史评分，然后结合初始预测评分，来确定产品A在训练至收敛的马尔科夫决策子模型中对应的奖惩值。

步骤S203，将各初始预测评分、与各初始预测评分匹配的奖惩值、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的Q-Learning算法，以确定各候选推送信息对应的Q值列表。Q值列表包括多个Q值，Q值用于表示相邻评分时间对应的评分之间的关联性。

本实施例中，Q-Learning算法中Q值列表更新公式如下：

其中，

为一个5×5的Q表，初始值为0，

为Q表坐标

处的Q值，

是选择下一步动作的奖惩值，α为学习率，γ为折扣因子。Q值越大，说明执行下一步动作得到的奖励越多，反之奖励越少。

如马尔科夫决策子模型一样，可以将待推送用户对同一个候选推送信息的历史评分以及预测初始评分，按照时间顺序排列。如待推送用户u分别在周一、周三、周五，都对同一个候选推送信息如产品A进行了评分，那么可以按照周一、周三、周五以及初始预测评分的顺序排列结合对应奖惩值来确定对应的Q值。

若待推送用户对某个候选推送信息从未评分过，则可以使用与某个候选推送信息在信息特征上类似的其他候选推送信息所对应的历史评分。假设某个候选推送信息为产品A，与产品A在信息特征上类似的是产品B和产品C，若待推送用户从未对产品A评分过，则可以将产品B和产品C的历史评分作为产品A的历史评分，然后结合初始预测评分，以及对应的奖惩值以确定对应的Q值。

步骤S204，根据Q值列表和各初始预测评分从各候选推送信息中确定目标推送信息。

本实施例中，确定目标推送信息的具体过程如下：

根据Q值列表和各初始预测评分确定各候选推送信息对应的最终预测评分。

其中，确定各候选推送信息对应的最终预测评分的算法如下：

其中，

为利用SVDPP推荐模型计算得到的用户u对第i个产品的初始预测评分，

为用户u在评价候选推送信息i之前时间戳为(t－2)时候选推送信息的评分，

为时间戳(t－1)时候选推送信息的评分动作，

为

坐标下Q表的值，需要采用强化学习算法并基于SVDPP推荐模型的预测评分得到，用于实现对最终预测评分的优化。

确定最终预测评分的算法在将各个部分的算法展开后，则是本实施例对应的推荐模型。

步骤S205，将目标推送信息发送至与待推送用户匹配的用户终端。

本实施例中，步骤205的实现方式与本发明上一实施例中的步骤105的实现方式类似，在此不再一一赘述。

同时，在将推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息之前，还可以对推荐模型进行训练，以实现推荐模型的收敛，具体如下：

获取训练样本，训练样本中包括：目标用户特征、多个候选推送信息的信息特征、目标用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差。

将训练样本输入到预设推荐模型中，以对预设推荐模型进行训练。

采用均方根误差函数判断预设推荐模型是否满足收敛条件。

若预设推荐模型满足收敛条件，则将满足收敛条件的预设推荐模型确定为训练至收敛的推荐模型。

在采用均方根误差函数判断预设推荐模型是否满足收敛条件时，若判断不满足收敛条件，则可以调整学习率α和折扣因子γ，来使预设推荐模型满足收敛条件。当均方根误差函数的均方根误差降到预设阈值范围内时，可以判断满足收敛条件。

图5为本发明第三实施例提供的信息推送装置的结构示意图，如图5所示，本实施例中，该信息推送装置300包括：

获取模块301，用于获取待推送用户对应的推送相关数据。推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差。

确定模块302，用于将推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息。训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q-Learning算法训练后生成的。

发送模块303，用于将目标推送信息发送至与待推送用户匹配的用户终端。

本实施例提供的信息推送装置可以执行图2所示方法实施例的技术方案，其实现原理和技术效果与图2所示方法实施例类似，在此不再一一赘述。

同时，图6为本发明第四实施例提供的信息推送装置的结构示意图，如图6所示，为了更好区分本实施例与上一实施例的信息推送装置，上一实施例的信息推送装置为信息推送装置300，而本发明提供的信息推送装置为信息推送装置400。两者是都指代信息推送装置，但包含的模块不完全相同。

本发明提供的信息推送装置400增加了训练模块401。

可选的，本实施例中，训练至收敛的推荐模型包括训练至收敛的SVDPP算法、训练至收敛的马尔科夫决策子模型和训练至收敛的Q-Learning算法。

确定模块302具体用于：

根据推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值。将各初始预测评分、与各初始预测评分匹配的奖惩值、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的Q-Learning算法，以确定各候选推送信息对应的Q值列表。Q值列表包括多个Q值。Q值用于表示相邻评分时间对应的评分之间的关联性。根据Q值列表和各初始预测评分从各候选推送信息中确定目标推送信息。

可选的，本实施例中，确定模块302在根据推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值时，具体用于：

将待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分，以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法，以生成各候选推送信息对应的初始预测评分。将各初始预测评分、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的马尔科夫决策子模型，以输出各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值。

可选的，本实施例中，确定模块302在将待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分，以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法，以生成各候选推送信息对应的初始预测评分时，具体用于：

采用训练至收敛的SVDPP算法将待推送用户特征转化为待推送用户特征向量和将各信息特征转化为对应信息特征向量。采用训练至收敛的SVDPP算法根据各历史评分确定待推送用户对应的评分平均偏差和各候选推送信息的评分数据中属于待推送用户的各评分的平均值。待推送用户对应的评分平均偏差为待推送用户所有历史评分的平均值的偏差。属于待推送用户的各评分的平均值与各候选推送信息相匹配。采用训练至收敛的SVDPP算法根据待推送用户特征向量、各信息特征向量、待推送用户对应的评分平均偏差、属于待推送用户的各评分的平均值以及各候选推送信息的评分平均偏差确定各候选推送信息对应的初始预测评分。

可选的，本实施例中，确定模块302在根据Q值列表和各初始预测评分从各候选推送信息中确定目标推送信息时，具体用于：

根据Q值列表和各初始预测评分确定各候选推送信息对应的最终预测评分。将各最终预测评分以及匹配的候选推送信息按照最终预测评分从大到小排列，将其中排序靠前的预设数量的候选推送信息确定为目标推送信息。

可选的，本实施例中，信息推送装置400还包括：

训练模块401，用于获取训练样本，训练样本中包括：目标用户特征、多个候选推送信息的信息特征、目标用户对多个候选推送信息的历史评分和评分时间，以及各候选推送信息对应评分数据的评分平均偏差。将训练样本输入到预设推荐模型中，以对预设推荐模型进行训练。采用均方根误差函数判断预设推荐模型是否满足收敛条件。若预设推荐模型满足收敛条件，则将满足收敛条件的预设推荐模型确定为训练至收敛的推荐模型。

本实施例提供的信息推送装置可以执行图2-图4所示方法实施例的技术方案，其实现原理和技术效果与图2-图4所示方法实施例类似，在此不再一一赘述。

根据本发明的实施例，本发明还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。

如图7所示，图7是本发明第五实施例提供的电子设备的结构示意图。电子设备旨在各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图7所示，该电子设备包括：处理器501、存储器502和收发器503。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理。收发器503用于收发数据。

存储器502即为本发明所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本发明所提供的信息推送方法。本发明的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本发明所提供的信息推送方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本发明实施例中的信息推送方法对应的程序指令/模块(例如，附图5所示的获取模块301、确定模块302和发送模块303)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的信息推送方法。

同时，本实施例还提供一种计算机产品，当该计算机产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例一至二的信息推送方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明实施例的其它实施方案。本发明旨在涵盖本发明实施例的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明实施例的一般性原理并包括本发明实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明实施例的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明实施例并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明实施例的范围仅由所附的权利要求书来限制。

Claims

1.一种信息推送方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述训练至收敛的推荐模型包括训练至收敛的SVDPP算法、训练至收敛的马尔科夫决策子模型和训练至收敛的Q-Learning算法；

3.根据权利要求2所述的方法，其特征在于，所述根据所述推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分，以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法，以生成各候选推送信息对应的初始预测评分，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述Q值列表和各所述初始预测评分从各候选推送信息中确定所述目标推送信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述推送相关数据输入训练至收敛的推荐模型中，以从各候选推送信息中确定目标推送信息之前，还包括：

7.一种信息推送装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：至少一个处理器、存储器及收发器；

所述处理器，所述存储器及所述收发器电路互连；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-6任一项所述的信息推送方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至6任一项所述的信息推送方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述的信息推送方法。