CN107463701A

CN107463701A - 基于人工智能推送信息流的方法和装置

Info

Publication number: CN107463701A
Application number: CN201710698600.3A
Authority: CN
Inventors: 梁华盛; 王凡; 陈梦婷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-08-15
Filing date: 2017-08-15
Publication date: 2017-12-12
Anticipated expiration: 2037-08-15
Also published as: CN107463701B

Abstract

本申请实施例公开了基于人工智能推送信息流的方法和装置。方法的一具体实施方式包括：获取用户在初始的关注点图谱中的当前关注点；基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点作为推荐关注点添加至推荐关注点序列；将下一个关注点作为当前关注点，执行基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点添加至推荐关注点序列，直至推荐关注点序列包括预定数量的推荐关注点；基于推荐关注点序列，更新关注点图谱；基于更新后的关注点图谱，向用户推送信息流。该实施方式使得推送的信息流随着推荐关注点序列的优化更为符合用户的兴趣习惯。

Description

基于人工智能推送信息流的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及计算机网络技术领域，尤其涉及基于人工智能推送信息流的方法和装置。

背景技术

人工智能(Artificial Intelligence，简称AI)技术的快速发展为人们的日常工作和生活提供了便利。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能越来越多地融入到应用中，结合人工智能的应用可以准确地确定出信息的种类，并按照不同用户的需求将不同种类的信息推送给相应的用户。

随着人工智能的飞速发展，如何让机器能拥有和人类一样的智能，成了无数企业希望做到的事情。在这个背景下，我们希望机器能够在用户打开页面时，呈现用户可能感兴趣的信息，过滤无效信息。

常规的信息流展示是根据News Feed(新鲜事)产生的时间逆序排列，此外还有两种基于兴趣的推荐方式：内容关联方式和相似读者推荐方式。内容关联方式是指阅读了这些文章的读者通常又阅读了哪些文章。而相似读者推荐则是聚合具有共同阅读偏好的读者群体，以此推荐类似的阅读内容，并结合读者偏好曲线的实际改变，调整新闻资讯的推送比例。

然而，上述的信息流展示，根据News Feed(新鲜事)产生的时间逆序排列时，其中的部分信息用户可能并不关注。而内容关联方式和相似读者推荐方式仅计算用户对单个新闻或新闻集合的感兴趣程度，对于用户偏好的计算较为粗糙，未能提供系统的信息流推荐。

发明内容

本申请的目的在于提出一种改进的基于人工智能推送信息流的方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请实施例提供了一种基于人工智能推送信息流的方法，方法包括：获取用户在初始的关注点图谱中的当前关注点；基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点作为推荐关注点添加至推荐关注点序列；将下一个关注点作为当前关注点，执行基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点添加至推荐关注点序列，直至推荐关注点序列包括预定数量的推荐关注点；基于推荐关注点序列，向用户推送信息流。

在一些实施例中，基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点包括：获取由当前关注点及由初始的关注点图谱中的历史关注点形成的历史关注点序列；采用点击率预测模型，根据历史关注点序列确定预设数量预计跳转的候选关注点；采用上下文模型，计算从当前关注点分别跳转至候选关注点的转移概率；采用增强学习模型，计算由候选关注点出发所接收到的用户连续点击次数的期望；基于转移概率和期望，确定候选关注点的评分；将评分最高的关注点确定为下一个关注点。

在一些实施例中，采用上下文模型，计算从当前关注点分别跳转至候选关注点的转移概率包括：基于用户对历史关注点序列中各个历史关注点的点击，确定各个历史关注点的权重；计算从历史关注点序列跳转至下一个历史关注点的概率；根据从历史关注点序列跳转至下一个历史关注点的概率，确定从当前关注点跳转至候选关注点的转移概率。

在一些实施例中，采用增强学习模型，计算由候选关注点出发所接收到的用户连续点击次数的期望包括：由用户对部分随机新闻的推送的反馈信息，学习用户兴趣；基于用户兴趣，计算由候选关注点出发所接收到的用户连续点击次数的期望。

在一些实施例中，基于转移概率和期望，确定候选关注点的评分包括以下任意一项：将转移概率和期望的乘积，确定为候选关注点的评分；将转移概率和期望进行线性组合，得到候选关注点的评分；采用预定网络组合转移概率和期望，得到候选关注点的评分。

在一些实施例中，初始的关注点图谱经由以下步骤确定：基于所有用户的连续搜索数据以及所有用户在信息流中的连续点击数据，确定在一个会话内所有用户的连续行为序列；基于连续行为序列，确定所有用户对信息流的连续响应策略；基于连续响应策略，确定初始的关注点图谱。

在一些实施例中，方法还包括：响应于用户点击推荐关注点序列中的关注点，提升推荐关注点序列中被点击的关注点的后续关注点的期望值和/或更新上下文模型；和/或响应于用户点击推荐关注点序列中的关注点，降低推荐关注点序列中未被点击的关注点的后续关注点的期望值和/或更新上下文模型。

在一些实施例中，方法还包括：基于推荐关注点序列，更新关注点图谱。

第二方面，本申请实施例提供了一种基于人工智能推送信息流的装置，装置包括：当前关注点获取单元，用于获取用户在初始的关注点图谱中的当前关注点；推荐关注点确定单元，用于基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点作为推荐关注点添加至推荐关注点序列；关注点序列确定单元，用于将下一个关注点作为当前关注点，执行基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点添加至推荐关注点序列，直至推荐关注点序列包括预定数量的推荐关注点；信息流推送单元，用于基于推荐关注点序列，向用户推送信息流。

在一些实施例中，推荐关注点确定单元进一步用于：获取由当前关注点及由初始的关注点图谱中的历史关注点形成的历史关注点序列；采用点击率预测模型，根据历史关注点序列确定预设数量预计跳转的候选关注点；采用上下文模型，计算从当前关注点分别跳转至候选关注点的转移概率；采用增强学习模型，计算由候选关注点出发所接收到的用户连续点击次数的期望；基于转移概率和期望，确定候选关注点的评分；将评分最高的关注点确定为下一个关注点。

在一些实施例中，推荐关注点确定单元中采用上下文模型，计算从当前关注点分别跳转至候选关注点的转移概率包括：基于用户对历史关注点序列中各个历史关注点的点击，确定各个历史关注点的权重；计算从历史关注点序列跳转至下一个历史关注点的概率；根据从历史关注点序列跳转至下一个历史关注点的概率，确定从当前关注点跳转至候选关注点的转移概率。

在一些实施例中，推荐关注点确定单元中采用增强学习模型，计算由候选关注点出发所接收到的用户连续点击次数的期望包括：由用户对部分随机新闻的推送的反馈信息，学习用户兴趣；基于用户兴趣，计算由候选关注点出发所接收到的用户连续点击次数的期望。

在一些实施例中，推荐关注点确定单元中基于转移概率和期望，确定候选关注点的评分包括以下任意一项：将转移概率和期望的乘积，确定为候选关注点的评分；将转移概率和期望进行线性组合，得到候选关注点的评分；采用预定网络组合转移概率和期望，得到候选关注点的评分。

在一些实施例中，当前关注点获取单元中初始的关注点图谱经由以下步骤确定：基于所有用户的连续搜索数据以及所有用户在信息流中的连续点击数据，确定在一个会话内所有用户的连续行为序列；基于连续行为序列，确定所有用户对信息流的连续响应策略；基于连续响应策略，确定初始的关注点图谱。

在一些实施例中，装置还包括：提升与更新单元，用于响应于用户点击推荐关注点序列中的关注点，提升推荐关注点序列中被点击的关注点的后续关注点的期望值和/或更新上下文模型；和/或降低与更新单元，用于响应于用户点击推荐关注点序列中的关注点，降低推荐关注点序列中未被点击的关注点的后续关注点的期望值和/或更新上下文模型。

在一些实施例中，装置还包括：关注点图谱更新单元，用于基于推荐关注点序列，更新关注点图谱。

第三方面，本申请实施例提供了一种设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任意一项基于人工智能推送信息流的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上任意一项基于人工智能推送信息流的方法。

本申请实施例提供的基于人工智能推送信息流的方法和装置，首先获取用户在初始的关注点图谱中的当前关注点；之后，基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点作为推荐关注点添加至推荐关注点序列；之后，将下一个关注点作为当前关注点，执行基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点添加至推荐关注点序列，直至推荐关注点序列包括预定数量的推荐关注点；之后，基于推荐关注点序列，更新关注点图谱；最后，基于更新后的关注点图谱，向用户推送信息流。在这里，根据初始的关注点图谱以及当前关注点，采用上下文模型以及增强学习模型确定推荐关注点序列，并基于推荐关注点序列更新关注点图谱，基于更新后的关注点图谱，向用户推送信息流，根据用户的行为来确定用户最感兴趣的关注点进行推送，动态优化了推荐关注点序列，使得推送的信息流随着推荐关注点序列的优化更为符合用户的兴趣习惯，更富于针对性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的基于人工智能推送信息流的方法的一个实施例的示意性流程图；

图2是根据本申请的基于人工智能推送信息流的方法中确定下一个关注点的方法的一个实施例的示意性流程图；

图3是根据本申请实施例的基于人工智能推送信息流的方法的一个应用场景的示意性流程图；

图4是根据本申请的基于人工智能推送信息流的装置的一个实施例的示例性结构图；

图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了根据本申请的基于人工智能推送信息流的方法的一个实施例的流程100。该基于人工智能推送信息流的方法包括：

在步骤110中，获取用户在初始的关注点图谱中的当前关注点。

在本实施例中，运行基于人工智能推送信息流的方法的电子设备可以预先确定初始的关注点图谱。确定初始的关注点图谱的方法可以现有技术或未来发展的技术中确定关注点图谱的方法，本申请对此不做限定。例如，在确定初始的关注点图谱时，可以基于当前用户的历史关注数据来确定，也可以基于所有用户的历史关注数据来确定，还可以由技术人员预设一个关注点图谱作为初始的关注点图谱。这里的当前关注点，可以为当前用户当前搜索、点击或浏览的信息。

在本实施例的一些可选实现方式中，初始的关注点图谱经由以下步骤确定：基于所有用户的连续搜索数据以及所有用户在信息流中的连续点击数据，确定在一个会话内所有用户的连续行为序列；基于连续行为序列，确定所有用户对信息流的连续响应策略；基于连续响应策略，确定初始的关注点图谱。

在本实现方式中，为了解决推荐系统冷启动问题，我们对大数据(例如：大搜数据，也即用户的连续搜索行为；feed数据，也即用户在信息流中的连续点击行为)进行分析，从而挖掘出在一个会话(session)内用户的连续行为序列，从而得到用户对信息流的连续响应策略，最终基于统计得到一个通用的关注点连续跳转的网络，即初始的关注点图谱。

在步骤120中，基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点作为推荐关注点添加至推荐关注点序列。

在本实施例中，上下文模型可以对用户历史信息进行学习。通过分析用户当前的关注点和用户历史关注点，更加精确地预测用户下一步会跳转到的状态，或者说对下一关注点进行预测。

增强学习模型，可以对用户未来的连续行为进行学习，并预估出当前状态下，每个候选关注点的价值网络输出值(即Q值，由候选关注点出发导致用户后续的连续点击次数的期望，或者说是每个候选关注点出发所导致的后续的潜在的最大累计收益)。这里的增强学习模型，可以采用现有技术或未来发展的技术中的实现增强学习模型的算法来实现，例如，可以采用机器人学习算法(Q-learning)或者单步更新在线学习算法(sarsa)来实现增强学习模型。

在确定了上下文模型学习到的跳转概率和增强学习学习到的Q值之后，融合跳转概率和Q值，即可根据融合结果确定下一个关注点。

在步骤130中，将下一个关注点作为当前关注点，执行步骤120直至推荐关注点序列包括预定数量的推荐关注点。

在本实施例中，通过将下一个关注点作为当前关注点，并对当前关注点执行步骤120，可以获得下一个推荐关注点并将其添加至推荐关注点序列。循环执行m-1次步骤130，可以得到包括m个的推荐关注点的推荐关注点序列，其中第1个推荐关注点来自于步骤120，其余m-1个推荐关注点分别来自于循环执行的步骤130。这里的m为预定数量，可以为大于1的任意自然数。

在步骤140中，基于推荐关注点序列，向用户推送信息流。

在本实施例中，基于步骤120和步骤130的循环，得到了推荐关注点序列，此时可以根据该推荐关注点序列，向用户推送信息流。

可选地，上述基于人工智能推送信息流的方法还可以包括步骤150、步骤160和步骤170中的一项或多项。

在步骤150中，可以响应于用户点击推荐关注点序列中的关注点，提升关注点序列中被点击的关注点的后续关注点的期望值和/或更新上下文模型。

在本实施例中，若用户点击数越多，回传一个越大的正反馈，对推荐关注点序列中的每一个关注点的Q值进行加强，这一过程可以学习出能够代表该用户兴趣跳转关系的Q值。同时，也将用户的每一次点击行为反馈给上下文模型，对上下文模型进行更新。此后，可以根据上下文模型和Q值进行推荐关注点序列的生成。

通过响应于用户点击推荐关注点序列中的关注点，提升关注点序列中被点击的关注点的后续关注点的期望值和/或更新上下文模型，可以提高推荐关注点序列中被点击的关注点的后续关注点的期望值和上下文模型的准确度，从而进一步提高推送的信息流的质量。

步骤160中，可以响应于用户点击推荐关注点序列中的关注点，降低推荐关注点序列中未被点击的关注点的后续关注点的期望值和/或更新上下文模型。

在本实施例中，若用户点击数越少，回传一个越大的负反馈，降低推荐关注点序列中每一个关注点的Q值。这一过程可以学习出能够代表该用户兴趣跳转关系的Q值。同时，也把用户的每一次点击行为反馈给上下文模型，对上下文模型进行更新。此后，可以根据上下文模型和Q值进行推荐关注点序列的生成。

通过响应于用户点击推荐关注点序列中的关注点，降低推荐关注点序列中未被点击的关注点的后续关注点的期望值和/或更新上下文模型，可以提高推荐关注点序列中未被点击的关注点的后续关注点的期望值和上下文模型的准确度，从而进一步提高推送的信息流的质量。

在步骤170中，基于所述推荐关注点序列，更新关注点图谱。

在本实施例中，基于所述推荐关注点序列，更新关注点图谱，可以使得推送的信息流随着推荐关注点序列的优化更为符合用户的兴趣习惯，更富于针对性。

本申请的上述实施例提供的基于人工智能推送信息流的方法，可以根据用户的行为向用户推送符合用户兴趣的新闻，还可以主动的进行用户兴趣的预估探索，并且可以通过用户的长期使用，得到一个最符合当前用户关注点偏好的最优推荐策略，使得推送的信息流随着推荐关注点序列的优化，更为符合用户的兴趣习惯，更富有针对性。

进一步地，在部分实施例中，可以提高推荐关注点序列中被点击的关注点的后续关注点的期望值和上下文模型的准确度，备选地或附加地，可以提高未被点击的关注点的后续关注点的期望值和上下文模型的准确度，从而进一步提高推送的信息流的质量。

进一步地，请参考图2，图2示出了根据本申请的基于人工智能推送信息流的方法中确定下一个关注点的方法的一个实施例的示意性流程。

如图2所示，该确定下一个关注点的方法200包括：

在步骤210中，获取由当前关注点及由初始的关注点图谱中的历史关注点形成的历史关注点序列。

在本实施例中，运行基于人工智能推送信息流的方法的电子设备可以在初始的关注点图谱中获取当前关注点及历史前n(n为预先设定的大于0的自然数)个关注点，形成一个历史关注点序列。

在步骤220中，采用点击率预测模型，根据历史关注点序列确定预设数量预计跳转的候选关注点。

在本实施例中，在初始的关注点图谱中，计算由历史关注点序列跳转到各个关注点的概率，并根据问题的需要，取概率最高的k个值(k为大于0的任意自然数)；很多时候计算由历史关注点序列跳转到各个关注点的概率非常困难，点击率预测模型可以使用信息流中所有用户的连续点击行为来训练，采用神经网络模型(或者其他预估模型)进行计算的拟合，例如采用深度神经网络(DNN)、贝叶斯网络甚至逻辑回归模型(LR)等；由于整个装置都是在线学习的，所以该方法需要支持大数据的流式计算和在线训练。

在步骤230中，采用上下文模型，计算从当前关注点分别跳转至候选关注点的转移概率。

在本实施例中，上下文模型可以对用户历史信息进行学习。通过分析用户当前的关注点和用户历史关注点，更加精确地预测用户下一步会跳转到的状态，或者说对下一关注点进行预测。通过分析用户最近n次点击的关注点记录，并给每个关注点赋予不同的权重，可以计算得到从历史关注点序列跳转到下一个关注点的概率。通过上下文模型，可以解决针对不同场景，推荐不同的关注点的问题。

在本实施例的一个可选实现方式中，采用上下文模型，计算从当前关注点分别跳转至候选关注点的转移概率可以包括：基于用户对历史关注点序列中各个历史关注点的点击，确定各个历史关注点的权重；计算从历史关注点序列跳转至下一个历史关注点的概率；根据从历史关注点序列跳转至下一个历史关注点的概率，确定从当前关注点跳转至候选关注点的转移概率。

在本实现方式中，确定各个历史关注点的权重时，可以根据现有技术或未来发展的技术中上下文模型中确定历史数据的权重的方法来确定，本申请对此不作限定。例如，可以根据历史关注点距离当前关注点的时间长度来设定权重，时间长度越短的历史关注点的权重越大，时间长度越长越远的历史关注点的权重越小；还可以根据历史关注点与当前关注点的信息的关联度来设定权重，信息的关联度越大的历史关注点的权重越大，关联度越小的历史关注点的权重越小；还可以根据对用户历史关注点的统计结果与历史关注点的信息的关联度来设定历史关注点的权重，信息的关联度越大的历史关注点的权重越大，信息的关联度越小的历史关注点的权重越小。

在步骤240中，采用增强学习模型，计算由候选关注点出发所接收到的用户连续点击次数的期望。

在本实施例中，增强学习模型可以对用户未来的连续行为进行学习及预估。然后根据当前学习到的用户兴趣，估计出当前状态下，每个候选关注点的价值网络输出值(即Q值，由候选关注点出发导致用户后续的连续点击次数的期望，或者说是每个候选关注点出发所导致的后续的潜在的最大累计收益)。

这里的增强学习模型，可以采用现有技术或未来发展的技术中的实现增强学习模型的算法来实现，例如，可以采用机器人学习算法(Q-learning)或者单步更新在线学习算法(sarsa)来实现增强学习模型。

在本实施例的一些可选实现方式中，采用增强学习模型，计算由候选关注点出发所接收到的用户连续点击次数的期望可以包括：由用户对部分随机新闻的推送的反馈信息，学习用户兴趣；基于用户兴趣，计算由候选关注点出发所接收到的用户连续点击次数的期望。

在本实现方式中，增强学习模型可以通过对部分随机新闻的推送，进行用户兴趣的探索及根据用户的反馈行为进行用户兴趣的主动学习。之后，再基于学习到的用户兴趣，计算由候选关注点出发所接收到的用户连续点击次数的期望，从而提高该期望的准确度。

在步骤250中，基于转移概率和期望，确定候选关注点的评分。

在本实施例中，可以将上述的上下文模型学习到的跳转概率和增强学习学习到的Q值以某种方式进行融合，将融合结果作为候选关注点的总得分。在这里，跳转概率是偏向眼前利益的表征；Q值是偏向后续长期收益的表征；将两个值进行融合，其实就是眼前利益和长远利益的均衡(trade-off)。融合的方法，可以采取现有技术或未来发展的技术中的融合方法，本申请对此不做限定。例如可以采用相乘或线性组合的方法来完成融合。

具体地，基于转移概率和期望，确定候选关注点的评分可以包括以下任意一项：将转移概率和期望的乘积，确定为候选关注点的评分；将转移概率和期望进行线性组合，得到候选关注点的评分；采用预定网络组合转移概率和期望，得到候选关注点的评分。

在步骤260中，将评分最高的关注点确定为下一个关注点。

在本实施例中，可以依次选出得分最高的关注点，从而形成一个关注点序列。

本申请上述实施例提供的基于人工智能推送信息流的方法，通过历史关注点序列预测候选关注点，再通过上下文计算从当前关注点分别跳转至候选关注点的转移概率，通过增强学习模型计算由候选关注点出发所接收到的用户连续点击次数的期望，并基于转移概率与期望的融合确定下一个关注点，充分考虑了历史关注点对候选关注点的影响以及由候选关注点出发所带来的后续的潜在的最大累计收益。

以下结合图3，描述本申请实施例的基于人工智能推送信息流的方法的示例性应用场景。

如图3所示，图3示出了根据本申请实施例的基于人工智能推送信息流的方法的一个应用场景的示意性流程图。

如图3所示，本申请实施例的基于人工智能推送信息流的方法300，可以运行于电子设备310中，并采用信息流推荐系统301来实现。信息流推荐系统301可由关注点图谱302和自适应模型303这两个部分组成。其中，利用大数据挖掘出来的关注点图谱302作为新用户的启动模型，解决了冷启动问题，使得新用户也可以获得合理的、符合逻辑的信息流序列。这里的大数据可以包括大搜数据304、Feed数据305以及百科数据306等，其中大搜数据304是指用户的连续搜索行为；Feed数据305是指用户在信息流中的连续点击行为。而自适应模型303部分，由上下文模型307与增强学习模型308组成，功能是对关注点图谱进行调节使之更加个性化。上下文模型307细化了用户的当前状态，能够学习到不同的上下文(context)下用户的不同行为偏好。而增强学习模型308会在用户的使用过程中自动探索并学习到用户的兴趣分布，并且能够根据学习到的兴趣分布，自动寻找出最优的、最有逻辑的推荐关注点序列，使得用户的累积点击数最大或者累积使用时长最长。

本申请的上述应用场景中提供的基于人工智能推送信息流的方法，采用信息流推荐系统给予每个用户一个启动模型(初始的关注点图谱)，并能够根据用户反馈，将该启动模型训练成一个个性化模型，能够真正做到不同的人，有不同的推荐策略；相同的人，不同的场景下也有不同的推荐策略。而且整个过程都是在线主动探索、主动学习的，不需要提前获取任何的用户信息，可以提高推送的信息流的质量和针对性。

进一步参考图4，作为对上述方法的实现，本申请实施例提供了一种基于人工智能推送信息流的装置的一个实施例，该基于人工智能推送信息流的装置的实施例与图1至图3所示的基于人工智能推送信息流的方法的实施例相对应，由此，上文针对图1至图3中基于人工智能推送信息流的方法描述的操作和特征同样适用于基于人工智能推送信息流的装置400及其中包含的单元，在此不再赘述。

如图4所示，该基于人工智能推送信息流的装置400包括：当前关注点获取单元410，推荐关注点确定单元420，关注点序列确定单元430和信息流推送单元440。

当前关注点获取单元410，用于获取用户在初始的关注点图谱中的当前关注点；推荐关注点确定单元420，用于基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点作为推荐关注点添加至推荐关注点序列；关注点序列确定单元430，用于将下一个关注点作为当前关注点，执行基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点添加至推荐关注点序列，直至推荐关注点序列包括预定数量的推荐关注点；信息流推送单元440，用于基于推荐关注点序列，向用户推送信息流。

在一些实施例中，推荐关注点确定单元420进一步用于：获取由当前关注点及由初始的关注点图谱中的历史关注点形成的历史关注点序列；采用点击率预测模型，根据历史关注点序列确定预设数量预计跳转的候选关注点；采用上下文模型，计算从当前关注点分别跳转至候选关注点的转移概率；采用增强学习模型，计算由候选关注点出发所接收到的用户连续点击次数的期望；基于转移概率和期望，确定候选关注点的评分；将评分最高的关注点确定为下一个关注点。

在一些实施例中，推荐关注点确定单元420中采用上下文模型，计算从当前关注点分别跳转至候选关注点的转移概率包括：基于用户对历史关注点序列中各个历史关注点的点击，确定各个历史关注点的权重；计算从历史关注点序列跳转至下一个历史关注点的概率；根据从历史关注点序列跳转至下一个历史关注点的概率，确定从当前关注点跳转至候选关注点的转移概率。

在一些实施例中，推荐关注点确定单元420中采用增强学习模型，计算由候选关注点出发所接收到的用户连续点击次数的期望包括：由用户对部分随机新闻的推送的反馈信息，学习用户兴趣；基于用户兴趣，计算由候选关注点出发所接收到的用户连续点击次数的期望。

在一些实施例中，推荐关注点确定单元420中基于转移概率和期望，确定候选关注点的评分包括以下任意一项：将转移概率和期望的乘积，确定为候选关注点的评分；将转移概率和期望进行线性组合，得到候选关注点的评分；采用预定网络组合转移概率和期望，得到候选关注点的评分。

在一些实施例中，当前关注点获取单元410中初始的关注点图谱经由以下步骤确定：基于所有用户的连续搜索数据以及所有用户在信息流中的连续点击数据，确定在一个会话内所有用户的连续行为序列；基于连续行为序列，确定所有用户对信息流的连续响应策略；基于连续响应策略，确定初始的关注点图谱。

在一些实施例中，装置还包括：提升与更新单元450，用于响应于用户点击推荐关注点序列中的关注点，提升推荐关注点序列中被点击的关注点的后续关注点的期望值和/或更新上下文模型；和/或降低与更新单元460，用于响应于用户点击推荐关注点序列中的关注点，降低推荐关注点序列中未被点击的关注点的后续关注点的期望值和/或更新上下文模型。

在一些实施例中，装置还包括：关注点图谱更新单元470，用于基于推荐关注点序列，更新关注点图谱。

本申请还提供了一种设备的实施例，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任意一项所述的基于人工智能推送信息流的方法。

本申请还提供了一种计算机可读存储介质的实施例，其上存储有计算机程序，该程序被处理器执行时实现如上任意一项所述的基于人工智能推送信息流的方法。

下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分，所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括当前关注点获取单元、推荐关注点确定单元、关注点序列确定单元和信息流推送单元。这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，当前关注点获取单元还可以被描述为“获取用户在初始的关注点图谱中的当前关注点的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：获取用户在初始的关注点图谱中的当前关注点；基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点作为推荐关注点添加至推荐关注点序列；将下一个关注点作为当前关注点，执行基于当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将下一个关注点添加至推荐关注点序列，直至推荐关注点序列包括预定数量的推荐关注点；基于推荐关注点序列，向用户推送信息流。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于人工智能推送信息流的方法，其特征在于，所述方法包括：

获取用户在初始的关注点图谱中的当前关注点；

基于所述当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将所述下一个关注点作为推荐关注点添加至推荐关注点序列；

将所述下一个关注点作为当前关注点，执行所述基于所述当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将所述下一个关注点添加至推荐关注点序列，直至所述推荐关注点序列包括预定数量的推荐关注点；

基于所述推荐关注点序列，向用户推送信息流。

2.根据权利要求1所述的方法，其特征在于，所述基于所述当前关注点，采用上下文模型以及增强学习模型确定下一个关注点包括：

获取由所述当前关注点及由所述初始的关注点图谱中的历史关注点形成的历史关注点序列；

采用点击率预测模型，根据所述历史关注点序列确定预设数量预计跳转的候选关注点；

采用上下文模型，计算从所述当前关注点分别跳转至所述候选关注点的转移概率；

采用增强学习模型，计算由所述候选关注点出发所接收到的用户连续点击次数的期望；

基于所述转移概率和所述期望，确定所述候选关注点的评分；

将评分最高的关注点确定为下一个关注点。

3.根据权利要求2所述的方法，其特征在于，所述采用上下文模型，计算从所述当前关注点分别跳转至所述候选关注点的转移概率包括：

基于用户对所述历史关注点序列中各个历史关注点的点击，确定各个历史关注点的权重；

计算从所述历史关注点序列跳转至下一个历史关注点的概率；

根据所述从所述历史关注点序列跳转至下一个历史关注点的概率，确定从当前关注点跳转至候选关注点的转移概率。

4.根据权利要求2所述的方法，其特征在于，所述采用增强学习模型，计算由所述候选关注点出发所接收到的用户连续点击次数的期望包括：

由用户对部分随机新闻的推送的反馈信息，学习用户兴趣；

基于所述用户兴趣，计算由所述候选关注点出发所接收到的用户连续点击次数的期望。

5.根据权利要求2所述的方法，其特征在于，所述基于所述转移概率和所述期望，确定所述候选关注点的评分包括以下任意一项：

将所述转移概率和所述期望的乘积，确定为所述候选关注点的评分；

将所述转移概率和所述期望进行线性组合，得到所述候选关注点的评分；

采用预定网络组合所述转移概率和所述期望，得到所述候选关注点的评分。

6.根据权利要求1所述的方法，其特征在于，所述初始的关注点图谱经由以下步骤确定：

基于所有用户的连续搜索数据以及所述所有用户在信息流中的连续点击数据，确定在一个会话内所有用户的连续行为序列；

基于所述连续行为序列，确定所有用户对信息流的连续响应策略；

基于所述连续响应策略，确定所述初始的关注点图谱。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于用户点击所述推荐关注点序列中的关注点，提升所述推荐关注点序列中被点击的关注点的后续关注点的期望值和/或更新所述上下文模型；和/或

响应于用户点击所述推荐关注点序列中的关注点，降低所述推荐关注点序列中未被点击的关注点的后续关注点的期望值和/或更新所述上下文模型。

8.根据权利要求1-7任意一项所述的方法，其特征在于，所述方法还包括：

基于所述推荐关注点序列，更新所述关注点图谱。

9.一种基于人工智能推送信息流的装置，其特征在于，所述装置包括：

当前关注点获取单元，用于获取用户在初始的关注点图谱中的当前关注点；

推荐关注点确定单元，用于基于所述当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将所述下一个关注点作为推荐关注点添加至推荐关注点序列；

关注点序列确定单元，用于将所述下一个关注点作为当前关注点，执行所述基于所述当前关注点，采用上下文模型以及增强学习模型确定下一个关注点，并将所述下一个关注点添加至推荐关注点序列，直至所述推荐关注点序列包括预定数量的推荐关注点；

信息流推送单元，用于基于所述推荐关注点序列，向用户推送信息流。

10.根据权利要求9所述的装置，其特征在于，所述推荐关注点确定单元进一步用于：

将评分最高的关注点确定为下一个关注点。

11.根据权利要求10所述的装置，其特征在于，所述推荐关注点确定单元中采用上下文模型，计算从所述当前关注点分别跳转至所述候选关注点的转移概率包括：

12.根据权利要求10所述的装置，其特征在于，所述推荐关注点确定单元中采用增强学习模型，计算由所述候选关注点出发所接收到的用户连续点击次数的期望包括：

由用户对部分随机新闻的推送的反馈信息，学习用户兴趣；

13.根据权利要求10所述的装置，其特征在于，所述推荐关注点确定单元中基于所述转移概率和所述期望，确定所述候选关注点的评分包括以下任意一项：

14.根据权利要求9所述的装置，其特征在于，所述当前关注点获取单元中初始的关注点图谱经由以下步骤确定：

基于所述连续响应策略，确定所述初始的关注点图谱。

15.根据权利要求9所述的装置，其特征在于，所述装置还包括：

提升与更新单元，用于响应于用户点击所述推荐关注点序列中的关注点，提升所述推荐关注点序列中被点击的关注点的后续关注点的期望值和/或更新所述上下文模型；和/或

降低与更新单元，用于响应于用户点击所述推荐关注点序列中的关注点，降低所述推荐关注点序列中未被点击的关注点的后续关注点的期望值和/或更新所述上下文模型。

16.根据权利要求9-15任意一项所述的装置，其特征在于，所述装置还包括：

关注点图谱更新单元，用于基于所述推荐关注点序列，更新所述关注点图谱。

17.一种设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任意一项所述的基于人工智能推送信息流的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任意一项所述的基于人工智能推送信息流的方法。