CN112291284B

CN112291284B - 一种内容推送方法、装置和计算机可读存储介质

Info

Publication number: CN112291284B
Application number: CN201910662865.7A
Authority: CN
Inventors: 王希栋; 边森
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2023-01-03
Anticipated expiration: 2039-07-22
Also published as: CN112291284A

Abstract

本发明实施例提供了一种内容推送方法、装置和计算机可读存储介质，所述方法包括：基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件；基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件；将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。

Description

一种内容推送方法、装置和计算机可读存储介质

技术领域

本发明涉及移动通信技术领域，尤其涉及一种内容推送方法、应用于内容推送的用户喜好评估方法、缓存评估方法和推荐策略评估方法，以及与所述方法对应的装置和计算机可读存储介质。

背景技术

相关技术中，将网络中的热门文件提前缓存在基站端，一旦用户请求的文件命中缓存，基站可以直接从缓存中取出文件并传输给用户，而不需要从内容服务器端下载文件。推荐系统通过用户请求文件的行为估计用户喜好，根据估计的用户喜好帮助用户从海量文件中发现感兴趣的文件。

目前在内容分发网络(CDN)中部署缓存设备，这些CDN内部的缓存设备并不涉及与用户的直接交互。此外，关于推荐系统的技术方案大多由内容提供商设置，它们的目的往往是为了提供用户感兴趣的内容，增加用户对平台或APP的粘性，而没有从网络运营商角度设置推荐系统，推荐对网络带来的影响是难以预估的，可能降低网络的运营效率；目前也没有考虑基站端缓存的部署与优化，缓存效率不高；另外，在设置缓存策略时，假设用户对感兴趣文件的请求概率在时间上是稳态的，而实际上用户的请求概率容易受外界因素的影响。

发明内容

有鉴于此，本发明实施例期望提供一种内容推送方法、应用于内容推送的用户喜好评估方法、缓存评估方法和推荐策略评估方法，以及与所述方法对应的装置和计算机可读存储介质。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种内容推送方法，该方法包括：

基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；

基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件；

基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件；

将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。

其中，所述过去记录的数据包括但不限于以下内容：

每个小区内的用户索引；

每个用户在过去单位时间段内请求的文件信息，且发起请求时所位于的小区；

每个用户在过去单位时间段内收到的被推荐的文件信息；

每个用户在过去单位时间段内没有命中缓存的请求次数。

其中，所述基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好，包括：

基于用户u在当前时间段内是否收到文件f的推荐，确定用户u在单位时间段内对感兴趣文件的请求概率；

基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量，并结合最大似然函数确定用户喜好。

其中，所述基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件，包括：

基于所述用户喜好和请求概率，并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值；

基于所述当前时间段内第i个小区内第f个文件的请求次数均值，确定第i个小区内基站应缓存的文件。

其中，所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件，包括：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

基于推荐文件的索引确定行动对应的矩阵R，用于反映各个小区内被推荐的文件；

确定预设的Q函数的值，并基于所述Q函数的值优化推荐策略，得到每个基站在下个时间段内推荐的文件；其中，所述Q函数与矩阵

和矩阵R相关。

本发明实施例还提供了一种用户喜好评估方法，该方法应用于内容推送，包括：

获取当前的数据以及过去记录的数据；

基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好。

其中，所述基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好，包括：

其中，所述用户u在单位时间段内对感兴趣文件的请求概率表示为：

所述用户喜好表示为：

其中，所述p_f∈(0，1)，表示所有用户对文件f的喜好；所述k_uf表示用户u对文件f发起请求前收到文件f的推荐的时间段的数量；所述

表示用户u对文件f发起请求前没收到文件f的推荐的时间段的数量。

本发明实施例还提供了一种缓存评估方法，该方法应用于内容推送，包括：

基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件。

其中，所述基于所述用户喜好和请求概率，并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值，表示为：

其中，G为网络中的小区数量，U_if为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合；所述

表示用户喜好，a_uf表示用户u在单位时间段内对感兴趣文件的请求概率，ω_ji为条件概率，条件是：用户在接收推荐时位于小区i且在当前时段内发起请求，ω_ji的取值表示在该条件下用户发起请求时位于小区j的概率。

本发明实施例还提供了一种推荐策略评估方法，该方法应用于内容推送，包括：

基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件。

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

和矩阵R相关。

其中，所述状态对应的矩阵

的第i行第f个元素表示为：

其中，U_if为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合；所述行动对应的矩阵R的第i行的元素是第i个小区的推荐文件索引；

所述Q函数表示为：

其中，所述o表示为当前时间段内缓存的命中次数；所述o_t表示未来第t个时间段内缓存的命中次数；γ表示折扣因子，用于反映未来命中次数对当前时间段内决策的影响；所述t表示t次幂。

本发明实施例还提供了一种内容推送装置，该装置包括：

第一喜好确定模块，用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；

第一缓存确定模块，用于基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件；

第一推荐确定模块，用于基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件；

通知模块，用于将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。

本发明实施例还提供了一种内容推送装置，该装置应用于用户喜好评估，包括：

获取模块，用于获取当前的数据以及过去记录的数据；

第二喜好确定模块，用于基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好。

本发明实施例还提供了一种内容推送装置，该装置应用于缓存评估，包括：

第三喜好确定模块，用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；

第二缓存确定模块，用于基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件。

本发明实施例还提供了一种内容推送装置，该装置应用于推荐策略评估，包括：

第四喜好确定模块，用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；

第二推荐确定模块，用于基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件。

本发明实施例还提供了一种内容推送装置，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行上述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例提供的内容推送方法、装置和计算机可读存储介质，基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件；基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件；将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。本发明实施例基于用户喜好和请求概率得到推荐与缓存的文件，考虑了在不同时段内推荐对请求概率的影响，引导用户在合适的时间与地点发起请求，使用户对相同文件的请求尽量聚集在同一时间、地点，达到提高基站端缓存效率的目的。而且，本发明实施例基于深度强化学习不断优化推荐策略，提高用户在单位时段内对感兴趣文件发起请求的概率，达到用户请求在时间、空间上塑形，提高缓存效率的目的。

附图说明

图1为本发明实施例所述内容推送方法的流程示意图一；

图2为本发明实施例所述用户喜好评估方法的流程示意图；

图3为本发明实施例所述缓存策略评估方法的流程示意图；

图4为本发明实施例所述推荐策略评估方法的流程示意图；

图5为本发明实施例所述内容推送装置结构示意图；

图6为本发明实施例所述用户喜好评估装置结构示意图；

图7为本发明实施例所述缓存策略评估装置结构示意图；

图8为本发明实施例所述推荐策略评估装置结构示意图；

图9为本发明实施例所述内容推荐效果示意图；

图10为本发明实施例所述将用户请求过程视作混合伯努利模型示意图；

图11为本发明实施例所述内容推送方法的流程示意图二。

具体实施方式

下面结合附图和实施例对本发明进行描述。

本发明实施例提供了一种内容推送方法，如图1所示，该方法包括：

步骤101：基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；

步骤102：基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件；

步骤103：基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件；

步骤104：将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。

本发明实施例基于用户喜好和请求概率得到推荐与缓存的文件，考虑了在不同时段内推荐对请求概率的影响，引导用户在合适的时间与地点发起请求，使用户对相同文件的请求尽量聚集在同一时间、地点，达到提高基站端缓存效率的目的。而且，本发明实施例基于深度强化学习不断优化推荐策略，提高用户在单位时段内对感兴趣文件发起请求的概率，达到用户请求在时间、空间上塑形，提高缓存效率的目的。

本发明实施例中，所述过去记录的数据包括但不限于以下内容：

每个小区内的用户索引；

每个用户在过去单位时间段内收到的被推荐的文件信息；

每个用户在过去单位时间段内没有命中缓存的请求次数。

本发明实施例中，所述基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好，包括：

本发明实施例中，所述基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件，包括：

本发明实施例中，所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件，包括：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；所述状态指的是强化学习中每一步的状态(state)；

基于推荐文件的索引确定行动对应的矩阵R，用于反映各个小区内被推荐的文件；所述行动指的是强化学习中每一步根据当前状态所采取的行动(action)；

和矩阵R相关。

本发明实施例还提供了一种用户喜好评估方法，如图2所示，该方法应用于内容推送，包括：

步骤201：获取当前的数据以及过去记录的数据；

步骤202：基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好。

本发明实施例中，所述基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好，包括：

基于用户u在单位时间段内对感兴趣文件(感兴趣文件即为用户请求概率较高的文件f)的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量(即推荐的次数，基站在每个时间段开始的时刻对用户推荐文件)、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量，并结合最大似然函数确定用户喜好。

这里，用户喜好和所有用户对文件f的喜好根据各用户对各文件的历史请求数据同时得到。

本发明实施例中，所述用户u在单位时间段内对感兴趣文件的请求概率表示为：

所述用户喜好表示为：

本发明实施例还提供了一种缓存策略评估方法，如图3所示，该方法应用于内容推送，包括：

步骤301：基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；

步骤302：基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件。

本发明实施例中，所述基于所述用户喜好和请求概率，并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值，表示为：

其中，所述G为网络中的小区数量，U_if为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合；

本发明实施例还提供了一种推荐策略评估方法，如图4所示，该方法应用于内容推送，包括：

步骤401：基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；

步骤402：基于所述用户喜好和请求通过概率深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件。

本发明实施例中，所述基于所述用户喜好和请求概率深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件，包括：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

和矩阵R相关。

本发明实施例中，所述状态对应的矩阵

的第i行第f个元素表示为：

所述Q函数表示为：

其中，所述o表示为当前时间段内缓存的命中次数；所述ot表示未来第t个时间段内缓存的命中次数；γ表示折扣因子，用于反映未来命中次数对当前时间段内决策的影响；所述t表示t次幂。

为了实现上述方法实施例，本发明实施例还提供了一种内容推送装置，如图5所示，该装置包括：

第一喜好确定模块501，用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；

第一缓存确定模块502，用于基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件；

第一推荐确定模块503，用于基于所述用户喜好和请求通过概率深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件；

通知模块504，用于将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。

每个小区内的用户索引；

每个用户在过去单位时间段内收到的被推荐的文件信息；

每个用户在过去单位时间段内没有命中缓存的请求次数。

本发明实施例中，所述第一喜好确定模块501基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好，包括：

本发明实施例中，所述第一缓存确定模块502基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件，包括：

本发明实施例中，所述第一推荐确定模块503基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件，包括：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

和矩阵R相关。

本发明实施例还提供了一种用户喜好评估装置，如图6所示，该装置应用于内容推送，包括：

获取模块601，用于获取当前的数据以及过去记录的数据；

第二喜好确定模块602，用于基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好。

本发明实施例中，所述第二喜好确定模块602基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好，包括：

所述用户喜好表示为：

本发明实施例还提供了一种缓存评估装置，如图7所示，该装置应用于内容推送，包括：

第三喜好确定模块701，用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；

第二缓存确定模块702，用于基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件。

本发明实施例中，所述第二缓存确定模块702基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件，包括：

本发明实施例中，所述第二缓存确定模块702基于所述用户喜好和请求概率，并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值，表示为：

本发明实施例还提供了一种推荐策略评估装置，如图8所示，该装置应用于内容推送，包括：

第四喜好确定模块801，用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；

第二推荐确定模块802，用于基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件。

本发明实施例中，所述第二推荐确定模块802基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件，包括：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

和矩阵R相关。

本发明实施例中，所述状态对应的矩阵

的第i行第f个元素表示为：

所述Q函数表示为：

其中，所述处理器用于运行所述计算机程序时，执行：

所述基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好时，所述处理器还用于运行所述计算机程序时，执行：

所述基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件时，所述处理器还用于运行所述计算机程序时，执行：

所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件时，所述处理器还用于运行所述计算机程序时，执行：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

和矩阵R相关。

其中，所述处理器用于运行所述计算机程序时，执行：

获取当前的数据以及过去记录的数据；

所述基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好时，所述处理器还用于运行所述计算机程序时，执行：

所述用户喜好表示为：

其中，所述处理器用于运行所述计算机程序时，执行：

其中，所述处理器用于运行所述计算机程序时，执行：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

和矩阵R相关。

其中，所述状态对应的矩阵

的第i行第f个元素表示为：

所述Q函数表示为：

需要说明的是：上述实施例提供的装置在进行内容推送时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将设备的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与相应方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行：

所述基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好时，所述计算机程序被处理器运行时，还执行：

所述基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件时，所述计算机程序被处理器运行时，还执行：

所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件时，所述计算机程序被处理器运行时，还执行：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

和矩阵R相关。

获取当前的数据以及过去记录的数据；

所述基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好时，所述计算机程序被处理器运行时，还执行：

所述用户喜好表示为：

所述基于所述用户喜好和请求概率深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件时，所述计算机程序被处理器运行时，还执行：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

和矩阵R相关。

其中，所述状态对应的矩阵

的第i行第f个元素表示为：

所述Q函数表示为：

本发明实施例通过联合设置推荐与缓存策略，引导用户在合适的时间与地点发起请求，使用户对相同文件的请求尽量聚集在同一时间、地点，达到提高基站端缓存效率的目的。图9为推荐效果的示意图。横轴表示不同时段，纵轴为不同小区，不同颜色灰度代表不同文件的请求次数。左图为推荐前各时段内各小区的文件请求情况，右图为推荐后各时段内各小区的文件请求情况。可以看到，推荐使每个小区在单位时段的请求变得更加集中于一个文件，如果每个基站允许缓存一个文件，右图比左图可以获得更高的缓存效率。

在一个具有G个小区的系统中，每个小区中设有一个基站服务移动用户，各基站均与中央单元(非基站的中间网络设备或装置)相连，且可缓存N_c个文件。每个基站在每个单位时段开始时刻更新缓存文件，并以广播的方式向接入它的用户推荐若干个相同的文件。该提案通过设置缓存与推荐策略，来提高基站端的缓存效率。

考虑的用户请求模型如下：不同用户有不同的文件喜好，用p_uf∈{0，1}表示用户u是否对文件f感兴趣。假设用户只会对感兴趣的文件发起请求。a_uf表示用户在单位时间段内对感兴趣文件的请求概率，且有：

a₁＞a₀表示推荐可以提高用户在单位时段对感兴趣文件的请求概率。用户在请求某个文件后不会重复发起请求。

中央单元每隔一段时间从基站处获取并纪录观测数据，来估计用户喜好p_uf。观测数据包括：

1)每个小区内的用户索引；

2)每个用户在过去单位时间段内请求了哪些文件，且发起请求时位于哪个小区；

3)每个用户在过去单位时间段内收到了关于哪些文件的推荐；

4)该时间段内没有命中缓存的请求次数o。

中央单元根据当前观测数据与纪录的历史观测数据总结出如下信息：

1)在过去时间内已经请求过文件f的用户集合

没有请求过文件f的用户集合

2)

中在当前时刻接入小区i的用户集合

3)各用户的历史请求纪录；其中，用户

的历史纪录包括k_uf，

与h_uf，k_uf表示用户u对文件f发起请求前有多少个时间段内收到文件f的推荐，

表示用户u对文件f发起请求前有多少个时间段内没收到文件f的推荐，

表示用户u对文件f发起请求时是否收到它的推荐；用户

的历史纪录也包括k_uf与

但由于这些用户没有对文件f发起过请求，k_uf与

有不同意义。k_uf表示用户u在所有过去多少个时间段内收到过文件f的推荐，

表示用户u在所有过去多少个时间段内没有收到过文件f的推荐。

本实施例可包括三个部分，分别为用户喜好估计方法、缓存策略设置以及推荐策略设置。

一、用户喜好估计方法

将用户请求过程看作混合伯努利模型，如图10所示：

将所有用户对文件f的喜好记作平均喜好p_f∈(0，1)，把单个用户对文件f的喜好p_uf看作是均值为p_f的伯努利分布的抽样。在p_uf＝1的前提下，用户u是否在当前时段内对文件f发起请求服从均值为a_uf的伯努利分布。

从贝叶斯观点来看，平均喜好p_f可以看作个体用户喜好的先验。根据先验和用户的历史请求情况，可以推断出个体用户喜好的后验概率，作为用户喜好的估计。将用户喜好的估计记作

表示p_uf＝1的概率。由贝叶斯公式可知：

要获得以上估计，需要首先估计混合伯努利模型的参数，即p_f、a₀和a₁。本实施例通过最大似然准则来估计参数取值。

似然函数可写为：

通过最大化似然函数的值得到模型参数的估计。下面举例一种最大化似然函数的方法。

由于变量个数很多，很难判断似然函数是否为凹函数。为便于最大化似然函数，考虑引入它的一个下界：

所述x_uf为任意属于(0，1)的值，当满足

时，等号成立。该下界函数为凹函数。在满足(2)时，最大函数值对应的闭式解：

因此，可以不断地在迭代点用下界函数近似原似然函数，然后求解下界函数最大值对应的解，作为下个迭代点。整个估计过程可表述为：

a、初始化p_f、a₀和a₁。

b、根据表达式(1)更新

c、根据表达式(3-5)更新p_f、a₀和a₁。

d、返回步骤b直到满足最小迭代次数。

以上为最大化似然函数的一种方法，该提案这一部分的重点在于通过引入以上最大似然函数来估计模型参数，因此任何求解以上最大化问题的方法都在本申请所提出方案的范围内。

二、缓存策略设置

在得到用户喜好

请求概率a₀和a₁的估计后，可以计算在当前时间段内，第i个小区内第f个文件的请求次数均值，即

其中w_ji为条件概率，条件是：用户在接收推荐时位于小区i且在当前时段内发起请求，w_ji的取值表示在该条件下用户发起请求时位于小区j的概率。它的取值通过历史数据用频次统计得到。为最大化缓存命中次数，第i个小区内基站应缓存的文件为

即表示缓存平均请求次数最大的Nc个文件。

三、推荐策略设置

强化学习通过试错来优化策略，其中被优化的策略是状态到行动的映射。在该方案中，每个基站推荐的文件应与小区内有哪些用户和这些用户的喜好有关，定义状态为矩阵

其中第i行第f个元素是

定义行动为推荐矩阵R，其中第i行的元素是第i个小区的推荐文件索引。

强化学习通过估计Q函数(Q函数为强化学习中的通用概念，表示强化学习中，在某一状态下选择某一动作在一段时间内的累积奖励值)进而优化策略，其中Q函数的定义是：

它反映未来所有反馈信息之和，其中在当前时段内缓存的命中次数o是当前时间段内推荐策略的反馈信息，未来第t个时段内缓存的命中次数o_t是该时段内推荐策略的反馈信息，γ表示折扣因子，用于反映未来命中次数对当前时间段内决策的影响；所述t表示t次幂为折扣因子。为使当前与未来的缓存命中次数最大，将最优的推荐策略设置为：

要得到以上推荐策略，需要估计Q值。该提案这部分的重点在于通过引入以上定义的Q值来设置推荐策略，而不同的Q值估计方法都在该设置范畴内。下面以DQN为例介绍一种Q值估计方法(除DQN外，DDQN、Dueling DQN算法也适用于这里的Q值估计)。

收敛的Q函数满足贝尔曼方程：

其中

R′分别表示下个时间段的状态与行动，上式定义了Q值在收敛后的递归表达式。在收敛前等号左边与右边存在误差，因此Q值的估计可以通过最小化如下损失函数获得：

由于Q函数输入参数

和R维度较大，考虑用两个神经网络分别近似上式中的

与

将它们需要训练的参数分别表示为q与q′。通过随机梯度下降法更新q，每更新c次后将q的取值赋值给q′。

由于在学习过程中Q值并不准确，在推荐文件选择时不能完全由表达式(9)决定。考虑e-greedy推荐策略，即：

这样的好处是可以对更多的行动进行试错，通过反馈来更新这些行动对应的Q值，使Q函数估计更加准确。

本实施例的方法实现流程可如图11所示，包括如下步骤：

步骤1：初始化；

a)设定用户喜好估计算法的迭代次数N，随机初始化p_f、a₀与a₁的值。

b)设定深度强化学习算法中的折扣因子g、学习速率a、更新频率C和单次用于随机梯度更新的样本量D，随机初始化神经网络参数q与q′。

步骤2：将观测数据汇集到中央单元，中央单元根据当前观测数据与历史纪录的观测数据汇总信息

k_uf，

与h_uf；

步骤3：利用汇总的信息估计p_uf、a₀与a₁；

a)根据表达式(1)更新

b)根据表达式(3)-(5)更p_f、a₀和a₁。

c)返回步骤b直到满足最小迭代次数N。

步骤4：根据表达式(8)得到当前状态

步骤5：根据表达式(12)得到当前时间段内各个基站的推荐文件；

步骤6：根据表达式(1)，(6)和(7)得到当前时间段内各个基站的缓存文件；

步骤7：中央单元将需要推荐与缓存的文件分别通知给相关基站，基站从内容服务器下载需要被缓存的文件，并以广播的形式给接入它的用户进行文件推荐；

步骤8：在该时间段结束时刻，各个基站将观测数据汇集到中央单元，中央单元统计该时间段内没有命中缓存的文件数o，并根据当前观测数据与历史纪录数据更新

k_uf，

与h_uf；

步骤9：利用汇总的信息更新p_uf、a₀与a₁的估计值：

d)根据表达式(1)更新

e)根据表达式(3)-(5)更新p_f、a₀和a₁。

f)返回步骤b直到满足最小迭代次数N。

步骤10：根据表达式(8)得到下个时段的状态

步骤11：将状态转移样本

存入样本池。

步骤12：从样本池中随机抽样D个样本，通过随机梯度下降法更新q参数：

其中下标d表示第d个样本。

步骤13：每C步将q的取值赋值给q′。

步骤14：更新

返回步骤5。

以上实施过程中步骤11-13对应深度强化学习算法。

下面结合一场景实施例对本发明进行描述。

考虑三个用户在两个小区的系统中移动，在系统开始运营时初始化参数，即上述步骤1。

在某个时段开始时刻，系统的当前观测数据为：

1)小区1中当前的用户索引为1、2；

小区2中当前的用户索引为3。

2)用户1在过去单位时段内请求了文件a，发生请求时位于小区2；

用户2在过去单位时段内请求了文件b，发生请求时位于小区1；

用户3在过去单位时段内请求了文件a，发生请求时位于小区1。

3)用户1在过去单位时段收到了文件a的推荐；

用户2在过去单位时段收到了文件b的推荐；

用户3在过去单位时段收到了文件b的推荐；

4)过去一个时间段内小区1与小区2都只缓存了文件a，用户2的请求没有命中缓存，所以没有命中缓存的请求次数o为1。

中央单元根据当前观测数据与纪录的历史观测数据(历史数据与当前观测数据有相同的形式，不再举例，这里假设当前时段为第一个时段，没有历史观测数据)总结出如下信息：

1)在过去时间内已经请求过文件a的用户集合

没有请求过文件a的用户集合

在过去时间内已经请求过文件b的用户集合

没有请求过文件a的用户集合

2)

的用户2在当前时刻位于小区1，所以

的用户1与用户3分别位于小区1与小区2，所以

3)各用户的历史请求纪录：用户

在上个时段请求了文件a，且在请求之前共有0个时段内收到文件a的推荐，共有0个时段内没有收到文件a的推荐，所以有η_1a＝1，k_uf＝0，

用户

没有请求过文件a，且在上个时段及之前的时段内共有0个时段内收到文件a的推荐，共有0个时段内没有收到文件a的推荐，所以有k_uf＝0，

对其他用户、文件组合也可得到类似的历史请求记录。

将以上历史信息带入上述步骤3来估计用户对文件的喜好

并之后按照步骤4-7制定当前时段内各个基站的文件缓存、推荐策略。

按照步骤8重新收集当前时段内的观测数据，并汇总信息

k_uf，

与h_uf。

按照步骤9(与步骤3相同)更新用户的文件喜好估计，并根据步骤10计算下个时段的系统状态

按照步骤10-13使用深度强化学习算法更新Q值(即神经网络的参数)。

更新系统状态

进入下个时段，并重新制定推荐、缓存策略(步骤5-13)。

本发明实施例在用户喜好估计中引入了新的模型。具体地，将用户发起请求的行为视作两部分构成：首先，用户只对他感兴趣的文件发起请求，感兴趣的文件由用户喜好反映；其次，即使确定了用户喜好，用户对感兴趣文件发起请求的行为在时间上有随机性。将用户在单位时间内的请求概率建模为a₁与a₀，a₁＞a₀反映推荐可以提高用户在单位时间内对感兴趣文件的请求概率。

此外，在缓存策略设计中，本发明实施例除了考虑用户喜好，还考虑了用户在当前时段对感兴趣文件的请求概率。实际系统中，用户的请求概率不是稳态的，容易受外在因素的影响。这里考虑了推荐作为一种影响请求概率的外在因素。

本发明实施例从运营商的角度优化推荐策略，推荐的目的不在于提高用户粘性，而是通过文件推荐，提高用户在单位时段内对感兴趣文件发起请求的概率，达到用户请求在时间、空间上塑形，提高缓存效率的目的。

可见，与相关技术相比，而本发明实施例考虑了外在因素(即推荐)的影响，由于推荐系统在信息领域被广泛应用，本发明实施例所提出的用户请求模型更切合实际。

相关系统假设用户对感兴趣文件的请求过程在时间上是稳态的，因此设计缓存策略时也没有考虑请求概率在多个时间段是变化的。而本发明实施例在设计缓存策略时考虑了在不同时段内推荐对请求概率的影响。

相关技术仅考虑单个时间段内推荐的优化，忽略了多个时间段内策略的相关性。而本发明实施例考虑推荐会对缓存效率带来长期影响，通过引入Q函数，设计多个时间段内连续的推荐策略。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种内容推送方法，其特征在于，该方法包括：

基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；所述请求概率由用户在当前时间段内是否收到文件的推荐确定；所述用户喜好由用户在单位时间段内对感兴趣文件的请求概率、所有用户对文件的喜好、用户对文件发起请求前收到文件的推荐的时间段的数量、用户对文件发起请求前没收到文件的推荐的时间段的数量，并结合最大似然函数确定；

2.根据权利要求1所述的方法，其特征在于，所述过去记录的数据包括但不限于以下内容：

每个小区内的用户索引；

每个用户在过去单位时间段内收到的被推荐的文件信息；

每个用户在过去单位时间段内没有命中缓存的请求次数。

3.根据权利要求1所述的方法，其特征在于，所述基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件，包括：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

基于推荐文件的索引确定行动对应的矩阵R，用于反映各个小区内被推荐的文件；其中，所述行动指的是深度强化学习中每一步根据当前状态所采取的行动；

和矩阵R相关。

5.一种用户喜好评估方法，其特征在于，该方法应用于内容推送，包括：

获取当前的数据以及过去记录的数据；

基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；所述请求概率由用户在当前时间段内是否收到文件的推荐确定；所述用户喜好由用户在单位时间段内对感兴趣文件的请求概率、所有用户对文件的喜好、用户对文件发起请求前收到文件的推荐的时间段的数量、用户对文件发起请求前没收到文件的推荐的时间段的数量，并结合最大似然函数确定。

6.根据权利要求5所述的方法，其特征在于，所述用户在单位时间段内对感兴趣文件的请求概率表示为：

所述用户喜好表示为：

7.一种缓存评估方法，其特征在于，该方法应用于内容推送，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述用户喜好和请求概率，确定每个基站在下个时间段内需要缓存的文件，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述用户喜好和请求概率，并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值，表示为：

表示用户喜好，a_uf表示用户u在单位时间段内对感兴趣文件的请求概率，w_ji为条件概率，条件是：用户在接收推荐时位于小区i且在当前时段内发起请求，w_ji的取值表示在该条件下用户发起请求时位于小区j的概率。

10.一种推荐策略评估方法，其特征在于，该方法应用于内容推送，包括：

11.根据权利要求10所述的方法，其特征在于，所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略，得到每个基站在下个时间段内推荐的文件，包括：

基于所述用户喜好确定状态对应的矩阵

用于反映文件在各个小区的局部流行度；

和矩阵R相关。

12.根据权利要求11所述的方法，其特征在于，所述状态对应的矩阵

的第i行第f个元素表示为：

所述Q函数表示为：

13.一种内容推送装置，其特征在于，该装置包括：

第一喜好确定模块，用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；所述请求概率由用户在当前时间段内是否收到文件的推荐确定；所述用户喜好由用户在单位时间段内对感兴趣文件的请求概率、所有用户对文件的喜好、用户对文件发起请求前收到文件的推荐的时间段的数量、用户对文件发起请求前没收到文件的推荐的时间段的数量，并结合最大似然函数确定；

14.一种用户喜好评估装置，其特征在于，该装置应用于内容推送，包括：

获取模块，用于获取当前的数据以及过去记录的数据；

第二喜好确定模块，用于基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；所述请求概率由用户在当前时间段内是否收到文件的推荐确定；所述用户喜好由用户在单位时间段内对感兴趣文件的请求概率、所有用户对文件的喜好、用户对文件发起请求前收到文件的推荐的时间段的数量、用户对文件发起请求前没收到文件的推荐的时间段的数量，并结合最大似然函数确定。

15.一种缓存评估装置，其特征在于，该装置应用于内容推送，包括：

第三喜好确定模块，用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；所述请求概率由用户在当前时间段内是否收到文件的推荐确定；所述用户喜好由用户在单位时间段内对感兴趣文件的请求概率、所有用户对文件的喜好、用户对文件发起请求前收到文件的推荐的时间段的数量、用户对文件发起请求前没收到文件的推荐的时间段的数量，并结合最大似然函数确定；

16.一种推荐策略评估装置，其特征在于，该装置应用于内容推送，包括：

第四喜好确定模块，用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率，基于所述请求概率以及过去记录的数据确定用户喜好；所述请求概率由用户在当前时间段内是否收到文件的推荐确定；所述用户喜好由用户在单位时间段内对感兴趣文件的请求概率、所有用户对文件的喜好、用户对文件发起请求前收到文件的推荐的时间段的数量、用户对文件发起请求前没收到文件的推荐的时间段的数量，并结合最大似然函数确定；

17.一种内容推送装置，其特征在于，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1-4中任一项所述方法的步骤、或执行权利要求5-6中任一项所述方法的步骤、或执行权利要求7-9中任一项所述方法的步骤、或执行权利要求10-12中任一项所述方法的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤、或实现权利要求5-6中任一项所述方法的步骤、或实现权利要求7-9中任一项所述方法的步骤、或实现权利要求10-12中任一项所述方法的步骤。