CN112291284A - 一种内容推送方法、装置和计算机可读存储介质 - Google Patents

一种内容推送方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN112291284A
CN112291284A CN201910662865.7A CN201910662865A CN112291284A CN 112291284 A CN112291284 A CN 112291284A CN 201910662865 A CN201910662865 A CN 201910662865A CN 112291284 A CN112291284 A CN 112291284A
Authority
CN
China
Prior art keywords
file
user
time period
request
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910662865.7A
Other languages
English (en)
Other versions
CN112291284B (zh
Inventor
王希栋
边森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910662865.7A priority Critical patent/CN112291284B/zh
Publication of CN112291284A publication Critical patent/CN112291284A/zh
Application granted granted Critical
Publication of CN112291284B publication Critical patent/CN112291284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5682Policies or rules for updating, deleting or replacing the stored data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明实施例提供了一种内容推送方法、装置和计算机可读存储介质,所述方法包括:基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件;基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件;将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。

Description

一种内容推送方法、装置和计算机可读存储介质
技术领域
本发明涉及移动通信技术领域,尤其涉及一种内容推送方法、应用于内容推送的用户喜好评估方法、缓存评估方法和推荐策略评估方法,以及与所述方法对应的装置和计算机可读存储介质。
背景技术
相关技术中,将网络中的热门文件提前缓存在基站端,一旦用户请求的文件命中缓存,基站可以直接从缓存中取出文件并传输给用户,而不需要从内容服务器端下载文件。推荐系统通过用户请求文件的行为估计用户喜好,根据估计的用户喜好帮助用户从海量文件中发现感兴趣的文件。
目前在内容分发网络(CDN)中部署缓存设备,这些CDN内部的缓存设备并不涉及与用户的直接交互。此外,关于推荐系统的技术方案大多由内容提供商设置,它们的目的往往是为了提供用户感兴趣的内容,增加用户对平台或APP的粘性,而没有从网络运营商角度设置推荐系统,推荐对网络带来的影响是难以预估的,可能降低网络的运营效率;目前也没有考虑基站端缓存的部署与优化,缓存效率不高;另外,在设置缓存策略时,假设用户对感兴趣文件的请求概率在时间上是稳态的,而实际上用户的请求概率容易受外界因素的影响。
发明内容
有鉴于此,本发明实施例期望提供一种内容推送方法、应用于内容推送的用户喜好评估方法、缓存评估方法和推荐策略评估方法,以及与所述方法对应的装置和计算机可读存储介质。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种内容推送方法,该方法包括:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件;
基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件;
将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。
其中,所述过去记录的数据包括但不限于以下内容:
每个小区内的用户索引;
每个用户在过去单位时间段内请求的文件信息,且发起请求时所位于的小区;
每个用户在过去单位时间段内收到的被推荐的文件信息;
每个用户在过去单位时间段内没有命中缓存的请求次数。
其中,所述基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好,包括:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
其中,所述基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件,包括:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
其中,所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件,包括:
基于所述用户喜好确定状态对应的矩阵
Figure BDA0002139117040000031
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure BDA0002139117040000032
和矩阵R相关。
本发明实施例还提供了一种用户喜好评估方法,该方法应用于内容推送,包括:
获取当前的数据以及过去记录的数据;
基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好。
其中,所述基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好,包括:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
其中,所述用户u在单位时间段内对感兴趣文件的请求概率表示为:
Figure BDA0002139117040000033
所述用户喜好表示为:
Figure BDA0002139117040000041
其中,所述pf∈(0,1),表示所有用户对文件f的喜好;所述kuf表示用户u对文件f发起请求前收到文件f的推荐的时间段的数量;所述
Figure BDA0002139117040000042
表示用户u对文件f发起请求前没收到文件f的推荐的时间段的数量。
本发明实施例还提供了一种缓存评估方法,该方法应用于内容推送,包括:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件。
其中,所述基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件,包括:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
其中,所述基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值,表示为:
Figure BDA0002139117040000043
其中,G为网络中的小区数量,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述
Figure BDA0002139117040000044
表示用户喜好,auf表示用户u在单位时间段内对感兴趣文件的请求概率,ωji为条件概率,条件是:用户在接收推荐时位于小区i且在当前时段内发起请求,ωji的取值表示在该条件下用户发起请求时位于小区j的概率。
本发明实施例还提供了一种推荐策略评估方法,该方法应用于内容推送,包括:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件。
其中,所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件,包括:
基于所述用户喜好确定状态对应的矩阵
Figure BDA0002139117040000051
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure BDA0002139117040000052
和矩阵R相关。
其中,所述状态对应的矩阵
Figure BDA0002139117040000053
的第i行第f个元素表示为:
Figure BDA0002139117040000054
其中,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述行动对应的矩阵R的第i行的元素是第i个小区的推荐文件索引;
所述Q函数表示为:
Figure BDA0002139117040000055
其中,所述o表示为当前时间段内缓存的命中次数;所述ot表示未来第t个时间段内缓存的命中次数;γ表示折扣因子,用于反映未来命中次数对当前时间段内决策的影响;所述t表示t次幂。
本发明实施例还提供了一种内容推送装置,该装置包括:
第一喜好确定模块,用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
第一缓存确定模块,用于基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件;
第一推荐确定模块,用于基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件;
通知模块,用于将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。
本发明实施例还提供了一种内容推送装置,该装置应用于用户喜好评估,包括:
获取模块,用于获取当前的数据以及过去记录的数据;
第二喜好确定模块,用于基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好。
本发明实施例还提供了一种内容推送装置,该装置应用于缓存评估,包括:
第三喜好确定模块,用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
第二缓存确定模块,用于基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件。
本发明实施例还提供了一种内容推送装置,该装置应用于推荐策略评估,包括:
第四喜好确定模块,用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
第二推荐确定模块,用于基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件。
本发明实施例还提供了一种内容推送装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的内容推送方法、装置和计算机可读存储介质,基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件;基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件;将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。本发明实施例基于用户喜好和请求概率得到推荐与缓存的文件,考虑了在不同时段内推荐对请求概率的影响,引导用户在合适的时间与地点发起请求,使用户对相同文件的请求尽量聚集在同一时间、地点,达到提高基站端缓存效率的目的。而且,本发明实施例基于深度强化学习不断优化推荐策略,提高用户在单位时段内对感兴趣文件发起请求的概率,达到用户请求在时间、空间上塑形,提高缓存效率的目的。
附图说明
图1为本发明实施例所述内容推送方法的流程示意图一;
图2为本发明实施例所述用户喜好评估方法的流程示意图;
图3为本发明实施例所述缓存策略评估方法的流程示意图;
图4为本发明实施例所述推荐策略评估方法的流程示意图;
图5为本发明实施例所述内容推送装置结构示意图;
图6为本发明实施例所述用户喜好评估装置结构示意图;
图7为本发明实施例所述缓存策略评估装置结构示意图;
图8为本发明实施例所述推荐策略评估装置结构示意图;
图9为本发明实施例所述内容推荐效果示意图;
图10为本发明实施例所述将用户请求过程视作混合伯努利模型示意图;
图11为本发明实施例所述内容推送方法的流程示意图二。
具体实施方式
下面结合附图和实施例对本发明进行描述。
本发明实施例提供了一种内容推送方法,如图1所示,该方法包括:
步骤101:基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
步骤102:基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件;
步骤103:基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件;
步骤104:将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。
本发明实施例基于用户喜好和请求概率得到推荐与缓存的文件,考虑了在不同时段内推荐对请求概率的影响,引导用户在合适的时间与地点发起请求,使用户对相同文件的请求尽量聚集在同一时间、地点,达到提高基站端缓存效率的目的。而且,本发明实施例基于深度强化学习不断优化推荐策略,提高用户在单位时段内对感兴趣文件发起请求的概率,达到用户请求在时间、空间上塑形,提高缓存效率的目的。
本发明实施例中,所述过去记录的数据包括但不限于以下内容:
每个小区内的用户索引;
每个用户在过去单位时间段内请求的文件信息,且发起请求时所位于的小区;
每个用户在过去单位时间段内收到的被推荐的文件信息;
每个用户在过去单位时间段内没有命中缓存的请求次数。
本发明实施例中,所述基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好,包括:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
本发明实施例中,所述基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件,包括:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
本发明实施例中,所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件,包括:
基于所述用户喜好确定状态对应的矩阵
Figure BDA0002139117040000091
用于反映文件在各个小区的局部流行度;所述状态指的是强化学习中每一步的状态(state);
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;所述行动指的是强化学习中每一步根据当前状态所采取的行动(action);
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure BDA0002139117040000092
和矩阵R相关。
本发明实施例还提供了一种用户喜好评估方法,如图2所示,该方法应用于内容推送,包括:
步骤201:获取当前的数据以及过去记录的数据;
步骤202:基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好。
本发明实施例中,所述基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好,包括:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件(感兴趣文件即为用户请求概率较高的文件f)的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量(即推荐的次数,基站在每个时间段开始的时刻对用户推荐文件)、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
这里,用户喜好和所有用户对文件f的喜好根据各用户对各文件的历史请求数据同时得到。
本发明实施例中,所述用户u在单位时间段内对感兴趣文件的请求概率表示为:
Figure BDA0002139117040000101
所述用户喜好表示为:
Figure BDA0002139117040000102
其中,所述pf∈(0,1),表示所有用户对文件f的喜好;所述kuf表示用户u对文件f发起请求前收到文件f的推荐的时间段的数量;所述
Figure BDA0002139117040000103
表示用户u对文件f发起请求前没收到文件f的推荐的时间段的数量。
本发明实施例还提供了一种缓存策略评估方法,如图3所示,该方法应用于内容推送,包括:
步骤301:基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
步骤302:基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件。
本发明实施例中,所述基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件,包括:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
本发明实施例中,所述基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值,表示为:
Figure BDA0002139117040000111
其中,所述G为网络中的小区数量,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;
Figure BDA0002139117040000112
表示用户喜好,auf表示用户u在单位时间段内对感兴趣文件的请求概率,ωji为条件概率,条件是:用户在接收推荐时位于小区i且在当前时段内发起请求,ωji的取值表示在该条件下用户发起请求时位于小区j的概率。
本发明实施例还提供了一种推荐策略评估方法,如图4所示,该方法应用于内容推送,包括:
步骤401:基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
步骤402:基于所述用户喜好和请求通过概率深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件。
本发明实施例中,所述基于所述用户喜好和请求概率深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件,包括:
基于所述用户喜好确定状态对应的矩阵
Figure BDA0002139117040000113
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure BDA0002139117040000121
和矩阵R相关。
本发明实施例中,所述状态对应的矩阵
Figure BDA0002139117040000122
的第i行第f个元素表示为:
Figure BDA0002139117040000123
其中,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述行动对应的矩阵R的第i行的元素是第i个小区的推荐文件索引;
所述Q函数表示为:
Figure BDA0002139117040000124
其中,所述o表示为当前时间段内缓存的命中次数;所述ot表示未来第t个时间段内缓存的命中次数;γ表示折扣因子,用于反映未来命中次数对当前时间段内决策的影响;所述t表示t次幂。
为了实现上述方法实施例,本发明实施例还提供了一种内容推送装置,如图5所示,该装置包括:
第一喜好确定模块501,用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
第一缓存确定模块502,用于基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件;
第一推荐确定模块503,用于基于所述用户喜好和请求通过概率深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件;
通知模块504,用于将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。
本发明实施例中,所述过去记录的数据包括但不限于以下内容:
每个小区内的用户索引;
每个用户在过去单位时间段内请求的文件信息,且发起请求时所位于的小区;
每个用户在过去单位时间段内收到的被推荐的文件信息;
每个用户在过去单位时间段内没有命中缓存的请求次数。
本发明实施例中,所述第一喜好确定模块501基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好,包括:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
本发明实施例中,所述第一缓存确定模块502基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件,包括:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
本发明实施例中,所述第一推荐确定模块503基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件,包括:
基于所述用户喜好确定状态对应的矩阵
Figure BDA0002139117040000131
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure BDA0002139117040000141
和矩阵R相关。
本发明实施例还提供了一种用户喜好评估装置,如图6所示,该装置应用于内容推送,包括:
获取模块601,用于获取当前的数据以及过去记录的数据;
第二喜好确定模块602,用于基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好。
本发明实施例中,所述第二喜好确定模块602基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好,包括:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
本发明实施例中,所述用户u在单位时间段内对感兴趣文件的请求概率表示为:
Figure BDA0002139117040000142
所述用户喜好表示为:
Figure BDA0002139117040000143
其中,所述pf∈(0,1),表示所有用户对文件f的喜好;所述kuf表示用户u对文件f发起请求前收到文件f的推荐的时间段的数量;所述
Figure BDA0002139117040000151
表示用户u对文件f发起请求前没收到文件f的推荐的时间段的数量。
本发明实施例还提供了一种缓存评估装置,如图7所示,该装置应用于内容推送,包括:
第三喜好确定模块701,用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
第二缓存确定模块702,用于基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件。
本发明实施例中,所述第二缓存确定模块702基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件,包括:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
本发明实施例中,所述第二缓存确定模块702基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值,表示为:
Figure BDA0002139117040000152
其中,G为网络中的小区数量,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述
Figure BDA0002139117040000153
表示用户喜好,auf表示用户u在单位时间段内对感兴趣文件的请求概率,ωji为条件概率,条件是:用户在接收推荐时位于小区i且在当前时段内发起请求,ωji的取值表示在该条件下用户发起请求时位于小区j的概率。
本发明实施例还提供了一种推荐策略评估装置,如图8所示,该装置应用于内容推送,包括:
第四喜好确定模块801,用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
第二推荐确定模块802,用于基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件。
本发明实施例中,所述第二推荐确定模块802基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件,包括:
基于所述用户喜好确定状态对应的矩阵
Figure BDA0002139117040000161
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure BDA0002139117040000162
和矩阵R相关。
本发明实施例中,所述状态对应的矩阵
Figure BDA0002139117040000163
的第i行第f个元素表示为:
Figure BDA0002139117040000164
其中,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述行动对应的矩阵R的第i行的元素是第i个小区的推荐文件索引;
所述Q函数表示为:
Figure BDA0002139117040000165
其中,所述o表示为当前时间段内缓存的命中次数;所述ot表示未来第t个时间段内缓存的命中次数;γ表示折扣因子,用于反映未来命中次数对当前时间段内决策的影响;所述t表示t次幂。
本发明实施例还提供了一种内容推送装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件;
基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件;
将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。
所述基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好时,所述处理器还用于运行所述计算机程序时,执行:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
所述基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件时,所述处理器还用于运行所述计算机程序时,执行:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件时,所述处理器还用于运行所述计算机程序时,执行:
基于所述用户喜好确定状态对应的矩阵
Figure BDA0002139117040000181
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure BDA0002139117040000182
和矩阵R相关。
本发明实施例还提供了一种内容推送装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
获取当前的数据以及过去记录的数据;
基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好。
所述基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好时,所述处理器还用于运行所述计算机程序时,执行:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
其中,所述用户u在单位时间段内对感兴趣文件的请求概率表示为:
Figure BDA0002139117040000183
所述用户喜好表示为:
Figure BDA0002139117040000191
其中,所述pf∈(0,1),表示所有用户对文件f的喜好;所述kuf表示用户u对文件f发起请求前收到文件f的推荐的时间段的数量;所述
Figure BDA0002139117040000192
表示用户u对文件f发起请求前没收到文件f的推荐的时间段的数量。
本发明实施例还提供了一种内容推送装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件。
所述基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件时,所述处理器还用于运行所述计算机程序时,执行:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
其中,所述基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值,表示为:
Figure BDA0002139117040000193
其中,G为网络中的小区数量,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述
Figure BDA0002139117040000194
表示用户喜好,auf表示用户u在单位时间段内对感兴趣文件的请求概率,ωji为条件概率,条件是:用户在接收推荐时位于小区i且在当前时段内发起请求,ωji的取值表示在该条件下用户发起请求时位于小区j的概率。
本发明实施例还提供了一种内容推送装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件。
所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件时,所述处理器还用于运行所述计算机程序时,执行:
基于所述用户喜好确定状态对应的矩阵
Figure BDA0002139117040000201
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure BDA0002139117040000202
和矩阵R相关。
其中,所述状态对应的矩阵
Figure BDA0002139117040000203
的第i行第f个元素表示为:
Figure BDA0002139117040000204
其中,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述行动对应的矩阵R的第i行的元素是第i个小区的推荐文件索引;
所述Q函数表示为:
Figure BDA0002139117040000205
其中,所述o表示为当前时间段内缓存的命中次数;所述ot表示未来第t个时间段内缓存的命中次数;γ表示折扣因子,用于反映未来命中次数对当前时间段内决策的影响;所述t表示t次幂。
需要说明的是:上述实施例提供的装置在进行内容推送时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将设备的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的装置与相应方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,执行:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件;
基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件;
将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。
所述基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好时,所述计算机程序被处理器运行时,还执行:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
所述基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件时,所述计算机程序被处理器运行时,还执行:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件时,所述计算机程序被处理器运行时,还执行:
基于所述用户喜好确定状态对应的矩阵
Figure BDA0002139117040000221
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure BDA0002139117040000222
和矩阵R相关。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,执行:
获取当前的数据以及过去记录的数据;
基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好。
所述基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好时,所述计算机程序被处理器运行时,还执行:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
其中,所述用户u在单位时间段内对感兴趣文件的请求概率表示为:
Figure BDA0002139117040000231
所述用户喜好表示为:
Figure BDA0002139117040000232
其中,所述pf∈(0,1),表示所有用户对文件f的喜好;所述kuf表示用户u对文件f发起请求前收到文件f的推荐的时间段的数量;所述
Figure BDA0002139117040000233
表示用户u对文件f发起请求前没收到文件f的推荐的时间段的数量。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,执行:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件。
所述基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件时,所述计算机程序被处理器运行时,还执行:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
其中,所述基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值,表示为:
Figure BDA0002139117040000241
其中,G为网络中的小区数量,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述
Figure BDA0002139117040000242
表示用户喜好,auf表示用户u在单位时间段内对感兴趣文件的请求概率,ωji为条件概率,条件是:用户在接收推荐时位于小区i且在当前时段内发起请求,ωji的取值表示在该条件下用户发起请求时位于小区j的概率。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,执行:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件。
所述基于所述用户喜好和请求概率深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件时,所述计算机程序被处理器运行时,还执行:
基于所述用户喜好确定状态对应的矩阵
Figure BDA0002139117040000243
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure BDA0002139117040000251
和矩阵R相关。
其中,所述状态对应的矩阵
Figure BDA0002139117040000252
的第i行第f个元素表示为:
Figure BDA0002139117040000253
其中,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述行动对应的矩阵R的第i行的元素是第i个小区的推荐文件索引;
所述Q函数表示为:
Figure BDA0002139117040000254
其中,所述o表示为当前时间段内缓存的命中次数;所述ot表示未来第t个时间段内缓存的命中次数;γ表示折扣因子,用于反映未来命中次数对当前时间段内决策的影响;所述t表示t次幂。
本发明实施例通过联合设置推荐与缓存策略,引导用户在合适的时间与地点发起请求,使用户对相同文件的请求尽量聚集在同一时间、地点,达到提高基站端缓存效率的目的。图9为推荐效果的示意图。横轴表示不同时段,纵轴为不同小区,不同颜色灰度代表不同文件的请求次数。左图为推荐前各时段内各小区的文件请求情况,右图为推荐后各时段内各小区的文件请求情况。可以看到,推荐使每个小区在单位时段的请求变得更加集中于一个文件,如果每个基站允许缓存一个文件,右图比左图可以获得更高的缓存效率。
在一个具有G个小区的系统中,每个小区中设有一个基站服务移动用户,各基站均与中央单元(非基站的中间网络设备或装置)相连,且可缓存Nc个文件。每个基站在每个单位时段开始时刻更新缓存文件,并以广播的方式向接入它的用户推荐若干个相同的文件。该提案通过设置缓存与推荐策略,来提高基站端的缓存效率。
考虑的用户请求模型如下:不同用户有不同的文件喜好,用puf∈{0,1}表示用户u是否对文件f感兴趣。假设用户只会对感兴趣的文件发起请求。auf表示用户在单位时间段内对感兴趣文件的请求概率,且有:
Figure BDA0002139117040000261
a1>a0表示推荐可以提高用户在单位时段对感兴趣文件的请求概率。用户在请求某个文件后不会重复发起请求。
中央单元每隔一段时间从基站处获取并纪录观测数据,来估计用户喜好puf。观测数据包括:
1)每个小区内的用户索引;
2)每个用户在过去单位时间段内请求了哪些文件,且发起请求时位于哪个小区;
3)每个用户在过去单位时间段内收到了关于哪些文件的推荐;
4)该时间段内没有命中缓存的请求次数o。
中央单元根据当前观测数据与纪录的历史观测数据总结出如下信息:
1)在过去时间内已经请求过文件f的用户集合
Figure BDA0002139117040000262
没有请求过文件f的用户集合
Figure BDA0002139117040000263
2)
Figure BDA0002139117040000264
中在当前时刻接入小区i的用户集合
Figure BDA0002139117040000265
3)各用户的历史请求纪录;其中,用户
Figure BDA0002139117040000266
的历史纪录包括kuf
Figure BDA0002139117040000267
与huf,kuf表示用户u对文件f发起请求前有多少个时间段内收到文件f的推荐,
Figure BDA0002139117040000268
表示用户u对文件f发起请求前有多少个时间段内没收到文件f的推荐,
Figure BDA0002139117040000269
表示用户u对文件f发起请求时是否收到它的推荐;用户
Figure BDA00021391170400002610
的历史纪录也包括kuf
Figure BDA00021391170400002611
但由于这些用户没有对文件f发起过请求,kuf
Figure BDA00021391170400002612
有不同意义。kuf表示用户u在所有过去多少个时间段内收到过文件f的推荐,
Figure BDA00021391170400002613
表示用户u在所有过去多少个时间段内没有收到过文件f的推荐。
本实施例可包括三个部分,分别为用户喜好估计方法、缓存策略设置以及推荐策略设置。
一、用户喜好估计方法
将用户请求过程看作混合伯努利模型,如图10所示:
将所有用户对文件f的喜好记作平均喜好pf∈(0,1),把单个用户对文件f的喜好puf看作是均值为pf的伯努利分布的抽样。在puf=1的前提下,用户u是否在当前时段内对文件f发起请求服从均值为auf的伯努利分布。
从贝叶斯观点来看,平均喜好pf可以看作个体用户喜好的先验。根据先验和用户的历史请求情况,可以推断出个体用户喜好的后验概率,作为用户喜好的估计。将用户喜好的估计记作
Figure BDA0002139117040000271
表示puf=1的概率。由贝叶斯公式可知:
Figure BDA0002139117040000272
要获得以上估计,需要首先估计混合伯努利模型的参数,即pf、a0和a1。本实施例通过最大似然准则来估计参数取值。
似然函数可写为:
Figure BDA0002139117040000273
通过最大化似然函数的值得到模型参数的估计。下面举例一种最大化似然函数的方法。
由于变量个数很多,很难判断似然函数是否为凹函数。为便于最大化似然函数,考虑引入它的一个下界:
Figure BDA0002139117040000281
所述xuf为任意属于(0,1)的值,当满足
Figure BDA0002139117040000282
时,等号成立。该下界函数为凹函数。在满足(2)时,最大函数值对应的闭式解:
Figure BDA0002139117040000283
Figure BDA0002139117040000284
Figure BDA0002139117040000285
因此,可以不断地在迭代点用下界函数近似原似然函数,然后求解下界函数最大值对应的解,作为下个迭代点。整个估计过程可表述为:
a、初始化pf、a0和a1
b、根据表达式(1)更新
Figure BDA0002139117040000286
c、根据表达式(3-5)更新pf、a0和a1
d、返回步骤b直到满足最小迭代次数。
以上为最大化似然函数的一种方法,该提案这一部分的重点在于通过引入以上最大似然函数来估计模型参数,因此任何求解以上最大化问题的方法都在本申请所提出方案的范围内。
二、缓存策略设置
在得到用户喜好
Figure BDA0002139117040000291
请求概率a0和a1的估计后,可以计算在当前时间段内,第i个小区内第f个文件的请求次数均值,即
Figure BDA0002139117040000292
其中wji为条件概率,条件是:用户在接收推荐时位于小区i且在当前时段内发起请求,wji的取值表示在该条件下用户发起请求时位于小区j的概率。它的取值通过历史数据用频次统计得到。为最大化缓存命中次数,第i个小区内基站应缓存的文件为
Figure BDA0002139117040000293
即表示缓存平均请求次数最大的Nc个文件。
三、推荐策略设置
强化学习通过试错来优化策略,其中被优化的策略是状态到行动的映射。在该方案中,每个基站推荐的文件应与小区内有哪些用户和这些用户的喜好有关,定义状态为矩阵
Figure BDA0002139117040000294
其中第i行第f个元素是
Figure BDA0002139117040000295
定义行动为推荐矩阵R,其中第i行的元素是第i个小区的推荐文件索引。
强化学习通过估计Q函数(Q函数为强化学习中的通用概念,表示强化学习中,在某一状态下选择某一动作在一段时间内的累积奖励值)进而优化策略,其中Q函数的定义是:
Figure BDA0002139117040000301
它反映未来所有反馈信息之和,其中在当前时段内缓存的命中次数o是当前时间段内推荐策略的反馈信息,未来第t个时段内缓存的命中次数ot是该时段内推荐策略的反馈信息,γ表示折扣因子,用于反映未来命中次数对当前时间段内决策的影响;所述t表示t次幂为折扣因子。为使当前与未来的缓存命中次数最大,将最优的推荐策略设置为:
Figure BDA0002139117040000302
要得到以上推荐策略,需要估计Q值。该提案这部分的重点在于通过引入以上定义的Q值来设置推荐策略,而不同的Q值估计方法都在该设置范畴内。下面以DQN为例介绍一种Q值估计方法(除DQN外,DDQN、Dueling DQN算法也适用于这里的Q值估计)。
收敛的Q函数满足贝尔曼方程:
Figure BDA0002139117040000303
其中
Figure BDA0002139117040000304
R′分别表示下个时间段的状态与行动,上式定义了Q值在收敛后的递归表达式。在收敛前等号左边与右边存在误差,因此Q值的估计可以通过最小化如下损失函数获得:
Figure BDA0002139117040000305
由于Q函数输入参数
Figure BDA0002139117040000306
和R维度较大,考虑用两个神经网络分别近似上式中的
Figure BDA0002139117040000307
Figure BDA0002139117040000308
将它们需要训练的参数分别表示为q与q′。通过随机梯度下降法更新q,每更新c次后将q的取值赋值给q′。
由于在学习过程中Q值并不准确,在推荐文件选择时不能完全由表达式(9)决定。考虑e-greedy推荐策略,即:
Figure BDA0002139117040000311
这样的好处是可以对更多的行动进行试错,通过反馈来更新这些行动对应的Q值,使Q函数估计更加准确。
本实施例的方法实现流程可如图11所示,包括如下步骤:
步骤1:初始化;
a)设定用户喜好估计算法的迭代次数N,随机初始化pf、a0与a1的值。
b)设定深度强化学习算法中的折扣因子g、学习速率a、更新频率C和单次用于随机梯度更新的样本量D,随机初始化神经网络参数q与q′。
步骤2:将观测数据汇集到中央单元,中央单元根据当前观测数据与历史纪录的观测数据汇总信息
Figure BDA0002139117040000312
kuf
Figure BDA0002139117040000313
与huf
步骤3:利用汇总的信息估计puf、a0与a1
a)根据表达式(1)更新
Figure BDA0002139117040000314
b)根据表达式(3)-(5)更pf、a0和a1
c)返回步骤b直到满足最小迭代次数N。
步骤4:根据表达式(8)得到当前状态
Figure BDA0002139117040000315
步骤5:根据表达式(12)得到当前时间段内各个基站的推荐文件;
步骤6:根据表达式(1),(6)和(7)得到当前时间段内各个基站的缓存文件;
步骤7:中央单元将需要推荐与缓存的文件分别通知给相关基站,基站从内容服务器下载需要被缓存的文件,并以广播的形式给接入它的用户进行文件推荐;
步骤8:在该时间段结束时刻,各个基站将观测数据汇集到中央单元,中央单元统计该时间段内没有命中缓存的文件数o,并根据当前观测数据与历史纪录数据更新
Figure BDA0002139117040000316
kuf
Figure BDA0002139117040000317
与huf
步骤9:利用汇总的信息更新puf、a0与a1的估计值:
d)根据表达式(1)更新
Figure BDA0002139117040000321
e)根据表达式(3)-(5)更新pf、a0和a1
f)返回步骤b直到满足最小迭代次数N。
步骤10:根据表达式(8)得到下个时段的状态
Figure BDA0002139117040000322
步骤11:将状态转移样本
Figure BDA0002139117040000323
存入样本池。
步骤12:从样本池中随机抽样D个样本,通过随机梯度下降法更新q参数:
Figure BDA0002139117040000324
其中下标d表示第d个样本。
步骤13:每C步将q的取值赋值给q′。
步骤14:更新
Figure BDA0002139117040000325
返回步骤5。
以上实施过程中步骤11-13对应深度强化学习算法。
下面结合一场景实施例对本发明进行描述。
考虑三个用户在两个小区的系统中移动,在系统开始运营时初始化参数,即上述步骤1。
在某个时段开始时刻,系统的当前观测数据为:
1)小区1中当前的用户索引为1、2;
小区2中当前的用户索引为3。
2)用户1在过去单位时段内请求了文件a,发生请求时位于小区2;
用户2在过去单位时段内请求了文件b,发生请求时位于小区1;
用户3在过去单位时段内请求了文件a,发生请求时位于小区1。
3)用户1在过去单位时段收到了文件a的推荐;
用户2在过去单位时段收到了文件b的推荐;
用户3在过去单位时段收到了文件b的推荐;
4)过去一个时间段内小区1与小区2都只缓存了文件a,用户2的请求没有命中缓存,所以没有命中缓存的请求次数o为1。
中央单元根据当前观测数据与纪录的历史观测数据(历史数据与当前观测数据有相同的形式,不再举例,这里假设当前时段为第一个时段,没有历史观测数据)总结出如下信息:
1)在过去时间内已经请求过文件a的用户集合
Figure BDA0002139117040000331
没有请求过文件a的用户集合
Figure BDA0002139117040000332
在过去时间内已经请求过文件b的用户集合
Figure BDA0002139117040000333
没有请求过文件a的用户集合
Figure BDA0002139117040000334
2)
Figure BDA0002139117040000335
的用户2在当前时刻位于小区1,所以
Figure BDA0002139117040000336
的用户1与用户3分别位于小区1与小区2,所以
Figure BDA0002139117040000337
3)各用户的历史请求纪录:用户
Figure BDA0002139117040000338
在上个时段请求了文件a,且在请求之前共有0个时段内收到文件a的推荐,共有0个时段内没有收到文件a的推荐,所以有η1a=1,kuf=0,
Figure BDA0002139117040000339
用户
Figure BDA00021391170400003310
没有请求过文件a,且在上个时段及之前的时段内共有0个时段内收到文件a的推荐,共有0个时段内没有收到文件a的推荐,所以有kuf=0,
Figure BDA00021391170400003311
对其他用户、文件组合也可得到类似的历史请求记录。
将以上历史信息带入上述步骤3来估计用户对文件的喜好
Figure BDA00021391170400003312
并之后按照步骤4-7制定当前时段内各个基站的文件缓存、推荐策略。
按照步骤8重新收集当前时段内的观测数据,并汇总信息
Figure BDA00021391170400003313
kuf
Figure BDA00021391170400003314
与huf
按照步骤9(与步骤3相同)更新用户的文件喜好估计,并根据步骤10计算下个时段的系统状态
Figure BDA00021391170400003315
按照步骤10-13使用深度强化学习算法更新Q值(即神经网络的参数)。
更新系统状态
Figure BDA00021391170400003316
进入下个时段,并重新制定推荐、缓存策略(步骤5-13)。
本发明实施例在用户喜好估计中引入了新的模型。具体地,将用户发起请求的行为视作两部分构成:首先,用户只对他感兴趣的文件发起请求,感兴趣的文件由用户喜好反映;其次,即使确定了用户喜好,用户对感兴趣文件发起请求的行为在时间上有随机性。将用户在单位时间内的请求概率建模为a1与a0,a1>a0反映推荐可以提高用户在单位时间内对感兴趣文件的请求概率。
此外,在缓存策略设计中,本发明实施例除了考虑用户喜好,还考虑了用户在当前时段对感兴趣文件的请求概率。实际系统中,用户的请求概率不是稳态的,容易受外在因素的影响。这里考虑了推荐作为一种影响请求概率的外在因素。
本发明实施例从运营商的角度优化推荐策略,推荐的目的不在于提高用户粘性,而是通过文件推荐,提高用户在单位时段内对感兴趣文件发起请求的概率,达到用户请求在时间、空间上塑形,提高缓存效率的目的。
可见,与相关技术相比,而本发明实施例考虑了外在因素(即推荐)的影响,由于推荐系统在信息领域被广泛应用,本发明实施例所提出的用户请求模型更切合实际。
相关系统假设用户对感兴趣文件的请求过程在时间上是稳态的,因此设计缓存策略时也没有考虑请求概率在多个时间段是变化的。而本发明实施例在设计缓存策略时考虑了在不同时段内推荐对请求概率的影响。
相关技术仅考虑单个时间段内推荐的优化,忽略了多个时间段内策略的相关性。而本发明实施例考虑推荐会对缓存效率带来长期影响,通过引入Q函数,设计多个时间段内连续的推荐策略。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (20)

1.一种内容推送方法,其特征在于,该方法包括:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件;
基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件;
将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。
2.根据权利要求1所述的方法,其特征在于,所述过去记录的数据包括但不限于以下内容:
每个小区内的用户索引;
每个用户在过去单位时间段内请求的文件信息,且发起请求时所位于的小区;
每个用户在过去单位时间段内收到的被推荐的文件信息;
每个用户在过去单位时间段内没有命中缓存的请求次数。
3.根据权利要求1所述的方法,其特征在于,所述基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好,包括:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
4.根据权利要求1所述的方法,其特征在于,所述基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件,包括:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
5.根据权利要求1所述的方法,其特征在于,所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件,包括:
基于所述用户喜好确定状态对应的矩阵
Figure FDA0002139117030000021
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure FDA0002139117030000022
和矩阵R相关。
6.一种用户喜好评估方法,其特征在于,该方法应用于内容推送,包括:
获取当前的数据以及过去记录的数据;
基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好。
7.根据权利要求6所述的方法,其特征在于,所述基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好,包括:
基于用户u在当前时间段内是否收到文件f的推荐,确定用户u在单位时间段内对感兴趣文件的请求概率;
基于用户u在单位时间段内对感兴趣文件的请求概率、所有用户对文件f的喜好、用户u对文件f发起请求前收到文件f的推荐的时间段的数量、用户u对文件f发起请求前没收到文件f的推荐的时间段的数量,并结合最大似然函数确定用户喜好。
8.根据权利要求7所述的方法,其特征在于,所述用户u在单位时间段内对感兴趣文件的请求概率表示为:
Figure FDA0002139117030000031
所述用户喜好表示为:
Figure FDA0002139117030000032
其中,所述pf∈(0,1),表示所有用户对文件f的喜好;所述kuf表示用户u对文件f发起请求前收到文件f的推荐的时间段的数量;所述
Figure FDA0002139117030000033
表示用户u对文件f发起请求前没收到文件f的推荐的时间段的数量。
9.一种缓存评估方法,其特征在于,该方法应用于内容推送,包括:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件。
10.根据权利要求9所述的方法,其特征在于,所述基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件,包括:
基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值;
基于所述当前时间段内第i个小区内第f个文件的请求次数均值,确定第i个小区内基站应缓存的文件。
11.根据权利要求10所述的方法,其特征在于,所述基于所述用户喜好和请求概率,并结合条件概率确定当前时间段内第i个小区内第f个文件的请求次数均值,表示为:
Figure FDA0002139117030000041
其中,G为网络中的小区数量,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述
Figure 1
表示用户喜好,auf表示用户u在单位时间段内对感兴趣文件的请求概率,wji为条件概率,条件是:用户在接收推荐时位于小区i且在当前时段内发起请求,wji的取值表示在该条件下用户发起请求时位于小区j的概率。
12.一种推荐策略评估方法,其特征在于,该方法应用于内容推送,包括:
基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件。
13.根据权利要求12所述的方法,其特征在于,所述基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件,包括:
基于所述用户喜好确定状态对应的矩阵
Figure FDA0002139117030000043
用于反映文件在各个小区的局部流行度;
基于推荐文件的索引确定行动对应的矩阵R,用于反映各个小区内被推荐的文件;
确定预设的Q函数的值,并基于所述Q函数的值优化推荐策略,得到每个基站在下个时间段内推荐的文件;其中,所述Q函数与矩阵
Figure FDA0002139117030000044
和矩阵R相关。
14.根据权利要求13所述的方法,其特征在于,所述状态对应的矩阵
Figure FDA0002139117030000045
的第i行第f个元素表示为:
Figure FDA0002139117030000042
其中,Uif为在当前时间段位于第i个小区内且没有请求过第f个文件的用户集合;所述行动对应的矩阵R的第i行的元素是第i个小区的推荐文件索引;
所述Q函数表示为:
Figure FDA0002139117030000051
其中,所述o表示为当前时间段内缓存的命中次数;所述ot表示未来第t个时间段内缓存的命中次数;γ表示折扣因子,用于反映未来命中次数对当前时间段内决策的影响;所述t表示t次幂。
15.一种内容推送装置,其特征在于,该装置包括:
第一喜好确定模块,用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
第一缓存确定模块,用于基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件;
第一推荐确定模块,用于基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件;
通知模块,用于将下个时间段内推荐的文件信息与缓存的文件信息通知给相关基站。
16.一种用户喜好评估装置,其特征在于,该装置应用于内容推送,包括:
获取模块,用于获取当前的数据以及过去记录的数据;
第二喜好确定模块,用于基于所述当前的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好。
17.一种缓存评估装置,其特征在于,该装置应用于内容推送,包括:
第三喜好确定模块,用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
第二缓存确定模块,用于基于所述用户喜好和请求概率,确定每个基站在下个时间段内需要缓存的文件。
18.一种推荐策略评估装置,其特征在于,该装置应用于内容推送,包括:
第四喜好确定模块,用于基于当前获取的数据确定单位时间段内用户对感兴趣文件的请求概率,基于所述请求概率以及过去记录的数据确定用户喜好;
第二推荐确定模块,用于基于所述用户喜好和请求概率通过深度强化学习在线优化推荐策略,得到每个基站在下个时间段内推荐的文件。
19.一种内容推送装置,其特征在于,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1-5中任一项所述方法的步骤、或执行权利要求6-8中任一项所述方法的步骤、或执行权利要求9-11中任一项所述方法的步骤、或执行权利要求12-14中任一项所述方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤、或实现权利要求6-8中任一项所述方法的步骤、或实现权利要求9-11中任一项所述方法的步骤、或实现权利要求12-14中任一项所述方法的步骤。
CN201910662865.7A 2019-07-22 2019-07-22 一种内容推送方法、装置和计算机可读存储介质 Active CN112291284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910662865.7A CN112291284B (zh) 2019-07-22 2019-07-22 一种内容推送方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910662865.7A CN112291284B (zh) 2019-07-22 2019-07-22 一种内容推送方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112291284A true CN112291284A (zh) 2021-01-29
CN112291284B CN112291284B (zh) 2023-01-03

Family

ID=74418690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910662865.7A Active CN112291284B (zh) 2019-07-22 2019-07-22 一种内容推送方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112291284B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995979A (zh) * 2021-03-04 2021-06-18 中国科学院计算技术研究所 一种面向用户QoE需求的无线网络缓存推荐方法
CN113129108A (zh) * 2021-04-26 2021-07-16 山东大学 基于Double DQN算法的产品推荐方法及装置
CN113329344A (zh) * 2021-05-19 2021-08-31 中国科学院计算技术研究所 一种用于通讯网络的文件推荐的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886090A (zh) * 2014-03-31 2014-06-25 北京搜狗科技发展有限公司 基于用户喜好的内容推荐方法及装置
EP3016436A1 (en) * 2014-10-30 2016-05-04 Alcatel Lucent Apparatuses, Base Station Transceiver, Methods and Computer Programs for Providing Information related to an Assignment of one or more Mobile Transceivers to at least one out of two or more Base Station Transceivers of a Mobile Communication System
CN105656997A (zh) * 2015-12-25 2016-06-08 中国科学院信息工程研究所 基于移动用户关系的热度缓存内容主动推送方法
CN105939388A (zh) * 2016-06-28 2016-09-14 华为技术有限公司 一种推送业务内容的方法和内容控制器
CN109474664A (zh) * 2018-09-28 2019-03-15 北京邮电大学 一种异构无线网络中的主动预缓存方法及装置
CN109921997A (zh) * 2019-01-11 2019-06-21 西安电子科技大学 一种命名数据网络缓存方法、缓存器和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886090A (zh) * 2014-03-31 2014-06-25 北京搜狗科技发展有限公司 基于用户喜好的内容推荐方法及装置
EP3016436A1 (en) * 2014-10-30 2016-05-04 Alcatel Lucent Apparatuses, Base Station Transceiver, Methods and Computer Programs for Providing Information related to an Assignment of one or more Mobile Transceivers to at least one out of two or more Base Station Transceivers of a Mobile Communication System
CN105656997A (zh) * 2015-12-25 2016-06-08 中国科学院信息工程研究所 基于移动用户关系的热度缓存内容主动推送方法
CN105939388A (zh) * 2016-06-28 2016-09-14 华为技术有限公司 一种推送业务内容的方法和内容控制器
CN109474664A (zh) * 2018-09-28 2019-03-15 北京邮电大学 一种异构无线网络中的主动预缓存方法及装置
CN109921997A (zh) * 2019-01-11 2019-06-21 西安电子科技大学 一种命名数据网络缓存方法、缓存器和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995979A (zh) * 2021-03-04 2021-06-18 中国科学院计算技术研究所 一种面向用户QoE需求的无线网络缓存推荐方法
CN112995979B (zh) * 2021-03-04 2022-01-25 中国科学院计算技术研究所 一种面向用户QoE需求的无线网络缓存推荐方法
CN113129108A (zh) * 2021-04-26 2021-07-16 山东大学 基于Double DQN算法的产品推荐方法及装置
CN113129108B (zh) * 2021-04-26 2023-05-30 山东大学 基于Double DQN算法的产品推荐方法及装置
CN113329344A (zh) * 2021-05-19 2021-08-31 中国科学院计算技术研究所 一种用于通讯网络的文件推荐的方法
CN113329344B (zh) * 2021-05-19 2022-08-30 中国科学院计算技术研究所 一种用于通讯网络的文件推荐的方法

Also Published As

Publication number Publication date
CN112291284B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN111340277B (zh) 雾无线接入网中基于联邦学习的流行度预测模型及预测方法
CN112291284B (zh) 一种内容推送方法、装置和计算机可读存储介质
CN111091199B (zh) 一种基于差分隐私的联邦学习方法、装置及存储介质
Liu et al. A deep reinforcement learning approach to proactive content pushing and recommendation for mobile users
CN105656997B (zh) 基于移动用户关系的热度缓存内容主动推送方法
CN110661727B (zh) 数据传输优化方法、装置、计算机设备和存储介质
CN110856268B (zh) 一种无线网络动态多信道接入方法
CN113115368B (zh) 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN115633380B (zh) 一种考虑动态拓扑的多边缘服务缓存调度方法和系统
CN111314862B (zh) 雾无线接入网中深度强化学习下带有推荐的缓存方法
CN113094181A (zh) 面向边缘设备的多任务联邦学习方法及装置
CN110913239B (zh) 一种精细化的移动边缘计算的视频缓存更新方法
CN113687960A (zh) 一种基于深度强化学习的边缘计算智能缓存方法
CN113918829A (zh) 一种雾计算网络中基于联邦学习的内容缓存和推荐方法
CN115392337A (zh) 基于用户声誉的强化学习移动众包激励方法
CN112702443B (zh) 一种星地协同通信系统多星多级缓存分配方法及装置
CN114697394B (zh) 基于离散maddpg的边缘缓存决策模型、方法和系统
WO2023142351A1 (zh) 权重的调整方法和装置、存储介质及电子装置
CN115484314A (zh) 一种移动边缘计算网络下推荐赋能的边缘缓存优化方法
CN115129888A (zh) 一种基于网络边缘知识图谱的主动内容缓存方法
CN114025017A (zh) 基于深度循环强化学习的网络边缘缓存方法、装置及设备
CN112751924B (zh) 一种数据推送方法、系统及装置
CN117557870B (zh) 基于联邦学习客户端选择的分类模型训练方法及系统
CN117811846B (zh) 基于分布式系统的网络安全检测方法、系统、设备及介质
CN116209015B (zh) 一种边缘网络缓存调度方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant