CN104486350B - 一种基于用户行为的网络内容加速方法 - Google Patents

一种基于用户行为的网络内容加速方法 Download PDF

Info

Publication number
CN104486350B
CN104486350B CN201410814693.8A CN201410814693A CN104486350B CN 104486350 B CN104486350 B CN 104486350B CN 201410814693 A CN201410814693 A CN 201410814693A CN 104486350 B CN104486350 B CN 104486350B
Authority
CN
China
Prior art keywords
user
content
behavior
article
content management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410814693.8A
Other languages
English (en)
Other versions
CN104486350A (zh
Inventor
罗绪成
刘梦娟
陈伟
汤四见
赵鹏
李伟铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201410814693.8A priority Critical patent/CN104486350B/zh
Publication of CN104486350A publication Critical patent/CN104486350A/zh
Application granted granted Critical
Publication of CN104486350B publication Critical patent/CN104486350B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5681Pre-fetching or pre-delivering data based on network characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Abstract

本发明公开了一种基于用户行为的网络内容加速方法,其基本原理是把用户将来某个时间段要访问的内容预取到家庭网关的缓存空间,则用户消费这部分内容时不用等待,具有很好的用户体验。该方法由安装于家庭网关的内容管理代理和一个用户行为预测中心组成。内容管理代理搜集用户行为信息,发送给用户行为预测中心;内容管理代理根据预测报告预取网络内容缓存于家庭网关的本地存储,并重定向用户的内容消费请求到本地缓存。用户行为预测中心基于用户的历史行为预测用户将来某个时间段可能消费的网络内容,并返回预测结果给相应的内容管理代理。本发明能够有效解决用户消费高分辨率视频的缓冲时间过长问题;同时,本发明可以降低内容服务器的压力。

Description

一种基于用户行为的网络内容加速方法
技术领域
本发明属于互联网内容分发领域,更为具体地讲,涉及一种面向接入网的基于用户行为的网络内容加速方法。
背景技术
随着用户消费高清视频等大容量网络内容需求的增加,高效的内容分发技术成为一个迫切需求。目前的网络接入条件无法有效满足高清视频消费,不论是网络接入带宽还是服务器的服务能力都可能成为瓶颈,导致了视频流缓冲时间长,播放时断时续,用户体验极差。目前,相关的内容加速技术主要包括:Web caching,基于P2P(Peer to Peer)的内容分发,专用的CDN(Content Delivery Network)等,下面具体描述这些技术。
Web caching是加速网络内容的技术之一,主要面向web内容,如HTML文档等。WebCaching作用于浏览器和服务器之间,当它收到客户端发往Web服务器的请求之后,先要检查一下请求的内容是否在缓存中,如果在,就将存储在本地的Web信息提供给用户,而不必从源服务器去获取;如果用户请求的内容没有存储在缓存中,代理服务器就将用户的请求转发给到相应的Web服务器。Web服务器响应用户请求传送给用户的页面会先到达代理服务器。代理服务器会将页面存放在本地的缓存中,然后再把它转发给相应的Web客户端。由于缓存中的网络内容可能用于服务随后的请求,加快了用户获取网络内容的速度,同时减少了对网络带宽的占用。由上可见,Web caching的基本思想是重用已经获取的网络内容,这种内容加速技术适用于重用率比较高应用(如网页),但是对于仅一次性访问的内容(如视频)来说,Web caching是无能为力的。
对于P2P内容分发技术来说,由于系统中每个节点既是服务的请求者又是服务的提供者,节点在使用服务的同时也提供了服务,提高了整个系统的服务能力。P2P系统的用户越多,其聚集的带宽也就越大,因此具有很好的可扩展性,特别适合直播类的流媒体服务。P2P系统的服务能力取决于每个节点贡献的服务能力,然后对于接入网而言,其上行带宽普遍小于下行带宽,因此P2P系统不适合接入网的应用场景。另一方面,P2P系统在节点越多的情况下表现得越好,因此不适合非流行内容的分发。
内容分发网络(Content Delivery Network,CDN)是由专门公司提供的内容加速服务,其基本思想是将客户(如某个网站)要分发的内容部署在网络边缘的复本服务器上,当用户访问网站的内容时,系统会自动把客户重定向到离用户最近的复本服务器,从而降低用户访问网络内容的时延。由于CDN在全球或者很大的范围部署了较多的服务器,因此可以测量较大范围网络的状况,把用户的请求重定向到服务质量最好的服务器,从而具有较好的效果。本质上来说,CDN将内容前推到更接近用户,提高了内容服务的能力,在一定程度上改善了内容分发的性能。CDN的效果取决于其部署的服务器的网络位置,通常需要较多的服务器才能满足用户需求。就目前的网络接入状况而言,接入网络可能成为瓶颈,即使服务器的服务能力再大也无法有效实现高清流媒体播放。另外,CDN的部署需要大量资金投入,因此使用成本也是一个需要考虑的因素。
鉴于CDN和P2P各自的优缺点,将P2P融入CDN的技术也被广泛研究。CDN将网络内容前推到更接近用户,P2P技术能够有效聚集节点的服务能力(比如网络带宽、存储和计算能力),两者结合能够有效解决CDN服务器服务能力的问题,但是面临接入网的带宽限制,也是无法解决大容量数据传输问题。而且,这里的P2P应用同样受限于节点的上行带宽远低于下行带宽的限制,其效果也是有限的。
发明内容
本发明的目的是:用户消费大容量网络内容(如高清视频等)的需求日益增加,然而目前的网络接入状况通常无法满足用户需求,表现为高清视频播放的缓存时间过长,播放时断时续等问题,用户体验极差;另外,在信息过载的互联网时代,用户常常以大海捞针的方式去互联网搜索自己感兴趣的影片,造成大量的时间浪费,用户体验极差。本发明用于解决上述问题,提出了基于用户行为的内容加速方法,根据用户的网络行为,建模用户的网络内容偏好,预测用户会在将来某个时间段消费某个网络内容,预取部分内容部署到距离用户最近的家庭网关(或者机顶盒、移动终端),能够极大改善用户体验,提高网络资源的利用率。本发明基于用户行为的网络内容加速方法,包括两个组成部分:内容管理代理(Content Management Agent,CMA)和用户行为预测中心(Behavior Prediction Center,BPC)。内容管理代理运行于家庭网关(或者机顶盒、移动终端),用于提取用户的网络内容消费行为,发送给用户行为预测中心,接收预测中心的预测报告,然后根据预测报告代理用户预取网络内容,重定向用户的网络内容访问请求到本地缓存的数据。用户行为预测中心,通过爬虫等手段从互联网获取“账户—网络内容”评分信息,构建“用户—物品”评分矩阵,这部分数据相当于训练集;同时,预测中心爬取网页信息、与“物品”相关的文本信息,建模网页内容、“物品”等的主题模型,以备预测用户的消费行为之用。预测中心接收内容管理代理发送的用户行为信息,基于前面的训练集和网络内容的主题模型计算用户在将来某个时间段可能消费的网络内容并返回该报表信息。
内容管理代理的运行步骤如下:
S1:启动家庭网关,用户通过家庭网关接入互联网进行网页浏览、观看流媒体视频等。
S2:家庭网关内部署内容管理代理,该代理分析经过家庭网关的流量,提取用户所访问的网络内容的统一资源定位器(URL),形成<t,hash(URL)>序列,其中hash(URL)表示URL对应的哈希值,而t表示访问该URL的时间戳。并将该序列周期性地发送给用户行为预测中心。
S3:当用户初次使用此系统时,内容管理代理会弹出网页请求用户对一些网络内容(比如:网页、电影等)打分,并将此信息发送给用户行为预测中心,以便预测中心建模用户的初始偏好。
S4:内容管理代理周期性从用户行为预测中心获取预测报表,得知用户在将来某个时间段会以较高概率消费某些网络内容,内容管理代理从内容提供商预取相应内容的起始部分缓存到本地存储,缓存内容的播放时间应大于基于现有网络状况准备好后续播放数据的时间。同时,内容管理代理需要管理缓存空间,淘汰无用数据。
S5:用户访问网络内容时,内容管理代理弹出推荐内容给用户,引导用户的内容消费行为;无论推荐命中与否,内容管理代理都重定向用户的内容访问请求到本地缓存,并代理用户下载后续数据。用户观看完某个内容后,系统弹出网页,请求用户给对应物品一个评分。此过程对用户来说是透明的。
用户行为预测中心的运行步骤如下:
S1:中心通过爬取互联网公开数据,获得“物品”相关信息,提取其中的“用户账户—网络内容”评分信息,融合这些信息构建“用户—物品”评分矩阵,该评分矩阵的数据作为训练集并且一直处于更新中。同时,中心从“物品”的相关信息(如简介、评论等)中提取与物品相关的文本信息,以此作为描述对应物品的文本信息,然后利用主题分析算法(如LDA算法)提取其中的主题,这个主题集合构成对应“物品”的主题模型。预测中心也爬取网页信息,构建网页的主题模型为<hash(URL),T>,其中hash(URL)是网页对应URL的哈希值,而T是该网页内容的主题集合。
S2:接收来自内容管理代理的用户内容访问信息,累计的用户内容评分信息,构建与S1中的评分矩阵的列对齐的评分向量B,并将B加入到评分矩阵,通过矩阵补全算法可以预测出用户未评分“物品”的评分,选择前N个作为候选集。另一方面,累计用户在过去d天的网页访问元组<t,hash(URL)>序列,基于S1所得的网页主题模型<hash(URL),T>,建模用户在过去d天的主题集合。这里d的取值可以是1,2,3等,如果d取1时获得的结果较少,则d取2,依此类推。然后采用相似度度量(如cosine相似度)计算用户的主题模型和物品的主题模型,其中排列前H的作为最终的预测结果。这里H的取值主要基于缓存空间的大小,如果缓存空间较大,则可以取较大的H。然后返回分析报告给相应的内容管理代理。
本发明利用家庭网关用户的稳定性及家庭网关常开的特征,基于用户的内容消费行为趋势,预取用户将要消费的网络内容到家庭网关本地缓存,将内容分发推进到距离用户最近的家庭网关。其明显有益效果包括:
(1)极大地缩短网络内容缓冲时延。基于准确的用户行为预测,能够提前将用户要消费的网络内容缓存于家庭网关,用户访问这部分内容时,基本无时延,后续内容可以在播放已缓存内容时补充上来。
(2)充分利用接入网的空闲带宽。家庭网关的接入带宽存在较多的空闲时间(比如用户上班时间、睡觉时间等),而内容预取通常安排在这样的空闲时段,因此充分利用了这部分空闲带宽。
(3)避免用户大范围搜寻消费内容。在信息过载的时代,用户往往不知道消费哪个网络内容,基于本发明的用户行为预测,能够以高概率命中用户的消费愿望,提高用户的体验。
(4)缓解内容服务器的压力,降低内容服务商的基础设施投资。用户的内容消费行为具有一定的规律性,因此内容服务器的工作压力也是具有一定的规律性。在用户请求高峰期时,内容服务器的工作压力大,而其它时候却相对空闲。基于本发明的内容预取技术,用户的内容请求分散到不同时段,这样就能相对均匀地把内容服务器的工作压力分散到不同时段,因此内容服务商不需要投过多资源到基础设施来满足最高峰的内容请求。
附图说明
图1是本发明基于用户行为的网络内容加速方法的工作流程示意图;
图2内容管理代理工作流程图;
图3用户行为预测中心工作流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于用户行为的网络内容加速方法的工作流程示意图。如图1所示,基于本发明所构建的系统主要包括两个组成部分:内容管理代理和用户行为预测中心。内容管理代理基于用户行为预取网络内容缓存于家庭网关以备用户消费网络内容的需要;用户行为预测中心收集网络数据构建用户行为预测训练集并根据用户请求进行用户行为预测。下面对具体的实施步骤进行详细说明。
S101:训练数据及相关数据收集
用户行为预测需基于特定的训练数据集,即大量的“用户—物品”评分信息;同时,为了提高预测的准确性,还需要其它关于用户行为的数据。本方法提出了推荐算法与主题匹配相结合的用户行为预测方法,因此需要推荐算法所需的训练数据集和主题相关数据。推荐算法所需的训练数据即“用户—物品”评分数据通常散布于不同的网站(如Youtube、tudou等),因此需要使用爬虫的网络工具爬取并组织成可用的“用户—物品”评分矩阵。同时,由于互联网上的“物品”持续变化(比如,新增和淘汰),这个训练集也需要持续更新。用户行为预测中,还需要“物品”的主题模型和网页内容的主题模型。为了建立“物品”的主题模型,需要与“物品”关联的文本信息。数据搜集过程中,本方法同时收集与“物品”相关联的文本信息,如:简介、评论等等,合并为一个文档,采用主题提取算法(如:LDA)提取对应“物品”的主题集合。为了建模用户的主题模型,本方法还需要爬取网页,构建<hash(URL),T>二元组,其中hash(URL)为网页对应URL的哈希值(通过此值与用户访问的网页相关联),而T为对应网页内容的主题集合。
S102:用户行为信息收集
用户的网络内容消费行为预测需要训练集,同时也需要用户的历史偏好,因此需要用户行为信息收集功能。用户行为在各独立的网站可以分别收集,但是这些信息相对独立,局限于具体的网站。本发明采用网络流量分析来提取用户行为,即在家庭网关部署内容管理代理,该程序分析网络流量,提取用户的内容消费行为信息,包括两方面信息。
首先,用户对网络内容的评分。初次使用时,也就是如果内容管理代理没有关于用户行为的任何数据时,内容管理代理会以弹出网页形式请求用户对一些“物品”(如视频内容)进行评分。采用这种方式可以获得用户的一些初始偏好,以便预测算法可以启动。在用户消费了某个网络内容后,内容管理代理也会请求用户对该内容进行评分,以此来获得较准确的用户行为。这些信息在用户行为预测中心构成用户对“物品”的评分向量。
第二,用户所感兴趣的主题。通过分析网络流量,内容代理可以提取用户所浏览网页的URL,构建二元组<t,hash(URL)>,其中t是消费对应URL的时间戳,而hash(URL)是该URL对应的哈希值,该元组序列周期性发送给预测中心,构成用户的主题偏好集合。
S103:用户消费趋势预测请求
内容管理代理在预取内容时需要知道取什么内容,但是由于内容管理代理所在的平台通常功能较弱,不适合做大量运算,因此预测过程由预测中心完成,内容管理代理向用户行为预测中心发起预测请求。
S104:用户消费趋势预测报告
用户行为预测中心返回形成的用户消费趋势预测报告,即预测评分中前H个物品。这里的H需根据具体的缓存空间大小和用户的接入网络带宽来确定。
S105:网络内容预取缓存
内容管理代理根据所接收到的用户消费趋势预测报告,预取这些用户最感兴趣的内容到家庭网关本地缓存,以备用户消费之用。
图2是内容管理代理工作流程图。如图2所示,内容管理代理包含三个相对独立的功能模块,每个功能模块的工作流程细节说明如下。
S201:判断用户是否首次使用系统
用户启动家庭网关,内容管理代理自动启动运行,内容管理代理检测是否保存有用户的历史行为信息?如果没有,则认为是首次使用此系统;否则认为不是首次使用系统。
S202:获取初始“用户—物品”评分
如果是首次使用系统,需要获取用户的初始行为信息,以便系统能够良好工作。系统向用户终端弹出网页,请求用户对给出的内容打分,比如:系统通过网页列出一些经典的电影,请求用户给这些内容给一个评分,如果用户没有看过,则给0分。通过这种方式,可以获得用户的初始历史行为。
S203:分离网络内容访问流量
本方法主要关注网络内容的加速,因此需要分离出对访问网络内容的流量,以便建立用户的行为模型。这里的网络内容,主要包括网页和流媒体,这些内容主要通过http协议承载,因此这里分离出http协议流量。如果其它种类协议也广泛用于流媒体分发,本方法也可以进一步分离出这类协议的流量。
S204:判断是否为网页内容
网页内容和流媒体内容在建模用户行为方面所起作用是不一致的,因此本方法需要分类这两种流量,以便分别处理。
S205:提取网页内容的URL
如果对应的网络内容是网页,则提取该网页对应的URL,形成二元组<t,hash(URL)>,其中t是访问该URL的时间,hash(URL)是该URL对应的哈希值,这里的哈希函数可以选择sha-2。
S206:构造<t,hash(URL)>序列,周期性发送给中心
累积二元组<t,hash(URL)>,形成一个序列,周期性发送给行为预测中心,以便建立对应此家庭网关的用户行为模型。其中,根据用户访问网页内容的频繁程度,周期可以从1天到一周。用户访问网络内容越频繁,二元组<t,hash(URL)>序列的发送周期就越短,以便及时反映用户行为。
S207:提取内容访问请求URL
如果用户访问的内容不是网页,则认为是流媒体内容,这里需要提取流媒体内容访问请求的URL。
S208:重定向访问请求到本地
内容管理代理重定向内容访问请求到本地,如果本地已经缓存相应的内容,则提供相应内容,否则认为缓存对应的内容量为0。无论本地是否缓存相应内容,在提供内容服务的同时,都需要运行S209。在缓存命中的情况下,用户能够获得更好的体验。
S209:代理用户下载剩余内容
内容管理代理把剩余的内容下载到本地,以供用户消费。
S210:获取用户内容消费后的评分
用户消费完某个内容后,内容管理代理弹出网页,请求用户对该内容评分,用户也可以评价该内容。用户提交后,这种用户产生的内容被发送给用户行为预测中心,作为用户行为的一部分,也可以汇聚到用户行为预测的训练集中。
S211:周期性探测网络是否空闲
为了不影响用户正常的网络使用,内容预取等操作被作为最低优先级,因此这类内容预取操作通常在网络空闲时进行。内容管理代理探测网络是否有其它应用流量,一旦网络存在较大空闲带宽,则进行预取操作。
S212:用户行为预测请求
内容管理代理进行内容预取时,需要确定要预取的内容,而该内容通常是取决于用户的内容消费趋势,因此内容管理代理需要向用户行为预测中心发起用户行为预测请求。
S213:接收用户行为预测报告
用户行为预测中心完成用户的内容消费行为预测后,向内容管理代理返回预测报告,因此内容管理代理需要接收用户行为预测报告。
S214:预取网络内容并缓存
根据用户行为预测报告,内容管理代理预取相应的内容到本地缓存。预取内容时,首先考虑用户最可能消费的内容,具体预取多少内容,取决于缓存空间的容量和用户的网络接入带宽。
图3是用户行为预测中心的工作流程图。如图3所示,用户行为预测中心包含两个相对独立的模块,其一是持续更新用户行为预测训练集,另一个是用户内容消费行为预测。具体的工作步骤详细描述如下。
S301:爬取并解析与物品相关的信息
利用网络爬虫爬取并解析互联网上的公开数据,如视频网站(youtube、tudou等)、购物网站、点评网站(如大众点评网、豆瓣等)等,获得“用户—物品”评分信息。这里以视频网站为例,用户U1如果对物品I1给分为R1,则这个评分信息表示为三元组<U1,I1,R1>,评分的取值范围为0~5,这也是目前主流的评分方式。
同时,本方法从爬取的信息中提取与物品相关的文本信息,比如对视频的评价、介绍、与视频相关联的标签等,这些信息构成对物品的文本描述。基于对这些文本信息的分析(如采用LDA算法),可以建立与对应物品相关联的主题模型。
S302:构建“用户—物品”评分矩阵
综合来自不同网站的“用户—物品”评分信息,系统构建统一的“用户—物品”评分矩阵,该矩阵作为预测用户行为的训练集。首先,系统统计物品集合I={I1,I2,...,In}和用户集合U={U1,U2,...,Um}。然后,以I为列,U为行构造一个评分矩阵M。如果某个用户没有对某个物品评分,则矩阵中对应的元素的值为0。示例如下:
S303:构建对应物品的主题模型
对应非文本内容比如视频来说,要构建其主题模型是不容易的。本方法利用物品附带的文本信息来构建物品的主题模型,因此从爬取的物品相关信息中提取描述物品的文本信息,如:评论、简介、附带的标签等。然后,通过主题分析算法,如LDA等,提取物品的主题,以备预测用户消费行为时使用。
S304:爬取并解析文本内容网页
文本内容网页能够反映用户的兴趣,特别是用户当前的兴趣,因此系统需要搜集用户访问的文本内容网页。本方法选择一些流行的网站进行爬取,比如新浪、凤凰网等。
S305:构建对应URL的主题模型
分析S304所爬取的网页,采用主题分析算法(比如LDA)提取网页主题,构建一个主题库,保存记录信息<hash(URL),{topic1,topic2,...,topicx}>。其中,hash(URL)是网页对应URL的哈希值,哈希函数可采用sha-2;{topic1,topic2,...,topicx}是该网页内容的主题集合,可以通过LDA等主题分析算法获得。最终,通过hash(URL)把用户访问的网页和主题集合关联起来,即建立用户感兴趣的主题集合。
S306:接收用户行为预测请求
内容管理代理在预取内容前,需要确定取什么内容,因此内容管理代理向用户行为预测中心发起用户行为预测请求。用户行为预测中心接收来自内容管理代理的用户行为预测请求。
S307:构建用户历史行为模型
用户的历史行为模型包括两个部分:用户的历史评分和用户浏览过的主题。
用户行为预测中心累计用户的历史评分,设发起请求的代理为Ux,则构建出的用户行为向量为B=<Rx1,Rx2,...,Rxn>,其中Rx1为代理Ux对物品I1的评分,其余类推。如果用户没有对某个物品评分,则其对应的值以0表示,因此该行为向量是稀疏的。
用户浏览过的网页用其hash(URL)表示,而其对应的主题模型已经存放于数据库中,因此通过查询数据库可以获得该用户过去d(1,2,3等)天的主题偏好,这些主题偏好的集合构成了用户最近的偏好模型。对于用户Ux来说,该偏好模型用Px表示。如果在S308中进行相似度匹配的结果太少,则增加d的值。
S308:预测用户内容消费行为
把上述行为向量B作为一行加入到评分矩阵M中构成矩阵M',然后利用矩阵补全算法,比如非负矩阵因子分解算法,补全矩阵M'中缺失的值(即0元素),从而向量B中的原来为0元素都获得了一个新的预测值,这些值构成用户对某个内容的兴趣度量,取预测值为前N的物品作为候选集。对物品y来说,其主题模型用Ty表示,则可以计算Px与Ty的相似度(比如采用cosine相似度度量),计算结果重新排序,取前H作为预测结果。具体的H值根据家庭网关的缓存容量和网络接入带宽来确定。
S309:返回预测报表
把用户内容消费行为预测报表返回给对应的内容管理代理。

Claims (5)

1.一种基于用户行为的网络内容加速方法,其特征在于,该方法由两部分构成,其一为运行于家庭网关的内容管理代理,另一个是以集中方式运行的用户行为预测中心;
内容管理代理包括以下步骤:
S102:内容管理代理程序通过流量分析获得用户的内容访问历史行为信息,这些信息包括用户所访问网页的URL和对应时间,用户所访问的视频内容名称、评分信息和时间;内容管理代理周期性发送这些信息到预测中心以备用户内容消费行为预测之用;
S103:在预取内容之前,内容管理代理需要知道预取的内容是什么,内容管理代理请求预测中心预测用户的内容消费趋势;
S105:基于预测中心返回的内容消费趋势,内容管理代理预取相应网络内容并缓存于本地;
S106:内容管理代理监控用户的内容访问请求,重定向用户的内容访问请求到本地缓存的内容,并代理用户下载剩余内容;
用户行为预测中心包括以下步骤:
S101:用户行为预测中心,通过网络爬虫爬取公开的互联网信息,搜集用于用户行为预测的数据,包括①“用户—物品”评分信息:用于构建“用户—物品”评分矩阵;②网页的主题模型:爬取网页,构建<hash(URL),T>二元组;其中,hash(URL)是网页对应URL的哈希值,T为对应网页的主题的集合;③“物品”的主题模型:“物品”的相关文本信息,包括对“物品”的简介、评价,合并所有关于某个特定“物品”的文本信息构成一个文档,并通过主题提取算法构建该“物品”的主题模型,形成<I,T>二元组;其中I是“物品”的标识,T是对应“物品”的主题集合;由于互联网上的“物品”持续变化,上述数据处于持续更新中;
S104:一旦用户发起消费趋势预测请求,预测中心根据S101所搜集的数据和S102的用户历史行为信息,预测用户在未来的一段时间可能消费的网络内容,并返回该预测内容的报表给相应的内容管理代理。
2.根据权利要求1所述的基于用户行为的网络内容加速方法,其特征在于,用户行为预测中心的步骤S104中的用户消费趋势预测方法:
用户消费趋势预测采用组合方法进行;首先,通过推荐算法来预测用户对某个“物品”的评分,获得用户评分最高的“物品”列表;这里采用矩阵补全的推荐算法,用户对“物品”的历史评分通过内容管理代理获取,因此可以形成一个与预测中心相同维度的向量,其中没有评分的“物品”,其评分设置为0;把用户的历史评分向量加入评分矩阵中,通过矩阵补全算法预测出用户对未评分“物品”的评分;从而,可以获得评分最高的的前N个物品,这些物品作为候选集合;然后,提取用户最近d(d取值1,2,3,...)天所访问的网页的主题模型,和候选集合中的“物品”的主题模型进行相似度度量,取得排名最高的前H个作为预测结果;d的值从1开始,如果预测的结果过少,则增加d的值;H的取值和缓存空间的容量有关,如果缓存空间较大,则可以缓存较多“物品”。
3.根据权利要求1所述的基于用户行为的网络内容加速方法,其特征在于,内容管理代理的步骤S102中的用户行为数据搜集方法:
内容管理代理监控用户的网络内容访问流量,提取用户网络内容访问的特征;初次使用,内容管理代理会弹出网页请求用户对一些“物品”进行打分,这些信息作为用户初始的历史行为,以便作为预测系统的输入之一;如果用户访问视频内容,则内容代理重定向用户的请求到本地缓存,并代理用户下载剩余内容,在用户观看完一个视频后,内容管理代理会请求用户给一个评分,作为用户历史行为的一部分;如果用户访问网页,则内容管理代理生成二元组<t,hash(URL)>,其中t是访问对应网页的的时间,hash(URL)是网页对应URL的哈希值;内容管理代理周期性发送用户给的评分和内容管理代理生成的二元组信息到预测中心,后者把这些信息作为用户的历史行为。
4.根据权利要求1所述的基于用户行为的网络内容加速方法,其特征在于,内容管理代理的步骤S103中的用户内容消费趋势预测方法:
内容管理代理的功能相对较弱,不适合做大规模数据处理,因此内容管理代理请求预测中心进行用户消费行为预测。
5.根据权利要求1所述的基于用户行为的网络内容加速方法,其特征在于,内容管理代理的步骤S105中的网络内容预取方法:
基于预测中心的预测报告,内容管理代理在网络空闲时预取用户可能消费的网络内容的一部分缓存于本地缓存空间;首先,预取并缓存用户最可能消费的网络内容;然后是消费可能性第二的网络内容,依此类推,直到缓存空间不足为止;预取的网络内容的一部分取决于网络的平均带宽,如果余下的内容可以在现有网络带宽的条件下,在p分钟内下载完毕,则预取内容的播放时间需要大于p分钟;如果某个预取的内容在缓存空间超过给定的时间也没有得到访问,则预测没有命中,淘汰该内容,释放其所占的存储空间。
CN201410814693.8A 2014-12-24 2014-12-24 一种基于用户行为的网络内容加速方法 Expired - Fee Related CN104486350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410814693.8A CN104486350B (zh) 2014-12-24 2014-12-24 一种基于用户行为的网络内容加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410814693.8A CN104486350B (zh) 2014-12-24 2014-12-24 一种基于用户行为的网络内容加速方法

Publications (2)

Publication Number Publication Date
CN104486350A CN104486350A (zh) 2015-04-01
CN104486350B true CN104486350B (zh) 2017-11-10

Family

ID=52760854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410814693.8A Expired - Fee Related CN104486350B (zh) 2014-12-24 2014-12-24 一种基于用户行为的网络内容加速方法

Country Status (1)

Country Link
CN (1) CN104486350B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10178527B2 (en) * 2015-10-22 2019-01-08 Google Llc Personalized entity repository
CN105407005B (zh) * 2015-12-09 2018-09-14 中国联合网络通信集团有限公司 内容分发方法及装置
CN107040559A (zh) * 2016-02-03 2017-08-11 中兴通讯股份有限公司 网络访问方法及家庭网络设备
CN107306279B (zh) * 2016-04-18 2020-08-04 阿里巴巴集团控股有限公司 数据处理方法、内容分发网络节点和常驻网关
CN106250064B (zh) * 2016-08-19 2020-05-12 深圳大普微电子科技有限公司 固态硬盘控制装置和基于学习的固态硬盘数据存取方法
CN107948223A (zh) * 2016-10-12 2018-04-20 中国电信股份有限公司 用于缓存系统的流量处理方法、服务策略设备和缓存系统
CN106713265B (zh) * 2016-11-21 2019-05-28 清华大学深圳研究生院 Cdn节点分配方法及装置、cdn节点分配服务器及cdn网络系统
US11290755B2 (en) 2017-01-10 2022-03-29 Qualcomm Incorporated Signaling data for prefetching support for streaming media data
CN108510096A (zh) * 2017-02-24 2018-09-07 百度在线网络技术(北京)有限公司 商户流失预测方法、装置、设备及存储介质
CN107094179A (zh) * 2017-05-24 2017-08-25 浙江度衍信息技术有限公司 一种网站访问请求处理方法
CN109634744B (zh) * 2018-11-30 2023-01-06 哈尔滨工业大学(威海) 一种基于云平台资源分配的精确匹配方法,设备及存储介质
CN110276042A (zh) * 2019-06-30 2019-09-24 浪潮卓数大数据产业发展有限公司 一种基于机器学习的智能Web代理缓存系统及方法
CN111523032A (zh) * 2020-04-22 2020-08-11 贝壳技术有限公司 确定用户偏好的方法、装置、介质和电子设备
CN111432231B (zh) * 2020-04-26 2023-04-07 中移(杭州)信息技术有限公司 边缘网络的内容调度方法、家庭网关、系统、及服务器
CN113422801B (zh) * 2021-05-13 2022-12-06 河南师范大学 边缘网络节点内容分配方法、系统、装置及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539911A (zh) * 2008-03-18 2009-09-23 盛大计算机(上海)有限公司 加快浏览器网页显示的装置及方法
CN102364468A (zh) * 2011-09-29 2012-02-29 北京亿赞普网络技术有限公司 一种用户网络行为分析方法、装置和系统
CN103096512A (zh) * 2011-11-02 2013-05-08 常州普适信息科技有限公司 智能空间的组织和体系结构

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174429A1 (en) * 2006-01-24 2007-07-26 Citrix Systems, Inc. Methods and servers for establishing a connection between a client system and a virtual machine hosting a requested computing environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539911A (zh) * 2008-03-18 2009-09-23 盛大计算机(上海)有限公司 加快浏览器网页显示的装置及方法
CN102364468A (zh) * 2011-09-29 2012-02-29 北京亿赞普网络技术有限公司 一种用户网络行为分析方法、装置和系统
CN103096512A (zh) * 2011-11-02 2013-05-08 常州普适信息科技有限公司 智能空间的组织和体系结构

Also Published As

Publication number Publication date
CN104486350A (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
CN104486350B (zh) 一种基于用户行为的网络内容加速方法
US7987261B2 (en) Traffic predictor for network-accessible information modules
US8176029B2 (en) Composite display method and system for search engine of same resource information based on degree of attention
JP4185059B2 (ja) トレンド予測装置およびトレンド予測方法
JP5881153B2 (ja) 相関性のある情報の推薦
CN103886090B (zh) 基于用户喜好的内容推荐方法及装置
RU2720954C1 (ru) Способ и система построения поискового индекса с использованием алгоритма машинного обучения
JP5613951B2 (ja) 積極的な情報のプッシュ通知のための方法およびそのためのサーバ
CN100596135C (zh) 一种确定内容提供商优先级的系统和方法
JP2015509229A (ja) アプリケーション駆動のcdnのプリキャッシング
JP2009532774A5 (zh)
JP2011248831A (ja) 情報処理装置および方法、並びに、プログラム
US20180130073A1 (en) Method and system for recommending assets on recently viewed assets basket
JP2007286833A (ja) 広告配信システムおよび広告配信プログラム
JP2010113542A (ja) 情報提供システム、情報処理装置及びそのプログラム
CN103207882A (zh) 店铺访问数据处理方法及系统
WO2015010664A1 (zh) 一种基于家庭网关的广告推送系统及方法
CN102946320A (zh) 一种分布式用户行为日志预测网络监管方法及系统
US20150032843A1 (en) Resource locator remarketing
US20140156723A1 (en) Redirecting Information
JP2006309380A (ja) ウェブサイト閲覧支援システム及び方法並びにプログラム
TW200951746A (en) System for suggesting categories of mobile keywords to revenue generators
JP2007264766A (ja) コンテンツ収集方法及びコンテンツ提供方法並びにコンテンツ表示方法
CN101887438A (zh) 确定网页的搜索引擎优化规则的方法和设备
RU2778382C2 (ru) Способ обучения алгоритма машинного обучения формированию прогнозируемого совместного векторного представления для цифрового элемента

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171110

Termination date: 20181224