CN109672757B - 文件访问方法及文件访问处理装置 - Google Patents

文件访问方法及文件访问处理装置 Download PDF

Info

Publication number
CN109672757B
CN109672757B CN201910141256.7A CN201910141256A CN109672757B CN 109672757 B CN109672757 B CN 109672757B CN 201910141256 A CN201910141256 A CN 201910141256A CN 109672757 B CN109672757 B CN 109672757B
Authority
CN
China
Prior art keywords
file
access
cold
files
cdn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910141256.7A
Other languages
English (en)
Other versions
CN109672757A (zh
Inventor
丁浩
吴岩
胡文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910141256.7A priority Critical patent/CN109672757B/zh
Publication of CN109672757A publication Critical patent/CN109672757A/zh
Application granted granted Critical
Publication of CN109672757B publication Critical patent/CN109672757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种文件访问方法,应用于CDN调度器,包括:接收文件访问请求;解析文件访问请求,确定客户端请求的目标文件;判断目标文件是否属于预先确定的冷门文件;在目标文件属于预先确定的冷门文件的情况下,将文件访问请求调度至CDN核心服务器,由CDN核心服务器处理文件访问请求,向客户端传输目标文件。基于本申请公开的文件访问方法,能够节约CDN边缘服务器的通信带宽和存储资源,并且能够极大地提升CDN边缘服务器的安全性能。本申请还公开一种文件访问处理装置。

Description

文件访问方法及文件访问处理装置
技术领域
本申请属于内容分发网络技术领域,尤其涉及一种文件访问方法及文件访问处理装置。
背景技术
随着互联网技术的发展,网站越来越倾向于使用CDN技术进行网站内容的分发,以提高网站访问速度,提升用户体验。CDN的全称为Content Delivery Network,即内容分发网络,通过在互联网各处放置CDN服务器,构成在现有的互联网基础之上的一层智能虚拟网络,能够尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。
当客户端向CDN请求视频文件或者其他文件时,CDN调度器根据客户端的相关信息,为客户端选择最合适的CDN边缘服务器(也称为CDN边缘节点)提供下载服务。具体的,如果CDN边缘服务器存储有客户端请求的文件,那么CDN边缘服务器向客户端发送请求的文件,如果CDN边缘服务器未存储客户端请求的文件,那么CDN边缘服务器进行回源处理,从其他服务器(例如CDN核心服务器,也称为CDN核心节点)将客户端请求的文件下载至本地,再向客户端发送该文件。
但是,申请人发现基于现有的处理方式,CDN边缘服务器存在安全性较低,通信带宽和存储资源极易浪费的问题。
发明内容
有鉴于此,本申请的目的在于提供一种文件访问方法和文件访问处理装置,以解决CDN边缘服务器安全性较低,通信带宽和存储资源极易浪费的问题。
为实现上述目的,本申请提供如下技术方案:
本申请提供一种文件访问方法,应用于CDN调度器,所述文件访问方法包括:
接收文件访问请求;
解析所述文件访问请求,确定客户端请求的目标文件;
判断所述目标文件是否属于预先确定的冷门文件;
在所述目标文件属于预先确定的冷门文件的情况下,将所述文件访问请求调度至CDN核心服务器,由所述CDN核心服务器处理所述文件访问请求,向所述客户端传输所述目标文件。
可选的,在上述文件访问方法中,预先确定冷门文件的过程,包括:
分别获得多个待识别文件在过去N个单位时间内的访问参数集合,其中,每个待识别文件在过去一个单位时间内的访问参数集合包括多种访问参数,N为大于1的整数;
分别计算每个待识别文件的每种访问参数的加权值;
基于所述各个待识别文件的各种访问参数的加权值,分别针对每种访问参数生成一个备选冷门文件集合,其中,针对第i种访问参数生成的第i个备选冷门文件集合中,各个备选冷门文件的第i种访问参数的加权值,小于所述多个待识别文件中其他待识别文件的第i种访问参数的加权值;其中,i=1,2…M,M为所述访问参数集合包含的访问参数的种类的数量;
基于生成的多个备选冷门文件集合确定冷门文件。
可选的,在上述文件访问方法中,所述访问参数集合包括单位时间内访问次数、单位时间内访问用户数、单位时间内下载总流量和单位时间内每用户流量中的两种或两种以上。
可选的,在上述文件访问方法中,所述判断所述目标文件是否属于预先确定的冷门文件,包括:
对预先构建的冷门文件集合进行查询;
如果在所述冷门文件集合中查询到所述目标文件的标识,则确定所述目标文件为冷门文件;
其中,所述冷门文件集合包含预先确定的冷门文件的标识。
可选的,在上述文件访问方法中,所述判断所述目标文件是否属于预先确定的冷门文件,包括:
对预先构建的冷门文件集合和热门文件集合进行并行异步查询;
如果在所述冷门文件集合中查询到所述目标文件的标识,则确定所述目标文件为冷门文件,如果在所述热门文件集合中查询到所述目标文件的标识,则确定所述目标文件为热门文件,如果在所述冷门文件集合和所述热门文件集合中均未查询到所述目标文件的标识,则确定所述目标文件为普通文件;
其中,所述冷门文件集合包括预先确定的冷门文件的标识,所述热门文件集合包括预先确定的热门文件的标识。
可选的,在上述文件访问方法的基础上,还包括:
在所述目标文件不属于预先确定的冷门文件的情况下,将所述文件访问请求调度至CDN边缘服务器,由所述CDN边缘服务器处理所述文件访问请求,向所述客户端传输目标文件。
本申请提供一种文件访问处理装置,应用于CDN调度器,所述文件访问处理装置包括:
请求接收单元,用于接收文件访问请求;
请求解析单元,用于解析所述文件访问请求,确定客户端请求的目标文件;
文件类型确定单元,用于判断所述目标文件是否属于预先确定的冷门文件;
第一处理单元,用于在所述目标文件属于预先确定的冷门文件的情况下,将所述文件访问请求调度至CDN核心服务器,由所述CDN核心服务器处理所述文件访问请求,向所述客户端传输所述目标文件。
可选的,在上述文件访问处理装置的基础上,进一步设置预处理单元;所述预处理单元用于:
分别获得多个待识别文件在过去N个单位时间内的访问参数集合,其中,每个待识别文件在过去一个单位时间内的所述访问参数集合包括多种访问参数,N为大于1的整数;分别计算每个待识别文件的每种访问参数的加权值;基于所述各个待识别文件的各种访问参数的加权值,分别针对每种访问参数生成一个备选冷门文件集合,其中,针对第i种访问参数生成的第i个备选冷门文件集合中,各个备选冷门文件的第i种访问参数的加权值,小于所述多个待识别文件中其他待识别文件的第i种访问参数的加权值;其中,i=1,2…M,M为访问参数集合包含的访问参数的种类的数量;基于生成的多个备选冷门文件集合确定冷门文件。
可选的,在上述文件访问处理装置中,所述文件类型确定单元包括:
第一查询模块,用于对预先构建的冷门文件集合进行查询;
第一文件类型确定模块,用于在所述冷门文件集合中查询到所述目标文件的标识的情况下,确定所述目标文件为冷门文件;
其中,所述冷门文件集合包含预先确定的冷门文件的标识。
可选的,在上述文件访问处理装置中,所述文件类型确定单元包括:
第二查询模块,用于对预先构建的冷门文件集合和热门文件集合进行并行异步查询;
第二文件类型确定模块,用于在所述冷门文件集合中查询到所述目标文件的标识的情况下,确定所述目标文件为冷门文件,在所述热门文件集合中查询到所述目标文件的标识的情况下,确定所述目标文件为热门文件,在所述冷门文件集合和所述热门文件集合中均未查询到所述目标文件的标识的情况下,确定所述目标文件为普通文件;
其中,所述冷门文件集合包括预先确定的冷门文件的标识,所述热门文件集合包括预先确定的热门文件的标识。
可选的,在上述文件访问处理装置中,还包括:
第二处理单元,用于在所述目标文件不属于预先确定的冷门文件的情况下,将所述文件访问请求调度至CDN边缘服务器,由所述CDN边缘服务器处理所述文件访问请求,向所述客户端传输目标文件。
由此可见,本申请的有益效果为:
本申请公开的文件访问方法中,CDN调度器接收到文件访问请求时,首先确定客户端请求的目标文件是否属于预先确定的冷门文件,如果确定目标文件属于预先确定的冷门文件,那么CDN调度器将文件访问请求调度至CDN核心服务器,由CDN核心服务器处理该文件访问请求,向客户端传输请求的目标文件。
可以看到,基于本申请公开的文件访问方法,当客户端请求的目标文件是访问量极小的冷门文件时,由CDN核心服务器向客户端传输请求的目标文件,无需CDN边缘服务器从其他服务器下载目标文件,也无需CDN边缘服务器存储该目标文件,因此,能够节约CDN边缘服务器的通信带宽和存储资源;另外,恶意用户很难通过大量文件访问请求的攻击将CDN边缘服务器的存储空间由冷门文件填满,极大地提升了CDN边缘服务器的安全性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请公开的CDN的系统架构图;
图2为本申请公开的一种文件访问方法的流程图;
图3为本申请公开的另一种文件访问方法的流程图;
图4为本申请公开的一种预先确定冷门文件的方法的流程图;
图5为本申请公开的另一种预先确定冷门文件的方法的流程图;
图6为本申请公开的一种预先确定热门文件的方法的流程图;
图7为本申请公开的另一种预先确定热门文件的方法的流程图;
图8为本申请公开的一种文件访问处理装置的结构示意图;
图9为本申请公开的另一种文件访问处理装置的结构示意图。
具体实施方式
CDN的系统架构如图1所示,在每个调度区域(如北京联通、上海电信)中,布置有多个CDN边缘服务器,这些CDN边缘服务器都连接至一个CDN核心服务器,并且每个调度区域还布置有CDN调度器,在图1中,CDN调度器标记为101,CDN核心服务器标记为102,多个CDN边缘服务器标记为103。需要说明的是,不同的调度区域可能共用相同的CDN核心服务器,例如,北京联通和山东联通可能共用相同的CDN核心服务器,但是不同的调度区域不会共用CDN边缘服务器。
采用现有的不加考虑的均由CDN边缘服务器为用户提供下载服务的处理方式,客户端请求访问的文件都会存储在CDN边缘服务器中,这就导致CDN边缘服务器会存储访问量极小的冷门文件,造成存储资源的浪费。另外,CDN边缘服务器的存储空间较小,恶意用户可以通过大量的文件访问请求,利用不同的冷门文件填满CDN边缘服务器的存储空间,达到恶意攻击CDN边缘服务器的目的。当CDN边缘服务器需要下载热门文件时,首先要删除已下载的冷门文件,这会加大CDN边缘服务器的磁盘读写负担,同时也会消耗大量的通信带宽。
本申请公开一种文件访问方法和文件访问装置,以提高CDN边缘服务器的安全性能,同时节约CDN边缘服务器的通信带宽和存储资源。需要说明的是,本申请公开的文件访问方法的执行主体为CDN调度器,本申请公开的文件访问装置布置于CDN调度器中。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图2,图2为本申请公开的一种文件访问方法的流程图。该文件访问方法包括:
步骤S1:接收文件访问请求。
客户端发送文件访问请求,该文件访问请求携带有客户端请求的目标文件的标识。实施中,客户端请求的目标文件可以为视频文件,也可以为其他多媒体文件,如音频文件。
步骤S2:解析文件访问请求,确定客户端请求的目标文件。
步骤S3:判断目标文件是否属于预先确定的冷门文件。
CDN调度器接收到文件访问请求后,解析文件访问请求,以确定客户端请求的目标文件。之后,CDN调度器判断客户端请求的目标文件是否属于预先确定的冷门文件。
步骤S4:在目标文件属于预先确定的冷门文件的情况下,将文件访问请求调度至CDN核心服务器,由CDN核心服务器处理文件访问请求,向客户端传输目标文件。
如果客户端请求的目标文件属于预先确定的冷门文件,那么CDN调度器将文件访问请求调度至CDN核心服务器。CDN核心服务器接收到CDN调度器发送的文件访问请求之后,读取客户端请求的目标文件,向客户端传输该目标文件。也就是说,在客户端请求的目标文件为冷门文件的情况下,由CDN核心服务器提供下载服务,无需选择CDN边缘服务器来提供下载服务,这样就能够避免CDN边缘服务器下载并存储冷门文件。
本申请公开的文件访问方法,CDN调度器接收到文件访问请求时,首先确定客户端请求的目标文件是否属于预先构建的冷门文件,如果确定目标文件属于预先确定的冷门文件,那么CDN调度器将文件访问请求调度至CDN核心服务器,由CDN核心服务器处理该文件访问请求,向客户端传输请求的目标文件。
可以看到,基于本申请公开的文件访问方法,当客户端请求的目标文件是访问量极小的冷门文件时,由CDN核心服务器向客户端传输请求的目标文件,无需CDN边缘服务器从其他服务器下载目标文件,也无需CDN边缘服务器存储该目标文件,因此,能够节约CDN边缘服务器的通信带宽和存储资源;另外,恶意用户很难通过大量文件访问请求的攻击将CDN边缘服务器的存储空间由冷门文件填满,极大地提升了CDN边缘服务器的安全性能。
参见图3,图3为本申请公开的另一种文件访问方法的流程图。该文件访问方法包括:
步骤S1:接收文件访问请求。
步骤S2:解析文件访问请求,确定客户端请求的目标文件。
步骤S3:判断目标文件是否属于预先确定的冷门文件。
步骤S4:在目标文件属于预先确定的冷门文件的情况下,将文件访问请求调度至CDN核心服务器,由CDN核心服务器处理文件访问请求,向客户端传输目标文件。
步骤S5:在目标文件不属于预先确定的冷门文件的情况下,将文件访问请求调度至CDN边缘服务器,由CDN边缘服务器处理文件访问请求。
CDN调度器接收到文件访问请求后,解析文件访问请求,以确定客户端请求的目标文件。之后,CDN调度器判断客户端请求的目标文件是否属于预先确定的冷门文件,根据判断结果采用不同的处理策略为用户提供下载服务。
在判断结果表明客户端请求的目标文件属于预先确定的冷门文件的情况下,CDN调度器将文件访问请求调度至CDN核心服务器,由CDN核心服务器提供下载服务,即,CDN核心服务器读取客户端请求的目标文件,向客户端传输该目标文件。
在判断结果表明客户端请求的目标文件不属于预先确定的冷门文件的情况下,CDN调度器将文件访问请求调度至CDN边缘服务器,由CDN边缘服务器提供下载服务。作为一种实施方式,如果CDN边缘服务器存储有客户端请求的目标文件,那么CDN边缘服务器从本地读取目标文件,向客户端传输该目标文件;如果CDN边缘服务器未存储客户端请求的目标文件,那么CDN边缘服务器进行回源处理,从CDN核心服务器下载客户端请求的目标文件,将目标文件存储在本地,并向客户端传输该目标文件,以便后续接收到针对该文件的文件访问请求时,能够快速地提供下载服务。
本申请图3所示的文件访问方法,CDN调度器接收到文件访问请求时,首先确定客户端请求的目标文件是否属于预先确定的冷门文件,如果确定目标文件属于预先确定的冷门文件,那么CDN调度器将文件访问请求调度至CDN核心服务器,由CDN核心服务器处理该文件访问请求,向客户端传输请求的目标文件,如果确定目标文件不属于预先确定的冷门文件,那么CDN调度器将文件访问请求调度至CDN边缘服务器,由CDN边缘服务器处理该文件访问请求,向客户端传输请求的目标文件。
可以看到,基于图3所示的文件访问方法,在客户端请求的目标文件属于预先确定的冷门文件时,由CDN核心服务器提供下载服务,在客户端请求的目标文件不属于预先确定的冷门文件时,由CDN边缘服务器提供下载服务,能够提高CDN边缘服务器的安全性能,同时节约CDN边缘服务器的通信带宽和存储资源,另外,CDN边缘服务器中存储的文件均为访问频率较高的文件,在客户端请求下载非冷门文件时,CDN边缘服务器能够快速地提供下载服务。
作为一个示例,在本申请上述公开的文件访问方法中,步骤S3判断目标文件是否属于预先确定的冷门文件,具体包括:
对预先构建的冷门文件集合进行查询;
如果在冷门文件集合中查询到目标文件的标识,则确定目标文件属于预先确定的冷门文件。
其中,冷门文件集合包含预先确定的冷门文件的标识。
也就是说,预先构建冷门文件集合,将该冷门文件集合存储于CDN调度器的本地存储介质或者存储在CDN调度器可访问的存储介质中。CDN调度器在确定客户端请求的目标文件之后,对该冷门文件集合进行查询,如果在冷门文件集合中查询到目标文件的标识,那么确定客户端请求的目标文件属于预先确定的冷门文件。相应的,如果在冷门文件集合中未查询到目标文件的标识,那么确定客户端请求的目标文件不属于预先确定的冷门文件。
作为另一个示例,在本申请上述公开的文件访问方法中,步骤S3判断目标文件是否属于预先确定的冷门文件,具体包括:
对预先构建的冷门文件集合和热门文件集合进行并行异步查询;
如果在冷门文件集合中查询到目标文件的标识,则确定目标文件属于预先确定的冷门文件,如果在热门文件集合中查询到目标文件的标识,则确定目标文件属于预先确定的热门文件,如果在冷门文件集合和热门文件集合中均未查询到目标文件的标识,则确定目标文件为普通文件。
其中,冷门文件集合包含预先确定的冷门文件的标识,热门文件集合包含预先确定的热门文件的标识。
也就是说,预先构建冷门文件集合和热门文件集合,将该冷门文件集合和热门文件集合存储于CDN调度器的本地存储介质或者存储在CDN调度器可访问的存储介质中。CDN调度器在确定客户端请求的目标文件之后,对该冷门文件集合和热门文件集合进行并行异步查询,即同时对冷门文件集合和热门文件集合进行查询,如果在冷门文件集合中查询到目标文件的标识,那么确定客户端请求的目标文件属于预先确定的冷门文件,如果在热门文件集合中查询到目标文件的标识,那么确定目标文件属于预先确定的热门文件,如果在冷门文件集合和热门文件集合中均未查询到目标文件的标识,那么确定客户端请求的目标文件为普通文件。
这里需要说明的是,冷门文件和热门文件是互斥的,在对冷门文件集合和热门文件集合进行查询的过程中,如果任意一个查询操作返回结果,则无需等待另一个查询操作返回结果。
例如,如果针对冷门文件集合的查询返回结果,说明客户端请求的目标文件属于预先确定的冷门文件,直接执行后续的步骤,即,将文件访问请求调度至CDN核心服务器,由CDN核心服务器处理文件访问请求,向客户端传输目标文件,无需等待针对热门文件集合的查询操作返回结果。
例如,如果针对热门文件集合的查询返回结果,说明客户端请求的目标文件属于预先确定的热门文件,直接执行后续的步骤,即,将文件访问请求调度至CDN边缘服务器,由CDN边缘服务器处理文件访问请求,无需等待针对冷门文件集合的查询操作返回结果。
冷门文件一般少于热门文件,因此,针对冷门文件集合的查询速度通常快于针对热门文件集合的查询速度。在本申请上述公开的技术方案中,虽然需要针对冷门文件集合和热门文件集合进行查询,但当客户端请求的目标文件属于预先确定的冷门文件时,CDN调度器的响应速度更高。
在上述的示例中,文件被划分为三个类别:冷门文件、热门文件和普通文件。当客户端请求的目标文件属于预先确定的冷门文件时,CDN调度器将文件访问请求调度至CDN核心服务器,由CDN核心服务器处理文件访问请求,向客户端传输目标文件。当客户端请求的目标文件不属于预先确定的冷门文件时,CDN调度器将文件访问请求调度至CDN边缘服务器,由CDN边缘服务器处理文件访问请求。在实施中,当客户端请求的目标文件属于预先确定的热门文件时,或者客户端请求的目标文件是普通文件时,CDN边缘服务器可以采用不同的策略处理文件访问请求。
下面对预先确定冷门文件的过程进行说明,请参见图4所示,包括:
步骤S401:分别获得多个待识别文件在过去N个单位时间内的访问参数集合。
其中,N为大于1的整数,访问参数集合包括多种访问参数。可选的,访问参数集合包括单位时间内访问次数、单位时间内访问用户数、单位时间内下载总流量和单位时间内每用户流量中的多种,即两种或两种以上。
也就是说,每个待识别文件在过去的一个单位时间内的访问参数集合至少包括:单位时间内访问次数、单位时间内访问用户数、单位时间内下载总流量和单位时间内每用户流量中的两种或两种以上。
实施中,可以将单位时间设置为1天或多天,也可以将单位时间设置为若干个小时,本申请中不进行具体限定。
实施中,获取多个待识别文件在过去N个单位时间内的访问日志,对获取到的访问日志进行分析,以获得多个待识别文件在过去N个单位时间内的访问参数集合。
需要说明的是,在步骤S401中,针对每个待识别文件获取N个访问参数集合,即针对每个待识别文件在每个单位时间各获得一个访问参数集合。
步骤S402:分别计算每个待识别文件的每种访问参数的加权值。
以一个待识别文件为例,需要计算该待识别文件的每种访问参数的加权值。例如,访问参数集合包括第一访问参数、第二访问参数和第三访问参数,那么,需要计算该待识别文件的第一访问参数的加权值、第二访问参数的加权值和第三访问参数的加权值。
步骤S403:基于各个待识别文件的各种访问参数的加权值,分别针对每种访问参数生成一个备选冷门文件集合。
其中,针对M种访问参数中的第i种访问参数生成的第i个备选冷门文件集合中,各个备选冷门文件的第i种访问参数的加权值,小于多个待识别文件中其他待识别文件的第i种访问参数的加权值。其中,i=1,2…M,M为访问参数集合包含的访问参数的种类的数量。
作为一种实施方式,在针对第i种访问参数生成第i个备选冷门文件集合的过程中,对各个待识别文件的第i种访问参数的加权值与第i种访问参数对应的第一阈值进行比较,如果待识别文件的第i种访问参数的加权值小于第i种访问参数对应的第一阈值,那么将该待识别文件的标识加入与第i种访问参数对应的备选冷门文件集合。
作为另一种实施方式,根据多个待识别文件的第i种访问参数的加权值,对多个待识别文件进行排序,例如按照第i种访问参数的加权值从小到大的顺序进行排序,之后取序号最小的K个待识别文件,这K个待识别文件的标识构成与第i种访问参数对应的备选冷门文件集合。
步骤S404:基于生成的多个备选冷门文件集合确定冷门文件。
作为一种实施方式,确定多个备选冷门文件集合的并集,该并集所包含的文件作为冷门文件。
作为另一种实施方式,如果同一个文件的标识至少出现在预设数量的备选冷门文件集合中,那么将该文件确定为冷门文件。该预设数量大于1。例如,如果同一个文件的标识至少出现在两个备选冷门文件集合中,那么将该文件确定为冷门文件。
本申请图4所示的预先确定冷门文件的方法,获得多个待识别文件在过去N个单位时间内的访问参数集合,分别计算各个待识别文件的各种访问参数的加权值,之后基于各个待识别文件的各种访问参数的加权值,分别针对每种访问参数生成一个备选冷门文件集合,与任意一种访问参数对应的备选冷门文件集合所包含的备选冷门文件是:多个待识别文件中该种访问参数的加权值较低的待识别文件,之后根据多个备选冷门文件集合确定冷门文件。本申请图4所示的预先确定冷门文件的方法,基于待识别文件在过去N个单位时间内的多种访问参数确定冷门文件,分析结果更加准确。
在实施中,可以将单位时间设置为一天。另外,CDN调度器有预先配置的调度范围,因此,CDN调度器在预先确定冷门文件的过程,优选设置为确定其调度区域内的冷门文件。
请参见图5,图5为本申请公开的另一种预先确定冷门文件的方法的流程图。该方法包括:
步骤S501:获取在过去N天内当前调度区域中预定文件的访问日志,其中N为大于1的整数。
步骤S502:对获取到的访问日志进行分析,确定在过去N天内预定文件中的每个文件的每日访问次数、每日访问用户数、每日下载总流量和每用户流量。其中,文件的每用户流量=文件的单位时间内下载总流量/文件的单位时间内访问用户数。在单位时间被设置为一天的情况下,文件的每用户流量=文件的每日下载总流量/文件的每日访问用户数。
步骤S503:计算每个文件的每日访问次数加权值、每日访问用户数加权值、每日下载总流量加权值和每用户流量加权值。
这里需要说明的是,在计算每个文件的每日访问次数加权值、每日访问用户数加权值、每日下载总流量加权值和每用户流量加权值的过程中,一个文件的同一种访问参数在N天的权重的配置满足以下规则:同一种访问参数在N天的权重的和为1,距离当前时刻较近的日期内的访问参数对应的权重大于距离当前时刻较远的日期内的访问参数对应的权重。
步骤S504:确定第一文件集合、第二文件集合、第三文件集合和第四文件集合。
其中,第一文件集合所包含的文件的每日访问次数加权值,小于不属于第一文件集合的文件的每日访问次数加权值,第二文件集合所包含的文件的每日访问用户数加权值,小于不属于第二文件集合的文件的每日访问用户数加权值,第三文件集合所包含的文件的每日下载总流量加权值,小于不属于第三文件集合的文件的每日下载总流量加权值,第四文件集合所包含的文件的每用户流量加权值,小于不属于第四文件集合的文件的每用户流量加权值。
步骤S505:确定第一文件集合、第二文件集合、第三文件集合和第四文件集合的并集,并集所包含的文件为当前调度区域的冷门文件。
下面结合一个实例进行说明:
将N的取值设置为7,将当前调度区域中的预定文件设置为当前调度区域中的全部文件。
1)、获取在过去7天内当前调度区域中全部文件的访问日志。
其中,距离当前时刻最远的一天记为第7天,距离当前时刻最近的一天记为第1天。
2)、对获取到的访问日志进行分析,确定在过去7天内每个文件的每日访问次数、每日访问用户数、每日下载总流量和每用户流量。
3)、计算每个文件的每日访问次数加权值、每日访问用户数加权值、每日下载总流量加权值和每用户流量加权值。
这里以计算文件1的每日访问次数加权值为例:
例如,将第7天至第1天的参数对应的权重设置为(0.01,0.02,0.03,0.04,0.1,0.25,0.55)。
以(X7,X6,X5,X4,X3,X2,X1)表示文件1在第7天至第1天的每日访问次数,那么,该文件1的每日访问次数加权值X=0.01*X7+0.02*X6+0.03*X5+0.04*X4+0.1*X3+0.25*X2+0.55*X1。
考虑一种特殊情况,若此文件在前7天并不是完全存在访问记录,在这种情况下,依然可以根据上述参数的比例进行计算,如,文件在3天前才上线,则根据上述权重参数比例计算出的此三天的加权比例为:(10/(10+25+55),25/(10+25+55),55/(10+25+55)),此时X=0.11*X3+0.28*X2+0.61*X1。
每个文件的每日访问用户数加权值、每日下载总流量加权值、以及每用户流量加权值的计算过程也是类似的,这里不再一一举例。
4)、按照每日访问次数加权值从小到大的顺序对所有文件进行排序,取序号最小的K1个文件,这K1个文件的每日访问次数加权值小于其他文件的每日访问次数加权值,这K1个文件的标识构成第一文件集合。
按照每日访问用户数加权值从小到大的顺序对所有文件进行排序,取序号最小的K2个文件,这K2个文件的每日访问用户数加权值小于其他文件的每日访问用户数加权值,这K2个文件的标识构成第二文件集合。
按照每日下载总流量加权值从小到大的顺序对所有文件进行排序,取序号最小的K3个文件,这K3个文件的每日下载总流量加权值小于其他文件的每日下载总流量加权值,这K3个文件的标识构成第三文件集合。
按照每用户流量加权值从小到大的顺序对所有文件进行排序,取序号最小的K4个文件,这K4个文件的每用户流量加权值小于其他文件的每用户流量加权值,这K4个文件的标识构成第四文件集合。
需要说明的是,K1、K2、K3和K4的取值可以相同,也可以不同。例如,将K1、K2、K3和K4的取值设置为10万。
5)、确定第一文件集合、第二文件集合、第三文件集合和第四文件集合的并集,该并集所包含的文件为当前调度区域的冷门文件。
以K1、K2、K3和K4的取值设置为10万为例,当前调度区域的冷门文件的数量在10万至40万之间。
在具体实施中,确定冷门文件的操作可以以天为周期,例如,在每日凌晨确定在当前时刻之前的一段时间内(如7天内)的冷门文件。
下面对预先确定热门文件的过程进行说明,请参见图6所示,包括:
步骤S601:分别获得多个待识别文件在过去N个单位时间内的访问参数集合。
其中,N为大于1的整数,访问参数集合包括多种访问参数。可选的,访问参数集合包括单位时间内访问次数、单位时间内访问用户数、单位时间内下载总流量和单位时间内每用户流量中的多种,即两种或两种以上。
实施中,可以将单位时间设置为1天或多天,也可以将单位时间设置为若干个小时,本申请中不进行具体限定。
实施中,获取多个待识别文件在过去N个单位时间内的访问日志,对获取到的访问日志进行分析,以获得多个待识别文件在过去N个单位时间内的访问参数集合。
步骤S602:分别计算每个待识别文件的每种访问参数的加权值。
以一个待识别文件为例,需要计算该待识别文件的每种访问参数的加权值。例如,访问参数集合包括第一访问参数、第二访问参数和第三访问参数,那么,需要计算该待识别文件的第一访问参数的加权值、第二访问参数的加权值和第三访问参数的加权值。
步骤S603:基于各个待识别文件的各种访问参数的加权值,分别针对每种访问参数生成一个备选热门文件集合。
其中,针对M种访问参数中的第i种访问参数生成的第i个备选热门文件集合中,各个备选热门文件的第i种访问参数的加权值,大于多个待识别文件中其他待识别文件的第i种访问参数的加权值。其中,i=1,2…M,M为访问参数集合包含的访问参数的种类的数量。
作为一种实施方式,在针对第i种访问参数生成第i个备选热门文件集合的过程中,对各个待识别文件的第i种访问参数的加权值与第i种访问参数对应的第二阈值进行比较,如果待识别文件的第i种访问参数的加权值大于第i种访问参数对应的第二阈值,那么将该待识别文件的标识加入与第i种访问参数对应的备选热门文件集合。其中,第i种访问参数对应的第二阈值大于第i种访问参数对应的第一阈值。
作为另一种实施方式,根据多个待识别文件的第i种访问参数的加权值,对多个待识别文件进行排序,例如按照第i种访问参数的加权值从小到大的顺序进行排序,之后取序号最大的K个待识别文件,这K个待识别文件的标识构成与第i种访问参数对应的备选热门文件集合。
步骤S604:基于生成的多个备选热门文件集合确定热门文件。
作为一种实施方式,确定多个备选热门文件集合的并集,该并集所包含的文件作为热门文件。
作为另一种实施方式,如果同一个文件的标识至少出现在预设数量的备选热门文件集合中,那么将该文件确定为热门文件。该预设数量大于1。例如,如果同一个文件的标识至少出现在两个备选热门文件集合中,那么将该文件确定为热门文件。
本申请图6所示的预先确定热门文件的方法,获得多个待识别文件在过去N个单位时间内的访问参数集合,分别计算各个待识别文件的各种访问参数的加权值,之后基于各个待识别文件的各种访问参数的加权值,分别针对每种访问参数生成一个备选热门文件集合,与任意一种访问参数对应的备选热门文件集合所包含的备选热门文件是:多个待识别文件中该种访问参数的加权值较高的待识别文件,之后根据多个备选热门文件集合确定热门文件。本申请图6所示的预先确定热门文件的方法,基于待识别文件在过去N个单位时间内的多种访问参数确定热门文件,分析结果更加准确。
在实施中,可以将单位时间设置为一天。另外,CDN调度器有预先配置的调度范围,因此,CDN调度器在预先确定热门文件的过程,优选设置为确定其调度区域内的热门文件。
请参见图7,图7为本申请公开的另一种预先确定热门文件的方法的流程图。该方法包括:
步骤S701:获取在过去N天内当前调度区域中预定文件的访问日志,其中N为大于1的整数。
步骤S702:对获取到的访问日志进行分析,确定在过去N天内预定文件中的每个文件的每日访问次数、每日访问用户数、每日下载总流量和每用户流量。
步骤S703:计算每个文件的每日访问次数加权值、每日访问用户数加权值、每日下载总流量加权值和每用户流量加权值。
这里需要说明的是,在计算每个文件的每日访问次数加权值、每日访问用户数加权值、每日下载总流量加权值和每用户流量加权值的过程中,一个文件的同一种访问参数在N天的权重的配置满足以下规则:同一种访问参数在N天的权重的和为1,距离当前时刻较近的日期内的访问参数对应的权重大于距离当前时刻较远的日期内的访问参数对应的权重。
步骤S704:确定第五文件集合、第六文件集合、第七文件集合和第八文件集合。
其中,第五文件集合所包含的文件的每日访问次数加权值,大于不属于第五文件集合的文件的每日访问次数加权值,第六文件集合所包含的文件的每日访问用户数加权值,大于不属于第六文件集合的文件的每日访问用户数加权值,第七文件集合所包含的文件的每日下载总流量加权值,大于不属于第七文件集合的文件的每日下载总流量加权值,第八文件集合所包含的文件的每用户流量加权值,大于不属于第八文件集合的文件的每用户流量加权值。
这里需要说明的是,第一文件集合和第五文件集合所包含的文件的总量小于该预定文件的数量,第二文件集合和第六文件集合所包含的文件的总量小于该预定文件的数量,第三文件集合和第七文件集合所包含的文件的总量小于该预定文件的数量,第四文件集合和第八文件集合所包含的文件的总量小于该预定文件的数量。
步骤S705:确定第五文件集合、第六文件集合、第七文件集合和第八文件集合的并集,并集所包含的文件为当前调度区域的热门文件。
在具体实施中,确定热门文件的操作可以以天为周期,例如,在每日凌晨确定在当前时刻之前的一段时间内(如7天内)的热门文件。
作为一种优选方案,同时确定冷门文件和热门文件。也就是说,在计算每个文件的每日访问次数加权值、每日访问用户数加权值、每日下载总流量加权值和每用户流量加权值之后,确定第一文件集合、第二文件集合、第三文件集合和第四文件集合,以便确定当前调度区域的冷门文件,另外,还需确定第五文件集合、第六文件集合、第七文件集合和第八文件集合,以便确定当前调度区域的热门文件。
这里继续结合上文的实例进行说明:
按照每日访问次数加权值从小到大的顺序对所有文件进行排序,取序号最小的K1个文件,这K1个文件的每日访问次数加权值小于其他文件的每日访问次数加权值,这K1个文件的标识构成第一文件集合。另外,取序号最大的K5个文件,这K5个文件的每日访问次数加权值大于其他文件的每日访问次数加权值,这K5个文件的标识构成第五文件集合。
按照每日访问用户数加权值从小到大的顺序对所有文件进行排序,取序号最小的K2个文件,这K2个文件的每日访问用户数加权值小于其他文件的每日访问用户数加权值,这K2个文件的标识构成第二文件集合。另外,取序号最大的K6个文件,这K6个文件的每日访问用户数加权值大于其他文件的每日访问用户数加权值,这K6个文件的标识构成第六文件集合。
按照每日下载总流量加权值从小到大的顺序对所有文件进行排序,取序号最小的K3个文件,这K3个文件的每日下载总流量加权值小于其他文件的每日下载总流量加权值,这K3个文件的标识构成第三文件集合。另外,取序号最大的K7个文件,这K7个文件的每日下载总流量加权值大于其他文件的每日下载总流量加权值,这K7个文件的标识构成第七文件集合。
按照每用户流量加权值从小到大的顺序对所有文件进行排序,取序号最小的K4个文件,这K4个文件的每用户流量加权值小于其他文件的每用户流量加权值,这K4个文件的标识构成第四文件集合。另外,取序号最大的K8个文件,这K8个文件的每用户流量加权值大于其他文件的每用户流量加权值,这K8个文件的标识构成第八文件集合。
需要说明的是,K1和K5的和值小于文件的总数,K2和K6的和值小于文件的总数,K3和K7的和值小于文件的总数,K4和K8的和值小于文件的总数。
可以看到,本申请公开的预先确定冷门文件和热门文件的过程中,综合考虑了待识别文件的多种访问参数以及时间线的影响。也就是说,本申请预先确定冷门文件和热门文件的过程,是基于待识别文件在多个单位时间内的多种访问参数确定的,而不是基于单一的访问参数确定文件是否为冷门文件或者热门文件,准确性更高,在面对基于大量访问请求的恶意攻击时,具有较高的稳定性。
本申请中的文件集合(如备选热门文件集合、备选冷门文件集合、第一文件集合至第八文件集合)存储的均是文件的标识,不是文件本身。
需要说明的是,上述的预先确定冷门文件的操作、预先确定热门文件的操作、预先构建冷门文件集合的操作、以及预先构建热门文件集合的操作,可以由CDN调度器执行。另外,上述的操作也可以由CDN中的其他电子设备执行,其他电子设备将确定出的冷门文件、确定出的热门文件、构建的冷门文件集合和热门文件集合下发至CDN调度器存储即可。
本申请上述公开了文件访问方法,本申请还公开相应的文件访问处理装置,下文中关于文件访问处理装置的说明与上文中关于文件访问方法的说明,可以相互参考。
参见图8,图8为本申请公开的一种文件访问处理装置的结构示意图。该文件访问处理装置包括请求接收单元100、请求解析单元200、文件类型确定单元300和第一处理单元400。
其中:
请求接收单元100,用于接收文件访问请求。
请求解析单元200,用于解析文件访问请求,确定客户端请求的目标文件。
文件类型确定单元300,用于判断目标文件是否属于预先确定的冷门文件。
第一处理单元400,用于在目标文件属于预先确定的冷门文件的情况下,将文件访问请求调度至CDN核心服务器,由CDN核心服务器处理文件访问请求,向客户端传输目标文件。
基于本申请公开的文件访问处理装置,当客户端请求的目标文件是访问量极小的冷门文件时,由CDN核心服务器向客户端传输请求的目标文件,无需CDN边缘服务器从其他服务器下载目标文件,也无需CDN边缘服务器存储该目标文件,因此,能够节约CDN边缘服务器的通信带宽和存储资源;另外,恶意用户很难通过大量文件访问请求的攻击将CDN边缘服务器的存储空间由冷门文件填满,极大地提升了CDN边缘服务器的安全性能。
参见图9,图9为本申请公开的另一种文件访问处理装置的结构示意图。与图8所示的文件访问处理装置相比,进一步设置有第二处理单元500。
第二处理单元500用于:在目标文件不属于预先确定的冷门文件的情况下,将文件访问请求调度至CDN边缘服务器,由CDN边缘服务器处理文件访问请求。
基于本申请图9所示的文件访问处理装置,在客户端请求的目标文件属于预先确定的冷门文件时,由CDN核心服务器提供下载服务,在客户端请求的目标文件不属于预先确定的冷门文件时,由CDN边缘服务器提供下载服务,能够提高CDN边缘服务器的安全性能,同时节约CDN边缘服务器的通信带宽和存储资源,另外,CDN边缘服务器中存储的文件均为访问频率较高的文件,在客户端请求下载非冷门文件时,CDN边缘服务器能够快速地提供下载服务。
作为一个示例,在本申请上述公开的文件访问处理装置中,文件类型确定单元300包括:
第一查询模块,用于对预先构建的冷门文件集合进行查询;
第一文件类型确定模块,用于在冷门文件集合中查询到目标文件的标识的情况下,确定目标文件为冷门文件。
作为另一个示例,在本申请上述公开的文件访问处理装置中,文件类型确定单元300包括:
第二查询模块,用于对预先构建的冷门文件集合和热门文件集合进行并行异步查询;
第二文件类型确定模块,用于在冷门文件集合中查询到目标文件的标识的情况下,确定目标文件为冷门文件,在热门文件集合中查询到目标文件的标识的情况下,确定目标文件是热门文件,在冷门文件集合和热门文件集合中均未查询到目标文件的标识的情况下,确定目标文件为普通文件。
可选的,本申请公开的文件访问处理装置还可以包括预处理单元。
预处理单元用于:分别获得多个待识别文件在过去N个单位时间内的访问参数集合,其中,每个待识别文件在过去一个单位时间内的访问参数集合包括多种访问参数,N为大于1的整数;分别计算每个待识别文件的每种访问参数的加权值;基于各个待识别文件的各种访问参数的加权值,分别针对每种访问参数生成一个备选冷门文件集合,其中,针对第i种访问参数生成的第i个备选冷门文件集合中,各个备选冷门文件的第i种访问参数的加权值,小于多个待识别文件中其他待识别文件的第i种访问参数的加权值;其中,i=1,2…M,M为访问参数集合包含的访问参数的种类的数量;基于生成的多个备选冷门文件集合确定冷门文件。
在一个实施例中,预处理单元用于:获取在过去N天内当前调度区域中预定文件的访问日志,其中N为大于1的整数;对获取到的访问日志进行分析,确定在过去N天内预定文件中的每个文件的每日访问次数、每日访问用户数、每日下载总流量和每用户流量;计算每个文件的每日访问次数加权值、每日访问用户数加权值、每日下载总流量加权值和每用户流量加权值;确定第一文件集合、第二文件集合、第三文件集合和第四文件集合,其中,第一文件集合所包含的文件的每日访问次数加权值小于其他文件的每日访问次数加权值,第二文件集合所包含的文件的每日访问用户数加权值小于其他文件的每日访问用户数加权值,第三文件集合所包含的文件的每日下载总流量加权值小于其他文件的每日下载总流量加权值,第四文件集合所包含的文件的每用户流量加权值小于其他文件的每用户流量加权值;确定第一文件集合、第二文件集合、第三文件集合和第四文件集合的并集,并集所包含的文件为当前调度区域的冷门文件。
可选的,预处理单元还用于:分别获得多个待识别文件在过去N个单位时间内的访问参数集合,其中,每个待识别文件在过去一个单位时间内的访问参数集合包括多种访问参数,N为大于1的整数;分别计算每个待识别文件的每种访问参数的加权值;基于各个待识别文件的各种访问参数的加权值,分别针对每种访问参数生成一个备选热门文件集合,其中,针对第i种访问参数生成的第i个备选热门文件集合中,各个备选热门文件的第i种访问参数的加权值,大于多个待识别文件中其他待识别文件的第i种访问参数的加权值;其中,i=1,2…M,M为访问参数集合包含的访问参数的种类的数量;基于生成的多个备选热门文件集合确定热门文件。
在一个实施例中,预处理单元用于:获取在过去N天内当前调度区域中预定文件的访问日志,其中N为大于1的整数;对获取到的访问日志进行分析,确定在过去N天内预定文件中的每个文件的每日访问次数、每日访问用户数、每日下载总流量和每用户流量;计算每个文件的每日访问次数加权值、每日访问用户数加权值、每日下载总流量加权值和每用户流量加权值;确定第五文件集合、第六文件集合、第七文件集合和第八文件集合,其中,第五文件集合所包含的文件的每日访问次数加权值大于其他文件的每日访问次数加权值,第六文件集合所包含的文件的每日访问用户数加权值大于其他文件的每日访问用户数加权值,第七文件集合所包含的文件的每日下载总流量加权值大于其他文件的每日下载总流量加权值,第八文件集合所包含的文件的每用户流量加权值大于其他文件的每用户流量加权值;确定第五文件集合、第六文件集合、第七文件集合和第八文件集合的并集,并集所包含的文件为当前调度区域的热门文件。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种文件访问方法,其特征在于,应用于CDN调度器,所述文件访问方法包括:
接收文件访问请求;
解析所述文件访问请求,确定客户端请求的目标文件;
判断所述目标文件是否属于预先确定的冷门文件;
在所述目标文件属于预先确定的冷门文件的情况下,将所述文件访问请求调度至CDN核心服务器,由所述CDN核心服务器处理所述文件访问请求,向所述客户端传输所述目标文件;
其中,所述判断所述目标文件是否属于预先确定的冷门文件,包括:对预先构建的冷门文件集合和热门文件集合进行并行异步查询;如果在所述冷门文件集合中查询到所述目标文件的标识,则确定所述目标文件为冷门文件,如果在所述热门文件集合中查询到所述目标文件的标识,则确定所述目标文件为热门文件;其中,冷门文件和热门文件互斥,所述冷门文件集合包括预先确定的冷门文件的标识,所述热门文件集合包括预先确定的热门文件的标识。
2.根据权利要求1所述的文件访问方法,其特征在于,预先确定冷门文件的过程,包括:
分别获得多个待识别文件在过去N个单位时间内的访问参数集合,其中,每个待识别文件在过去一个单位时间内的访问参数集合包括多种访问参数,N为大于1的整数;
分别计算每个待识别文件的每种访问参数的加权值;
基于所述各个待识别文件的各种访问参数的加权值,分别针对每种访问参数生成一个备选冷门文件集合,其中,针对第i种访问参数生成的第i个备选冷门文件集合中,各个备选冷门文件的第i种访问参数的加权值,小于所述多个待识别文件中其他待识别文件的第i种访问参数的加权值;其中,i=1,2…M,M为所述访问参数集合包含的访问参数的种类的数量;
基于生成的多个备选冷门文件集合确定冷门文件。
3.根据权利要求2所述的文件访问方法,其特征在于,所述访问参数集合包括单位时间内访问次数、单位时间内访问用户数、单位时间内下载总流量和单位时间内每用户流量中的两种或者两种以上。
4.根据权利要求1所述的文件访问方法,其特征在于,还包括:
在所述目标文件不属于预先确定的冷门文件的情况下,将所述文件访问请求调度至CDN边缘服务器,由所述CDN边缘服务器处理所述文件访问请求,向所述客户端传输目标文件。
5.一种文件访问处理装置,其特征在于,应用于CDN调度器,所述文件访问处理装置包括:
请求接收单元,用于接收文件访问请求;
请求解析单元,用于解析所述文件访问请求,确定客户端请求的目标文件;
文件类型确定单元,用于判断所述目标文件是否属于预先确定的冷门文件;
第一处理单元,用于在所述目标文件属于预先确定的冷门文件的情况下,将所述文件访问请求调度至CDN核心服务器,由所述CDN核心服务器处理所述文件访问请求,向所述客户端传输所述目标文件;
其中,所述文件类型确定单元包括:
第二查询模块,用于对预先构建的冷门文件集合和热门文件集合进行并行异步查询;
第二文件类型确定模块,用于在所述冷门文件集合中查询到所述目标文件的标识的情况下,确定所述目标文件为冷门文件,在所述热门文件集合中查询到所述目标文件的标识的情况下,确定所述目标文件为热门文件;
其中,冷门文件和热门文件互斥,所述冷门文件集合包括预先确定的冷门文件的标识,所述热门文件集合包括预先确定的热门文件的标识。
6.根据权利要求5所述的文件访问处理装置,其特征在于,还包括预处理单元,所述预处理单元用于:
分别获得多个待识别文件在过去N个单位时间内的访问参数集合,其中,每个待识别文件在过去一个单位时间内的所述访问参数集合包括多种访问参数,N为大于1的整数;分别计算每个待识别文件的每种访问参数的加权值;基于所述各个待识别文件的各种访问参数的加权值,分别针对每种访问参数生成一个备选冷门文件集合,其中,针对第i种访问参数生成的第i个备选冷门文件集合中,各个备选冷门文件的第i种访问参数的加权值,小于所述多个待识别文件中其他待识别文件的第i种访问参数的加权值;其中,i=1,2…M,M为访问参数集合包含的访问参数的种类的数量;基于生成的多个备选冷门文件集合确定冷门文件。
CN201910141256.7A 2019-02-26 2019-02-26 文件访问方法及文件访问处理装置 Active CN109672757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910141256.7A CN109672757B (zh) 2019-02-26 2019-02-26 文件访问方法及文件访问处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910141256.7A CN109672757B (zh) 2019-02-26 2019-02-26 文件访问方法及文件访问处理装置

Publications (2)

Publication Number Publication Date
CN109672757A CN109672757A (zh) 2019-04-23
CN109672757B true CN109672757B (zh) 2022-02-25

Family

ID=66152271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910141256.7A Active CN109672757B (zh) 2019-02-26 2019-02-26 文件访问方法及文件访问处理装置

Country Status (1)

Country Link
CN (1) CN109672757B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110417861B (zh) * 2019-06-25 2023-05-26 腾讯科技(北京)有限公司 一种信息推送方法以及相关装置
CN110401702B (zh) * 2019-07-09 2022-03-25 北京达佳互联信息技术有限公司 一种离线包下载方法、装置、电子设备和存储介质
CN112311826B (zh) * 2019-07-30 2022-05-03 贵州白山云科技股份有限公司 内容分发系统中访问请求的处理方法、装置及系统
CN110691143B (zh) * 2019-10-21 2022-03-04 北京奇艺世纪科技有限公司 一种文件推送方法、装置、电子设备及介质
CN113839982B (zh) * 2020-06-24 2023-03-21 北京金山云网络技术有限公司 调度方法、装置、调度服务器、边缘服务器及调度系统
CN114422522B (zh) * 2020-10-13 2024-02-13 贵州白山云科技股份有限公司 一种缓存分发方法、装置、介质及设备
CN113315836B (zh) * 2021-05-27 2023-03-14 北京达佳互联信息技术有限公司 文件访问请求的调度方法、装置、电子设备、存储介质
CN115567591A (zh) * 2021-06-30 2023-01-03 华为云计算技术有限公司 内容资源分发方法、内容分发网络、集群及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883012A (zh) * 2010-07-09 2010-11-10 四川长虹电器股份有限公司 一种对网络边缘节点中存储资源的处理方法
CN102047244A (zh) * 2008-04-04 2011-05-04 第三雷沃通讯有限责任公司 在内容分发网络(cdn)中处理长尾内容
CN104796449A (zh) * 2014-01-22 2015-07-22 腾讯科技(深圳)有限公司 内容分发方法、装置及设备
CN107079011A (zh) * 2014-09-30 2017-08-18 第三雷沃通讯有限责任公司 处理内容传送网络中的长尾内容
CN109299144A (zh) * 2018-08-22 2019-02-01 北京奇艺世纪科技有限公司 一种数据处理方法、装置、系统及应用服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560597B2 (en) * 2009-07-30 2013-10-15 At&T Intellectual Property I, L.P. Anycast transport protocol for content distribution networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047244A (zh) * 2008-04-04 2011-05-04 第三雷沃通讯有限责任公司 在内容分发网络(cdn)中处理长尾内容
CN101883012A (zh) * 2010-07-09 2010-11-10 四川长虹电器股份有限公司 一种对网络边缘节点中存储资源的处理方法
CN104796449A (zh) * 2014-01-22 2015-07-22 腾讯科技(深圳)有限公司 内容分发方法、装置及设备
CN107079011A (zh) * 2014-09-30 2017-08-18 第三雷沃通讯有限责任公司 处理内容传送网络中的长尾内容
CN109299144A (zh) * 2018-08-22 2019-02-01 北京奇艺世纪科技有限公司 一种数据处理方法、装置、系统及应用服务器

Also Published As

Publication number Publication date
CN109672757A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109672757B (zh) 文件访问方法及文件访问处理装置
CN109246229B (zh) 一种分发资源获取请求的方法和装置
US10089143B2 (en) Dynamic scheduling of tasks for collecting and processing data using job configuration data
US10489476B2 (en) Methods and devices for preloading webpages
CN110708256B (zh) Cdn调度方法、装置、网络设备及存储介质
US11372937B1 (en) Throttling client requests for web scraping
CN111614736A (zh) 网络内容资源调度方法、域名调度服务器及电子设备
TW201824047A (zh) 攻擊請求的確定方法、裝置及伺服器
CN110830565B (zh) 资源下载方法、装置、系统、电子设备及存储介质
CN109189578B (zh) 存储服务器分配方法、装置、管理服务器以及存储系统
CN105959358A (zh) Cdn服务器及其缓存数据的方法
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN111782692A (zh) 一种频率控制方法及装置
CN113987002A (zh) 基于海量数据分析平台的数据交换方法
EP4227829A1 (en) Web scraping through use of proxies, and applications thereof
US20230018983A1 (en) Traffic counting for proxy web scraping
Hu et al. An on‐demand data broadcasting scheduling algorithm based on dynamic index strategy
CN113315836B (zh) 文件访问请求的调度方法、装置、电子设备、存储介质
CN114003337A (zh) 访问请求的分配方法及装置
Mei A dynamic ICN and IoT based caching method supporting high‐tech transformation
WO2023280593A1 (en) Web scraping through use of proxies, and applications thereof
CN115396319B (zh) 数据流分片方法、装置、设备及存储介质
CN117522262A (zh) 一种数据处理方法及相关装置
CN117527809A (zh) 资源获取方法、装置、设备及存储介质
CN117112883A (zh) 一种搜索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant