CN107153663A - 一种域名资源缓存方法及装置 - Google Patents

一种域名资源缓存方法及装置 Download PDF

Info

Publication number
CN107153663A
CN107153663A CN201610124951.9A CN201610124951A CN107153663A CN 107153663 A CN107153663 A CN 107153663A CN 201610124951 A CN201610124951 A CN 201610124951A CN 107153663 A CN107153663 A CN 107153663A
Authority
CN
China
Prior art keywords
domain name
resource
url
setting
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610124951.9A
Other languages
English (en)
Other versions
CN107153663B (zh
Inventor
李巍
赵磊
武智晖
魏瑗珍
孙昊
毕旻
张志燕
段怡婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Beijing Co Ltd
Original Assignee
China Mobile Group Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Beijing Co Ltd filed Critical China Mobile Group Beijing Co Ltd
Priority to CN201610124951.9A priority Critical patent/CN107153663B/zh
Publication of CN107153663A publication Critical patent/CN107153663A/zh
Application granted granted Critical
Publication of CN107153663B publication Critical patent/CN107153663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Abstract

本发明公开了一种域名资源缓存方法及装置,该方法包括在需要对域名进行缓存时,获得所述域名包含的资源类型;按照预先建立的资源模型,在确定出所述资源类型不符合设定规则时,不缓存所述域名,从而实现域名资源是否可以缓存进行判断。

Description

一种域名资源缓存方法及装置
技术领域
本发明涉及通信技术领域,尤其是涉及一种域名资源缓存方法及装置。
背景技术
目前,移动互联网和互联网产业处于高速发展的时期,各种网络应用、应用(Application,APP)层出不穷,互联网已成为时代的代名词。特别是进入第四代通信时代后,用于上网习惯正在从电脑端向移动的设备端迁移,而用户也对网络质量的优劣更加的敏感。
一般情况下,如果用户访问的互联网资源都在用户所在运营商网内,访问质量往往较好。但对于内容资源不够丰富的运营商来说,用户访问的很多资源需要跨网获取,这样容易受到网间带宽等多种因素影响,导致访问质量较差。目前,引入缓存(cache)系统是资源劣势运营商弥补劣势,cache系统可以实现网外资源的本网缓存,使相关资源快速实现本地化,提升用户的上网感知。而实现方法较为简单,只需要通过将网外资源对应的域名加入cache白名单,即可实现资源的快速引入。而哪些域名可以加入cache缓存白名单目前有两种方式:
第一种方式:被动方式。
在上述第一种方式中,通过用户投诉的方式,确定白名单。用户投诉域名访问情况不佳,测试后发现域名对应的IP地址在网外,且端口不是特殊端口,即将该域名加入缓存白名单进行缓存。
第二种方式:主动方式。
上述第二种方式中,定期对全网域名访问量进行统计,对域名资源分布进行评估,针对访问量排名符合要求的域名资源,将IP地址对应为网外且访问无特殊端口的域名加入缓存白名单。
在上述两种方式中,如果出现某些域名不允许缓存,例如该域名中含有web动态资源。如果被缓存,将出现域名无法访问的情况,反而会更加影响访问质量,目前还没有提出一种有效地解决方案,对域名资源是否可以缓存进行判断。
发明内容
本发明提供了一种域名资源缓存方法及装置,可以有效对域名资源是否可以缓存进行判断。
一种域名资源缓存方法,包括在需要对域名进行缓存时,获得所述域名包含的资源类型;按照预先建立的资源模型,在确定出所述资源类型不符合设定规则时,不缓存所述域名。
按照下述方式预先建立资源模型:获得上网日志中的包含资源类型的统一资源定位符URL及对应的域名;对所述URL中的资源类型进行聚类,获得所述域名下的全部资源类型;将获得的全部资源类型和域名对应存储作为资源模型。
对所述URL中的资源类型进行聚类,获得所述域名下的全部资源类型,包括:将所述URL翻转;按照设定字母将翻转后的URL进行聚类;翻转聚类完成的URL,获得所述域名下的全部资源类型。
所述设定字母包含设定字母的数量、设定字母的组合。
所述预先建立的资源模型根据网上日志,按照设定时间进行更新。
一种域名资源缓存装置,包括:获得模块,用于在需要对域名进行缓存时,获得所述域名包含的资源类型;执行模块,用于按照预先建立的资源模型,在确定出所述资源类型不符合设定规则时,不缓存所述域名。
所述执行模块,具体用于按照下述方式预先建立资源模型:获得上网日志中的包含资源类型的统一资源定位符URL及对应的域名;对所述URL中的资源类型进行聚类,获得所述域名下的全部资源类型;将获得的全部资源类型和域名对应存储作为资源模型。
所述执行模块,具体用于将所述URL翻转;按照设定字母将翻转后的URL进行聚类;翻转聚类完成的URL,获得所述域名下的全部资源类型。
所述执行模块中的所述设定字母包含设定字母的数量、设定字母的组合。
所述执行模块预先建立的资源模型根据网上日志,按照设定时间进行更新。
通过采用上述技术方案,预先建立资源模型,在需要对域名进行缓存时,根据预先建立的资源模型进行评估,在确定出资源类型不符合设定规则时,不缓存所述域名,从而有效的实现对域名资源是否可以进行缓存进行判断。
附图说明
图1为本发明实施例中,提出的域名资源缓存方法流程图;
图2为本发明实施例中,提出的资源模型建立方法流程图;
图3为本发明实施例中,提出的域名资源缓存装置结构组成示意图。
具体实施方式
下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
本发明实施例提出了一种域名资源缓存方法,如图1所示,其具体处理流程如下述:
步骤10,对上网日志进行统计,预先建立资源模型。
如图2所示,建立资源模型的具体处理方式如下述:
步骤21,获得上网日志中的包含资源类型的URL及对应的域名。
步骤22,对URL中的资源类型进行聚类,获得域名下的全部资源类型。
将URL翻转,按照设定字母将翻转后的URL进行聚类,翻转聚类完成的URL,获得域名下的全部资源类型。
其中设定字母包含设定字母的数量、设定字母的组合。
步骤23,将获得的全部资源类型和域名对应存储作为资源模型。
举一实例进行详细阐述:
通信运营商会存有较多的用户上网日志,该些上网日志可以按照设定的时间进行存储。例如,按照每天的时间对存储的上网日志进行统计,每天可统计的上网日志达50亿条。在上网日志中,存储有详细的统一资源定位器(UniformResoure Locator,URL)。
其中URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
本发明实施例提出的技术方案中,通过存储的URL可实现对资源类型的定位,例如,某一URL为:
http://n.sinaimg.cn/auto/20151113/WqiG-fxkszhk0227314.jpg。
在上述URL中,n.sinaimg.cn为域名,WqiG-fxkszhk0227314.jpg显示该域名n.sinaimg.cn具有的资源类型为jpg类图片资源。
通过并行处理方式对存储的上网日志中的URL进行全量获取,具体实施方式为:
将存储的上网日志进行切片,分成小的存储区块,并转化为MR任务进行并行处理,提取全量包含资源类型信息的URL及相应域名。举一例进行详细阐述,假设获得的域名及对应的资源类型如下述:
www.sina.com.cn www.sina.com.cn/test/1.jpg
www.sina.com.cn www.sina.com.cn/test/2.css
www.sina.com.cn www.sina.com.cn/test/3.gif
www.sohu.com www.sohu.com/test/1.img
www.sohu.com www.sohu.com/test/3.gif
www.sohu.com www.sohu.com/test/2.jpg
在得到全量域名及相应资源类型信息数据后,需要对域名资源类型进行聚类。首先对URL进行反转,即将URL变换为:
gpj.1/tset/nc.moc.anis.www
ssc.2/tset/nc.moc.anis.www
fig.3/tset/nc.moc.anis.www
gmi.1/test/com.uhos.www
fig.3/test/com.uhos.www
gpj.2/test/com.uhos.www
在完成翻转后,以前三个字母进行排序并进行汇聚,汇聚完成后即可得到主域名下的全部资源类型。如:
www.sina.com.cn jpg css gif
www.sohu.com jpg img gif
将域名和域名资源对应存储,建立资源模型。
本发明实施例提出的技术方案中,URL中标识资源类型一般是URL的后三位,但由于URL并不规则,且数据量巨大,为了更好的对类型进行聚类,实现对资源类型的快速统计,通过将URL进行翻转之后再聚类,可以降低计算量,节省处理资源。
在本发明实施例提出的技术方案中,预先建立的资源模型根据网上日志,按照设定时间进行更新。例如可以每天计算一次进行动态更新。
步骤11,在需要对域名进行缓存时,获得域名包含的资源类型。
步骤12,按照预先建立的资源模型,在确定出资源类型不符合设定规则时,不缓存该域名。
例如,当有域名需要评估cache可缓存性时,从资源模型中提取相关域名资源类型,即可根据主域名包含的资源类型实现资源评估,例如发现域名具有css等资源类型,则不进行缓存。
相应地,本发明实施例还提出一种域名资源缓存装置,如图3所示,包括:
获得模块301,用于在需要对域名进行缓存时,获得所述域名包含的资源类型。
执行模块302,用于按照预先建立的资源模型,在确定出所述资源类型不符合设定规则时,不缓存所述域名。
具体地,上述执行模块302,具体用于按照下述方式预先建立资源模型:获得上网日志中的包含资源类型的统一资源定位符URL及对应的域名;对所述URL中的资源类型进行聚类,获得所述域名下的全部资源类型;将获得的全部资源类型和域名对应存储作为资源模型。
具体地,上述执行模块302,具体用于将所述URL翻转;按照设定字母将翻转后的URL进行聚类;翻转聚类完成的URL,获得所述域名下的全部资源类型。
具体地,上述执行模块302中的所述设定字母包含设定字母的数量、设定字母的组合。
具体地,上述执行模块302预先建立的资源模型根据网上日志,按照设定时间进行更新。
上述本发明实施例提出的域名资源缓存装置,其具体实施方式请参见上述方法实施例中的详细阐述,这里不再赘述。
针对通常情况下域名资源加入cache缓存方法,如果出现某些域名实际不允许缓存,比如该域名为加密访问,或域名中还有web动态资源,如果被缓存,将出现域名无法访问的情况,反而会更加影响访问质量,本发明实施例上述提出的技术方案中,可以有效规避以上问题,提高cache缓存的有效性和准确性,从而有效提升互联网访问质量。
其次,本发明实施例上述提出的技术方案中,根据海量上网日志数据进行域名动态全量资源模型的建立,充分利用运营商客户多、上网日志量大的特点,实现对域名资源的近似全量抽样。
再次,上网日志每天都会产生,从而可以实现对域名全量资源模型的动态刷新,实时跟踪域名资源类型状态。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种域名资源缓存方法,其特征在于,包括:
在需要对域名进行缓存时,获得所述域名包含的资源类型;
按照预先建立的资源模型,在确定出所述资源类型不符合设定规则时,不缓存所述域名。
2.如权利要求1所述的方法,其特征在于,按照下述方式预先建立资源模型:
获得上网日志中的包含资源类型的统一资源定位符URL及对应的域名;
对所述URL中的资源类型进行聚类,获得所述域名下的全部资源类型;
将获得的全部资源类型和域名对应存储作为资源模型。
3.如权利要求2所述的方法,其特征在于,对所述URL中的资源类型进行聚类,获得所述域名下的全部资源类型,包括:
将所述URL翻转;
按照设定字母将翻转后的URL进行聚类;
翻转聚类完成的URL,获得所述域名下的全部资源类型。
4.如权利要求3所述的方法,其特征在于,所述设定字母包含设定字母的数量、设定字母的组合。
5.如权利要求1~4任一所述的方法,其特征在于,所述预先建立的资源模型根据网上日志,按照设定时间进行更新。
6.一种域名资源缓存装置,其特征在于,包括:
获得模块,用于在需要对域名进行缓存时,获得所述域名包含的资源类型;
执行模块,用于按照预先建立的资源模型,在确定出所述资源类型不符合设定规则时,不缓存所述域名。
7.如权利要求6所述的装置,其特征在于,所述执行模块,具体用于按照下述方式预先建立资源模型:获得上网日志中的包含资源类型的统一资源定位符URL及对应的域名;对所述URL中的资源类型进行聚类,获得所述域名下的全部资源类型;将获得的全部资源类型和域名对应存储作为资源模型。
8.如权利要求7所述的装置,其特征在于,所述执行模块,具体用于将所述URL翻转;按照设定字母将翻转后的URL进行聚类;翻转聚类完成的URL,获得所述域名下的全部资源类型。
9.如权利要求8所述的装置,其特征在于,所述执行模块中的所述设定字母包含设定字母的数量、设定字母的组合。
10.如权利要求6~9任一所述的装置,其特征在于,所述执行模块预先建立的资源模型根据网上日志,按照设定时间进行更新。
CN201610124951.9A 2016-03-04 2016-03-04 一种域名资源缓存方法及装置 Active CN107153663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610124951.9A CN107153663B (zh) 2016-03-04 2016-03-04 一种域名资源缓存方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610124951.9A CN107153663B (zh) 2016-03-04 2016-03-04 一种域名资源缓存方法及装置

Publications (2)

Publication Number Publication Date
CN107153663A true CN107153663A (zh) 2017-09-12
CN107153663B CN107153663B (zh) 2019-10-29

Family

ID=59792318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610124951.9A Active CN107153663B (zh) 2016-03-04 2016-03-04 一种域名资源缓存方法及装置

Country Status (1)

Country Link
CN (1) CN107153663B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109586937A (zh) * 2017-09-28 2019-04-05 中兴通讯股份有限公司 一种缓存系统的运维方法、设备和存储介质
CN110677270A (zh) * 2018-07-03 2020-01-10 长春亿阳计算机开发有限公司 一种域名的可缓存性分析方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477535A (zh) * 2008-12-30 2009-07-08 华为技术有限公司 网页页面的显示方法、请求的处理方法、装置和系统
CN101656985A (zh) * 2009-08-18 2010-02-24 中兴通讯股份有限公司 一种管理url资源缓存的方法和装置
CN101764829A (zh) * 2008-11-13 2010-06-30 北京搜狗科技发展有限公司 浏览器获得网络资源的方法及浏览器
CN103347092A (zh) * 2013-07-22 2013-10-09 星云融创(北京)信息技术有限公司 一种识别缓存文件的方法及装置
CN103825919A (zh) * 2012-11-16 2014-05-28 中国移动通信集团北京有限公司 一种缓存数据资源的方法、装置及系统
CN103838839A (zh) * 2011-09-26 2014-06-04 北京奇虎科技有限公司 一种ie内核浏览器的页面下载控制方法和系统
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
CN105160009A (zh) * 2015-09-22 2015-12-16 小米科技有限责任公司 资源下载方法和装置
US20160062903A1 (en) * 2014-08-29 2016-03-03 International Business Machines Corporation Method and system for cache management

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764829A (zh) * 2008-11-13 2010-06-30 北京搜狗科技发展有限公司 浏览器获得网络资源的方法及浏览器
CN101477535A (zh) * 2008-12-30 2009-07-08 华为技术有限公司 网页页面的显示方法、请求的处理方法、装置和系统
CN101656985A (zh) * 2009-08-18 2010-02-24 中兴通讯股份有限公司 一种管理url资源缓存的方法和装置
CN103838839A (zh) * 2011-09-26 2014-06-04 北京奇虎科技有限公司 一种ie内核浏览器的页面下载控制方法和系统
CN103825919A (zh) * 2012-11-16 2014-05-28 中国移动通信集团北京有限公司 一种缓存数据资源的方法、装置及系统
CN103347092A (zh) * 2013-07-22 2013-10-09 星云融创(北京)信息技术有限公司 一种识别缓存文件的方法及装置
US20160062903A1 (en) * 2014-08-29 2016-03-03 International Business Machines Corporation Method and system for cache management
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
CN105160009A (zh) * 2015-09-22 2015-12-16 小米科技有限责任公司 资源下载方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109586937A (zh) * 2017-09-28 2019-04-05 中兴通讯股份有限公司 一种缓存系统的运维方法、设备和存储介质
CN109586937B (zh) * 2017-09-28 2022-03-15 中兴通讯股份有限公司 一种缓存系统的运维方法、设备和存储介质
CN110677270A (zh) * 2018-07-03 2020-01-10 长春亿阳计算机开发有限公司 一种域名的可缓存性分析方法及系统
CN110677270B (zh) * 2018-07-03 2023-02-28 长春亿阳计算机开发有限公司 一种域名的可缓存性分析方法及系统

Also Published As

Publication number Publication date
CN107153663B (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN104391868B (zh) 动态页面静态化的装置和方法
CN107391142A (zh) 一种应用拆分的方法及装置
CN109309596B (zh) 一种压力测试方法、装置及服务器
SG171452A1 (en) Method and apparatus for displaying feeds content of contact and processing apparatus and system thereof
CN103713935B (zh) 一种在线管理Hadoop集群资源的方法和装置
CN108683560A (zh) 一种大数据流处理框架的性能基准测试系统及方法
CN103312817B (zh) 一种wap环境下主动式信息供给方法
CN110321273A (zh) 一种业务统计方法及装置
CN106209512A (zh) 一种上报用户行为数据的方法及装置
JP6546192B2 (ja) 帯域幅依存のファイル転送のための方法及びシステム
CN105759938B (zh) 移动终端的节能方法和设备
US9292454B2 (en) Data caching policy in multiple tenant enterprise resource planning system
CN109840298A (zh) 大规模网络数据的多信息来源采集方法和系统
SUYANTO et al. Sources of productivity gains from FDI in Indonesia: is it efficiency improvement or technological progress?
CN102662859B (zh) 一种基于服务等级的数据缓存的系统和方法
CN107153663A (zh) 一种域名资源缓存方法及装置
CN106559281A (zh) 生成应用特征库的方法和装置、虚拟机、及终端
CN116629805B (zh) 一种分布式流批一体化的水利指标服务方法、设备及介质
CN106406842A (zh) 一种网页上柱状图的显示方法和系统
CN107483565A (zh) 一种服务后台识别方法、代理服务器及计算机存储介质
CN107480189A (zh) 一种多维度实时分析系统及方法
CN103678312A (zh) 一种推荐网址的方法与客户端
CN116226250A (zh) 针对发电领域海量时序数据管理的汇聚式管理方法及系统
CN105471962A (zh) 一种网络资源的访问控制方法、系统、以及一种基站
Ciobanu et al. Development of a News Recommender System based on Apache Flink.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant