CN110413846B - 用于网页镜像的数据处理方法、装置及计算机可读存储介质 - Google Patents

用于网页镜像的数据处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110413846B
CN110413846B CN201910692247.7A CN201910692247A CN110413846B CN 110413846 B CN110413846 B CN 110413846B CN 201910692247 A CN201910692247 A CN 201910692247A CN 110413846 B CN110413846 B CN 110413846B
Authority
CN
China
Prior art keywords
url
http request
processing
target server
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910692247.7A
Other languages
English (en)
Other versions
CN110413846A (zh
Inventor
林辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Lan Bridge Information Technology Co ltd
Original Assignee
Digital Translation Chengdu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Translation Chengdu Information Technology Co ltd filed Critical Digital Translation Chengdu Information Technology Co ltd
Priority to CN201910692247.7A priority Critical patent/CN110413846B/zh
Publication of CN110413846A publication Critical patent/CN110413846A/zh
Application granted granted Critical
Publication of CN110413846B publication Critical patent/CN110413846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Abstract

本申请公开了一种用于网页镜像的数据处理方法、装置及计算机可读存储介质。该方法包括:在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求;按照预设规则处理所述HTTP请求中的URL;将所述URL的处理结果存储至预设数据库,所述预设数据库用于存储所述URL的处理结果和由目标服务器返回的响应信息。本申请解决了相关技术中数据存储方法无法根据用户的需求进行配置的技术问题。通过上述方法,本申请实现了高效的、灵活的对数据进行存储的技术效果。

Description

用于网页镜像的数据处理方法、装置及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种用于网页镜像的数据处理方法、装置及计算机可读存储介质。
背景技术
随着互联网技术的不断发展,用户对互联网的依赖已经不再局限于浏览网页、看视频或者聊天。越来越多的用户不断的从网站中挖掘信息,分析信息。相关技术中用于存储信息的工具,比如像网络爬虫,数据采集器等,都是为了帮助用户存储信息,尤其是在一些特定的生产环境中,对源数据的保存和利用更加的重要。在计算机技术领域、公安领域、国家安全领域、知识产权领域等多个方面,源数据的存储都是必不可少的。
相关技术中通过镜像技术进行数据存储或备份的方法至少存在以下问题:只能对整个网站进行镜像处理,无法做到数据存储的自动化和可配置化。
针对相关技术中数据存储方法无法根据用户的需求进行配置的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种用于网页镜像的数据处理方法、装置及计算机可读存储介质,以解决相关技术中数据存储方法无法根据用户的需求进行配置的问题。
为了实现上述目的,根据本申请的第一方面,提供了一种用于网页镜像的数据处理方法。
根据本申请的用于网页镜像的数据处理方法包括:在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求;按照预设规则处理所述HTTP请求中的URL;将所述URL的处理结果存储至预设数据库,所述预设数据库用于存储所述URL的处理结果和由目标服务器返回的响应信息。
进一步地,在服务容器处理接收到的HTTP请求之前还包括:在所述终端配置DNS域名系统,用于解析所述终端的HTTP请求。
进一步地,在服务容器处理接收到的HTTP请求包括:拦截所述终端的所述HTTP请求;将所述终端的所述HTTP请求发送至所述目标服务器;处理所述目标服务器返回的HTTP响应。
进一步地,按照预设规则处理所述HTTP请求中的URL包括:删除所述URL中的禁止缓存标识符;存储所述目标服务器返回的响应信息和删除了所述禁止缓存标识符后的所述URL。
进一步地,按照预设规则处理所述HTTP请求中的URL还包括:按照预设规则处理所述HTTP请求中的图片URL、层叠样式表URL、Javascript URL、流媒体文件URL中的任意一种或多种。
进一步地,将URL处理结果存储至预设数据库包括:将处理后的所述HTTP请求中的URL设置为存储的主键;根据所述主键将处理后的所述HTTP请求中的URL和所述目标服务器返回的响应信息存储至数据库。
为了实现上述目的,根据本申请的第二方面,提供了一种用于网页镜像的数据处理装置。
根据本申请的用于网页镜像的数据处理装置包括:第一处理单元,用于在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求;第二处理单元,用于按照预设规则处理所述HTTP请求中的URL;存储单元,用于将所述URL的处理结果存储至预设数据库,其中所述预设数据库中用于存储所述URL和由目标服务器返回的响应信息。
进一步地,还包括:配置单元,用于在终端配置DNS域名系统,用于解析所述终端的HTTP请求。
进一步地,所述第一处理单元包括:拦截模块,用于拦截所述终端的所述HTTP请求;发送模块,用于将所述终端的所述HTTP请求发送至所述目标服务器;处理模块,用于处理所述目标服务器返回的HTTP响应。
为了实现上述目的,根据本申请的第三方面,提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如上所述方法的步骤。
在本申请实施例中,采用在服务容器处理接收到的HTTP请求,按照预设规则处理所述HTTP请求中的URL的方式,通过将URL的处理结果存储至预设数据库,达到了根据用户的需求对数据存储进行配置的目的,从而实现了高效的、灵活的对数据进行存储的技术效果,进而解决了相关技术中数据存储方法无法根据用户的需求进行配置的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的用于网页镜像的数据处理方法的流程示意图;
图2是根据本申请第二实施例的用于网页镜像的数据处理方法的流程示意图;
图3是根据本申请第三实施例的用于网页镜像的数据处理方法的流程示意图;
图4是根据本申请第四实施例的用于网页镜像的数据处理方法的流程示意图;
图5是根据本申请第一实施例的用于网页镜像的数据处理装置的组成结构示意图;
图6是根据本申请第二实施例的用于网页镜像的数据处理装置的组成结构示意图;
图7是根据本申请第三实施例的用于网页镜像的数据处理装置的组成结构示意图;以及
图8是根据本申请第四实施例的用于网页镜像的数据处理装置的组成结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种用于网页镜像的数据处理方法,如图1所示,该方法包括如下的步骤S101至步骤S103:
步骤S101,在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求。
本申请实施例中利用缓存技术,在客户端与目标服务器之间搭建了代理服务器。一般情况下,用户都是对目标服务器直接访问,当在用户与目标服务器之间有代理服务器的时候,请求首先到达代理服务器,再由代理服务器请求目标服务器,同时,请求结果也由代理服务器保存,并返回给用户。本申请实施例中的代理服务器的主要构成部分之一就是服务容器,一般的服务容器是无法实现或者说很难实现上述的功能的,因此本申请实施例优选使用具有反向代理功能的服务容器(例如Nginx及其衍生产品等),主要用于处理接收到的从终端发起的HTTP请求等。
步骤S102,按照预设规则处理所述HTTP请求中的URL。
由上述的服务容器拦截下来的HTTP请求需要经过开发程序进行处理,因此配置能够操作内存的开发程序是构成上述代理服务器的第二个重要组成部分。具体实施时,按照一定的预设规则处理所述HTTP请求中的URL,所述预设规则可以是删除URL的禁止缓存标识符、存储目标服务器返回信息和存储删除了禁止缓存标识符的URL等。删除禁止缓存标识符的目的是让URL失去唯一性,使之再次请求时,本申请实施例配置的代理服务器仍能够识别到。存储URL的目的是为了提供请求标识,达到系统的唯一性和可用性。
步骤S103,将所述URL的处理结果存储至预设数据库,所述预设数据库用于存储所述URL的处理结果和由目标服务器返回的响应信息。
预设数据库是构成上述代理服务器的第三个重要组成部分,用于存储URL和目标服务器返回的响应信息。由于目标服务器返回的响应信息是非结构化的文本型数据,所以本申请实施例的数据库需要依靠文本型数据库(MongoDB)进行数据存储,并且优选以处理好的URL为基础的字符串作为主键存储。
优选地,如图1所示,在服务容器处理接收到的HTTP请求之前还包括如下步骤S100:
步骤S100:在所述终端配置DNS域名系统,用于解析所述终端的HTTP请求。
具体实施时,通过在终端配置DNS域名系统,能够让终端的HTTP请求通过DNS的解析后,全部到达代理服务器,而不是直接请求目标服务器。
优选地,如图2所示,在服务容器处理接收到的HTTP请求包括如下步骤S201至步骤S203:
步骤S201,拦截所述终端的所述HTTP请求。
具体实施时,当终端发出HTTP请求后,DNS域名系统会对该HTTP请求进行解析,这时代理服务器中的服务容器即可接收并拦截终端发出的HTTP请求。
步骤S202,将所述终端的所述HTTP请求发送至所述目标服务器。
具体实施时,代理服务器中的服务容器在拦截下终端的HTTP请求后,对HTTP请求进行处理后发送至目标服务器,也即服务容器通过处理所有对目标服务器的请求,阻止了目标服务器和终端之间的直接通信,降低了目标服务器的运行负载。
步骤S203,处理所述目标服务器返回的HTTP响应。
具体实施时,在服务容器将HTTP请求发送至所述目标服务器后,目标服务器会根据HTTP请求的内容返回与请求相对应的响应信息,服务容器在接收到目标服务器返回的HTTP响应信息后会进行一系列的处理。
优选地,如图3所示,按照预设规则处理所述HTTP请求中的URL包括如下步骤S301至步骤S302:
步骤S301,删除所述URL中的禁止缓存标识符。
具体实施时,处理终端发送的HTTP请求中的URL信息具体包括删除URL中的禁止缓存标识符。例如,一些浏览器为了增强用户体验,一般会把网页上所需的静态文件缓存到本地,再次刷新的时候则无需再重新加载,但是有些时候可能不需要浏览器缓存这些文件,而是每次都从服务器端重新读取数据,这时就会在对应的URL中设置禁止缓存的标识符,禁止缓存标识符的使用就使得每次请求的页面都是在服务器动态生成的。因此,为了降低目标服务器的运行负载,在进行数据存储或者数据备份之前,需要删除URL中的禁止缓存标识符,进而使URL失去唯一性,使之再次请求时,本申请实施例配置的代理服务器仍能够识别到。
步骤S302,存储所述目标服务器返回的响应信息和删除了所述禁止缓存标识符后的所述URL。
具体实施时,将上述删除了禁止缓存标识符后的URL以及目标服务器返回的响应信息均进行存储,存储URL的目的是为了提供请求标识,达到系统的唯一性和可用性。例如,当用户再次发次对同一URL的请求信息时,此时无需再通过目标服务器调取并加载该URL对应的内容,只需通过存储在代理服务器的URL信息获取与之对应的内容。
优选地,按照预设规则处理所述HTTP请求中的URL还包括如下步骤S401:
步骤S401,按照预设规则处理所述HTTP请求中的图片URL、层叠样式表URL、Javascript URL、流媒体文件URL中的任意一种或多种。
具体实施时,上述URL并非只是终端请求的URL,还包括满足终端所有请求的URL,例如图片URL、层叠样式表(CSS)URL、Javascript(JS)URL、流媒体文件URL等。
优选地,如图4所示,将URL处理结果存储至预设数据库包括如下步骤S501至步骤S502:
步骤S501,将处理后的所述HTTP请求中的URL设置为存储的主键。
具体实施时,代理服务器中的开发程序需要操作数据库和内存,接收到目标服务器返回的响应信息,然后存储在数据库中,而存储的主键就是处理好的URL。
步骤S502,根据所述主键将处理后的所述HTTP请求中的URL和所述目标服务器返回的响应信息存储至数据库。
具体实施时,因为目标服务器返回的响应信息是非结构化的文本型数据,所以本申请实施例的数据库需要依靠文本型数据库(MongoDB)进行存储,并且以处理好的URL为基础的字符串为主键将处理后的HTTP请求中的URL和目标服务器返回的响应信息同时进行存储。
作为本申请实施例的优选实施方式,上述用于网页镜像的数据处理方法的应用场景可以包括:(1)指定网站克隆:比如用户对www.example.com网站比较感兴趣,认为这个网站有研究价值和保存价值,就可以指定该网站,进行指定网站的数据存储或备份。(2)某些网站的指定内容克隆:例如在科研活动或者实际生产中,很多时候对某一类内容比较关心,如娱乐新闻、体育新闻等,这时就可以根据实际的需求对指定内容提起请求。(3)全网克隆:在某些特定场景下,如教育教学工作中,需要全面的大范围的克隆网站,那么就可以运用上述方法进行全网无条件克隆。(4)多网交叉克隆:在某些领域,可能只关心部分网站,那么就可以指定某些网站进行多网交叉克隆。(5)按用户或群体克隆:在某些监控领域,可以指定单个IP地址进行上网行为克隆,对该IP地址进行有效的监控(6)按出口克隆:在某些特殊部门,如果要对某个组织进行行为监控或者行为分析,可以对该组织进行网络出口克隆,来克隆该组织的整个上网行为。
本申请实施例中,采用在服务容器处理接收到的HTTP请求,按照预设规则处理所述HTTP请求中的URL的方式,通过将URL的处理结果存储至预设数据库,达到了根据用户的需求对数据存储进行配置的目的,解决了相关技术中数据存储方法无法根据用户的需求进行配置的技术问题,实现了如下技术效果:(1)以云服务的形式提供给用户,避免了传统应用繁琐的安装;(2)针对性的配置,根据用户的需求实现智能的配置;(3)使用缓存技术和URL处理技术,使传统应用同样能够适应现代网络技术的发展。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述用于网页镜像的数据处理方法的数据处理装置,如图5所示,该装置包括:第一处理单元1、第二处理单元2以及存储单元3。
本实施例中的第一处理单元1,用于在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求。
本申请实施例中利用缓存技术,在客户端与目标服务器之间搭建了代理服务器。一般情况下,用户都是对目标服务器直接访问,当在用户与目标服务器之间有代理服务器的时候,请求首先到达代理服务器,再由代理服务器请求目标服务器,同时,请求结果也由代理服务器保存,并返回给用户。代理服务器的主要构成部分之一就是服务容器,一般的服务容器是无法实现或者说很难实现上述的功能的,因此本申请实施例优选使用具有反向代理功能的服务容器(例如Nginx及其衍生产品等),主要用于通过第一处理单元1处理接收到的从终端发起的HTTP请求等。
本实施例中的第二处理单元2,用于按照预设规则处理所述HTTP请求中的URL。
由上述的服务容器拦截下来的HTTP请求需要经过开发程序进行处理,因此配置能够操作内存的开发程序是构成上述代理服务器的第二个重要组成部分。具体实施时,通过第二处理单元2按照一定的预设规则处理所述HTTP请求中的URL,所述预设规则可以是删除URL的禁止缓存标识符、存储目标服务器返回信息和存储删除了禁止缓存标识符的URL等。删除禁止缓存标识符的目的是让URL失去唯一性,使之再次请求时,本申请实施例配置的代理服务器仍能够识别到。存储URL的目的是为了提供请求标识,达到系统的唯一性和可用性。
本实施例中的存储单元3,用于将所述URL的处理结果存储至预设数据库,其中所述预设数据库中用于存储所述URL和由目标服务器返回的响应信息。
预设数据库是构成上述代理服务器的第三个重要组成部分,用于通过存储单元3存储URL和目标服务器返回的响应信息。由于目标服务器返回的响应信息是非结构化的文本型数据,所以本申请实施例的数据库需要依靠文本型数据库(MongoDB)进行数据存储,并且优选以处理好的URL为基础的字符串作为主键存储。
优选地,如图5所示,该装置还包括:配置单元4。
本实施例中的配置单元4,用于在终端配置DNS域名系统,用于解析所述终端的HTTP请求。
具体实施时,通过配置单元4在终端配置DNS域名系统,能够让终端的HTTP请求通过DNS的解析后,全部到达代理服务器,而不是直接请求目标服务器。
优选地,如图6所示,所述第一处理单元1包括:拦截模块11、发送模块12以及处理模块13。
本实施例中的拦截模块11,用于拦截所述终端的所述HTTP请求。
具体实施时,当终端发出HTTP请求后,DNS域名系统会对该HTTP请求进行解析,这时代理服务器中的服务容器通过拦截模块11即可接收并拦截终端发出的HTTP请求。
本实施例中的发送模块12,用于将所述终端的所述HTTP请求发送至所述目标服务器。
具体实施时,代理服务器中的服务容器在拦截下终端的HTTP请求后,通过发送模块12对HTTP请求进行处理后发送至目标服务器,也即服务容器通过处理所有对目标服务器的请求,阻止了目标服务器和终端之间的直接通信,降低了目标服务器的运行负载。
本实施例中的处理模块13,用于处理所述目标服务器返回的HTTP响应。
具体实施时,在服务容器将HTTP请求发送至所述目标服务器后,目标服务器会根据HTTP请求的内容返回与请求相对应的响应信息,服务容器在接收到目标服务器返回的HTTP响应信息后会通过处理模块13进行一系列的处理。
优选地,如图7所示,所述第二处理单元2包括:删除模块21以及第一存储模块22。
本实施例中的删除模块21,用于删除所述URL中的禁止缓存标识符。
具体实施时,第二处理单元处理终端发送的HTTP请求中的URL信息具体包括通过删除模块21删除URL中的禁止缓存标识符。例如,一些浏览器为了增强用户体验,一般都会把网页上所需的静态文件缓存到本地,再次刷新的时候则无需再重新加载,但是有些时候可能不需要浏览器缓存这些文件,而是每次都从服务器端重新读取数据,这时就会在对应的URL中设置禁止缓存的标识符,禁止缓存标识符的使用就使得每次请求的页面都是在服务器动态生成的。因此,为了降低目标服务器的运行负载,在进行数据存储或者数据备份之前,需要删除URL中的禁止缓存标识符,进而使URL失去唯一性,使之再次请求时,本申请实施例配置的代理服务器仍能够识别到。
本实施例中的第一存储模块22,用于存储所述目标服务器返回的响应信息和删除了所述禁止缓存标识符后的所述URL。
具体实施时,将上述删除了禁止缓存标识符后的URL以及目标服务器返回的响应信息均通过第一存储模块22进行存储,存储URL的目的是为了提供请求标识,达到系统的唯一性和可用性。例如,当用户再次发次对同一URL的请求信息时,此时无需再通过目标服务器调取并加载该URL对应的内容,只需通过存储在代理服务器的URL信息获取与之对应的内容。
优选地,所述第二处理单元2还被配置为:
按照预设规则处理所述HTTP请求中的图片URL、层叠样式表URL、Javascript URL、流媒体文件URL中的任意一种或多种。
具体实施时,上述URL并非只是终端请求的URL,还包括满足终端所有请求的URL,例如图片URL、层叠样式表(CSS)URL、Javascript(JS)URL、流媒体文件URL等。
优选地,如图8所示,所述存储单元3包括:设置模块31以及第二存储模块32。
本实施例中的设置模块31,用于将处理后的所述HTTP请求中的URL设置为存储的主键。
具体实施时,代理服务器中的开发程序需要操作数据库和内存,接收到目标服务器返回的响应信息,然后存储在数据库中,而存储的主键就是处理好的URL,具体地通过设置模块31将处理后的所述HTTP请求中的URL设置为存储的主键。
本实施例中的第二存储模块32,用于根据所述主键将处理后的所述HTTP请求中的URL和所述目标服务器返回的响应信息存储至数据库。
具体实施时,因为目标服务器返回的响应信息是非结构化的文本型数据,所以本申请实施例的数据库需要依靠文本型数据库(MongoDB)进行存储,并且以处理好的URL为基础的字符串为主键将处理后的HTTP请求中的URL和目标服务器返回的响应信息通过第二存储模块32同时进行存储。
根据本发明实施例,还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如上所述方法的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种用于网页镜像的数据处理方法,其特征在于,用于代理服务器,所述代理服务器是利用缓存技术在客户端与目标服务器之间搭建的,所述方法包括:
在具有反向代理功能的服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求;
按照预设规则处理所述HTTP请求中的URL;
将所述URL的处理结果存储至预设数据库,所述预设数据库用于存储所述URL的处理结果和由目标服务器返回的响应信息,所述预设数据库依靠文本型数据库进行数据存储;
按照预设规则处理所述HTTP请求中的URL包括:
删除所述URL中的禁止缓存标识符;
存储所述目标服务器返回的响应信息和删除了所述禁止缓存标识符后的所述URL。
2.根据权利要求1所述的用于网页镜像的数据处理方法,其特征在于,在服务容器处理接收到的HTTP请求之前还包括:
在所述终端配置DNS域名系统,用于解析所述终端的HTTP请求。
3.根据权利要求1所述的用于网页镜像的数据处理方法,其特征在于,在服务容器处理接收到的HTTP请求包括:
拦截所述终端的所述HTTP请求;
将所述终端的所述HTTP请求发送至所述目标服务器;
处理所述目标服务器返回的HTTP响应。
4.根据权利要求1所述的用于网页镜像的数据处理方法,其特征在于,按照预设规则处理所述HTTP请求中的URL还包括:按照预设规则处理所述HTTP请求中的图片URL、层叠样式表URL、Javascript URL、流媒体文件URL中的任意一种或多种。
5.根据权利要求1所述的用于网页镜像的数据处理方法,其特征在于,将URL处理结果存储至预设数据库包括:
将处理后的所述HTTP请求中的URL设置为存储的主键;
根据所述主键将处理后的所述HTTP请求中的URL和所述目标服务器返回的响应信息存储至数据库。
6.一种用于网页镜像的数据处理装置,其特征在于,用于代理服务器,所述代理服务器是利用缓存技术在客户端与目标服务器之间搭建的,包括:
第一处理单元,用于在具有反向代理功能的服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求;
第二处理单元,用于按照预设规则处理所述HTTP请求中的URL;
存储单元,用于将所述URL的处理结果存储至预设数据库,其中所述预设数据库中用于存储所述URL和由目标服务器返回的响应信息,所述预设数据库依靠文本型数据库进行数据存储;
按照预设规则处理所述HTTP请求中的URL包括:
删除所述URL中的禁止缓存标识符;
存储所述目标服务器返回的响应信息和删除了所述禁止缓存标识符后的所述URL。
7.根据权利要求6所述的用于网页镜像的数据处理装置,其特征在于,还包括:
配置单元,用于在终端配置DNS域名系统,用于解析所述终端的HTTP请求。
8.根据权利要求6所述的用于网页镜像的数据处理装置,其特征在于,所述第一处理单元包括:
拦截模块,用于拦截所述终端的所述HTTP请求;
发送模块,用于将所述终端的所述HTTP请求发送至所述目标服务器;
处理模块,用于处理所述目标服务器返回的HTTP响应。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现如权利要求1-5中任一项所述方法的步骤。
CN201910692247.7A 2019-07-29 2019-07-29 用于网页镜像的数据处理方法、装置及计算机可读存储介质 Active CN110413846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910692247.7A CN110413846B (zh) 2019-07-29 2019-07-29 用于网页镜像的数据处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910692247.7A CN110413846B (zh) 2019-07-29 2019-07-29 用于网页镜像的数据处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110413846A CN110413846A (zh) 2019-11-05
CN110413846B true CN110413846B (zh) 2022-05-20

Family

ID=68364045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910692247.7A Active CN110413846B (zh) 2019-07-29 2019-07-29 用于网页镜像的数据处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110413846B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111176655A (zh) * 2019-12-09 2020-05-19 国电南瑞科技股份有限公司 一种Web应用封装方法、存储介质及计算设备
CN111586201A (zh) * 2020-04-30 2020-08-25 苏州亿歌网络科技有限公司 域名解析系统、方法、设备及存储介质
CN111741100A (zh) * 2020-06-17 2020-10-02 北京三快在线科技有限公司 电子票据的核销方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102694772A (zh) * 2011-03-23 2012-09-26 腾讯科技(深圳)有限公司 一种访问互联网网页的装置、系统及方法
CN103248684A (zh) * 2013-04-28 2013-08-14 北京奇虎科技有限公司 一种互联网中资源获取方法和装置
CN107105050A (zh) * 2017-05-11 2017-08-29 北京奇艺世纪科技有限公司 一种业务对象的存储、下载方法及系统
CN109194749A (zh) * 2018-09-11 2019-01-11 福建天泉教育科技有限公司 监听网络请求的方法、存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170479B (zh) * 2011-05-21 2013-12-18 华为数字技术(成都)有限公司 Web缓存的更新方法及Web缓存的更新装置
KR101953942B1 (ko) * 2011-11-11 2019-03-04 모보파일스 인코포레이티드 디비에이 모보라이즈 전용 캐시 관리 시스템 및 방법
JP5783152B2 (ja) * 2012-09-13 2015-09-24 コニカミノルタ株式会社 ブラウザー装置、ブラウザープログラム、ブラウザーシステム及び画像形成装置
US9319346B2 (en) * 2014-05-13 2016-04-19 Opera Software Asa Web access performance enhancement
CN105701233B (zh) * 2016-02-18 2018-12-14 南京焦点领动云计算技术有限公司 一种优化服务器缓存管理的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102694772A (zh) * 2011-03-23 2012-09-26 腾讯科技(深圳)有限公司 一种访问互联网网页的装置、系统及方法
CN103248684A (zh) * 2013-04-28 2013-08-14 北京奇虎科技有限公司 一种互联网中资源获取方法和装置
CN107105050A (zh) * 2017-05-11 2017-08-29 北京奇艺世纪科技有限公司 一种业务对象的存储、下载方法及系统
CN109194749A (zh) * 2018-09-11 2019-01-11 福建天泉教育科技有限公司 监听网络请求的方法、存储介质

Also Published As

Publication number Publication date
CN110413846A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110263275B (zh) 一种访问网页的方法、装置、移动终端和存储介质
CN105930528B (zh) 一种网页缓存的方法及服务器
CN107341160B (zh) 一种拦截爬虫的方法及装置
US8527862B2 (en) Methods for making ajax web applications bookmarkable and crawlable and devices thereof
CN110413846B (zh) 用于网页镜像的数据处理方法、装置及计算机可读存储介质
US9549038B1 (en) Cacheable resource location selection
EP2985705A2 (en) Webpage access method and apparatus, and router
US9588854B2 (en) Systems and methods for a secondary website with mirrored content for automatic failover
EP3170091B1 (en) Method and server of remote information query
US10645192B2 (en) Identifying content files in a cache using a response-based cache index
US9723053B1 (en) Pre-fetching a cacheable network resource based on a time-to-live value
CN106534268B (zh) 一种数据共享方法及装置
CN112513830A (zh) 内容分发网络中的回源方法及相关装置
US10652344B2 (en) Method for privacy protection
CN106776917B (zh) 一种获取资源文件的方法和装置
CN104618388A (zh) 快速注册登录方法及对应的重置服务器、信息服务器
CN103118033A (zh) 一种防御用户网站被篡改的方法及装置
EP3579526B1 (en) Resource file feedback method and apparatus
CN103905477A (zh) 一种处理http请求的方法及服务器
US20220279033A1 (en) Restore url context for proxies
CN108108381B (zh) 页面的监测方法及装置
CN104346228A (zh) 共享应用程序的方法及终端
US9634935B2 (en) Method, name server, and system for directing network traffic utilizing profile records
US10880396B2 (en) Pre-fetching random-value resource locators
CN111190664A (zh) 一种生成页面的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220628

Address after: 610096 No. 801, 802 and 803, unit 1, building 1, No. 1288, north section of Tianfu Avenue, Chengdu high tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan Province

Patentee after: SICHUAN LAN-BRIDGE INFORMATION TECHNOLOGY CO.,LTD.

Address before: No.1, 3rd floor, building 1, No.366, north section of Hupan Road, Tianfu New District, Chengdu, Sichuan 610000

Patentee before: Digital Translation (Chengdu) Information Technology Co.,Ltd.

TR01 Transfer of patent right