CN110413846A - 用于网页镜像的数据处理方法、装置及计算机可读存储介质 - Google Patents

用于网页镜像的数据处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110413846A
CN110413846A CN201910692247.7A CN201910692247A CN110413846A CN 110413846 A CN110413846 A CN 110413846A CN 201910692247 A CN201910692247 A CN 201910692247A CN 110413846 A CN110413846 A CN 110413846A
Authority
CN
China
Prior art keywords
url
http request
terminal
webpage
mirror image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910692247.7A
Other languages
English (en)
Other versions
CN110413846B (zh
Inventor
林辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Lan Bridge Information Technology Co ltd
Original Assignee
Digital Translation (chengdu) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Translation (chengdu) Information Technology Co Ltd filed Critical Digital Translation (chengdu) Information Technology Co Ltd
Priority to CN201910692247.7A priority Critical patent/CN110413846B/zh
Publication of CN110413846A publication Critical patent/CN110413846A/zh
Application granted granted Critical
Publication of CN110413846B publication Critical patent/CN110413846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种用于网页镜像的数据处理方法、装置及计算机可读存储介质。该方法包括:在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求;按照预设规则处理所述HTTP请求中的URL;将所述URL的处理结果存储至预设数据库,所述预设数据库用于存储所述URL的处理结果和由目标服务器返回的响应信息。本申请解决了相关技术中数据存储方法无法根据用户的需求进行配置的技术问题。通过上述方法,本申请实现了高效的、灵活的对数据进行存储的技术效果。

Description

用于网页镜像的数据处理方法、装置及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种用于网页镜像的数据处理方法、装置及计算机可读存储介质。
背景技术
随着互联网技术的不断发展,用户对互联网的依赖已经不再局限于浏览网页、看视频或者聊天。越来越多的用户不断的从网站中挖掘信息,分析信息。相关技术中用于存储信息的工具,比如像网络爬虫,数据采集器等,都是为了帮助用户存储信息,尤其是在一些特定的生产环境中,对源数据的保存和利用更加的重要。在计算机技术领域、公安领域、国家安全领域、知识产权领域等多个方面,源数据的存储都是必不可少的。
相关技术中通过镜像技术进行数据存储或备份的方法至少存在以下问题:只能对整个网站进行镜像处理,无法做到数据存储的自动化和可配置化。
针对相关技术中数据存储方法无法根据用户的需求进行配置的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种用于网页镜像的数据处理方法、装置及计算机可读存储介质,以解决相关技术中数据存储方法无法根据用户的需求进行配置的问题。
为了实现上述目的,根据本申请的第一方面,提供了一种用于网页镜像的数据处理方法。
根据本申请的用于网页镜像的数据处理方法包括:在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求;按照预设规则处理所述HTTP请求中的URL;将所述URL的处理结果存储至预设数据库,所述预设数据库用于存储所述URL的处理结果和由目标服务器返回的响应信息。
进一步地,在服务容器处理接收到的HTTP请求之前还包括:在所述终端配置DNS域名系统,用于解析所述终端的HTTP请求。
进一步地,在服务容器处理接收到的HTTP请求包括:拦截所述终端的所述HTTP请求;将所述终端的所述HTTP请求发送至所述目标服务器;处理所述目标服务器返回的HTTP响应。
进一步地,按照预设规则处理所述HTTP请求中的URL包括:删除所述URL中的禁止缓存标识符;存储所述目标服务器返回的响应信息和删除了所述禁止缓存标识符后的所述URL。
进一步地,按照预设规则处理所述HTTP请求中的URL还包括:按照预设规则处理所述HTTP请求中的图片URL、层叠样式表URL、Javascript URL、流媒体文件URL中的任意一种或多种。
进一步地,将URL处理结果存储至预设数据库包括:将处理后的所述HTTP请求中的URL设置为存储的主键;根据所述主键将处理后的所述HTTP请求中的URL和所述目标服务器返回的响应信息存储至数据库。
为了实现上述目的,根据本申请的第二方面,提供了一种用于网页镜像的数据处理装置。
根据本申请的用于网页镜像的数据处理装置包括:第一处理单元,用于在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求;第二处理单元,用于按照预设规则处理所述HTTP请求中的URL;存储单元,用于将所述URL的处理结果存储至预设数据库,其中所述预设数据库中用于存储所述URL和由目标服务器返回的响应信息。
进一步地,还包括:配置单元,用于在终端配置DNS域名系统,用于解析所述终端的HTTP请求。
进一步地,所述第一处理单元包括:拦截模块,用于拦截所述终端的所述HTTP请求;发送模块,用于将所述终端的所述HTTP请求发送至所述目标服务器;处理模块,用于处理所述目标服务器返回的HTTP响应。
为了实现上述目的,根据本申请的第三方面,提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如上所述方法的步骤。
在本申请实施例中,采用在服务容器处理接收到的HTTP请求,按照预设规则处理所述HTTP请求中的URL的方式,通过将URL的处理结果存储至预设数据库,达到了根据用户的需求对数据存储进行配置的目的,从而实现了高效的、灵活的对数据进行存储的技术效果,进而解决了相关技术中数据存储方法无法根据用户的需求进行配置的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的用于网页镜像的数据处理方法的流程示意图;
图2是根据本申请第二实施例的用于网页镜像的数据处理方法的流程示意图;
图3是根据本申请第三实施例的用于网页镜像的数据处理方法的流程示意图;
图4是根据本申请第四实施例的用于网页镜像的数据处理方法的流程示意图;
图5是根据本申请第一实施例的用于网页镜像的数据处理装置的组成结构示意图;
图6是根据本申请第二实施例的用于网页镜像的数据处理装置的组成结构示意图;
图7是根据本申请第三实施例的用于网页镜像的数据处理装置的组成结构示意图;以及
图8是根据本申请第四实施例的用于网页镜像的数据处理装置的组成结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种用于网页镜像的数据处理方法,如图1所示,该方法包括如下的步骤S101至步骤S103:
步骤S101,在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求。
本申请实施例中利用缓存技术,在客户端与目标服务器之间搭建了代理服务器。一般情况下,用户都是对目标服务器直接访问,当在用户与目标服务器之间有代理服务器的时候,请求首先到达代理服务器,再由代理服务器请求目标服务器,同时,请求结果也由代理服务器保存,并返回给用户。本申请实施例中的代理服务器的主要构成部分之一就是服务容器,一般的服务容器是无法实现或者说很难实现上述的功能的,因此本申请实施例优选使用具有反向代理功能的服务容器(例如Nginx及其衍生产品等),主要用于处理接收到的从终端发起的HTTP请求等。
步骤S102,按照预设规则处理所述HTTP请求中的URL。
由上述的服务容器拦截下来的HTTP请求需要经过开发程序进行处理,因此配置能够操作内存的开发程序是构成上述代理服务器的第二个重要组成部分。具体实施时,按照一定的预设规则处理所述HTTP请求中的URL,所述预设规则可以是删除URL的禁止缓存标识符、存储目标服务器返回信息和存储删除了禁止缓存标识符的URL等。删除禁止缓存标识符的目的是让URL失去唯一性,使之再次请求时,本申请实施例配置的代理服务器仍能够识别到。存储URL的目的是为了提供请求标识,达到系统的唯一性和可用性。
步骤S103,将所述URL的处理结果存储至预设数据库,所述预设数据库用于存储所述URL的处理结果和由目标服务器返回的响应信息。
预设数据库是构成上述代理服务器的第三个重要组成部分,用于存储URL和目标服务器返回的响应信息。由于目标服务器返回的响应信息是非结构化的文本型数据,所以本申请实施例的数据库需要依靠文本型数据库(MongoDB)进行数据存储,并且优选以处理好的URL为基础的字符串作为主键存储。
优选地,如图1所示,在服务容器处理接收到的HTTP请求之前还包括如下步骤S100:
步骤S100:在所述终端配置DNS域名系统,用于解析所述终端的HTTP请求。
具体实施时,通过在终端配置DNS域名系统,能够让终端的HTTP请求通过DNS的解析后,全部到达代理服务器,而不是直接请求目标服务器。
优选地,如图2所示,在服务容器处理接收到的HTTP请求包括如下步骤S201至步骤S203:
步骤S201,拦截所述终端的所述HTTP请求。
具体实施时,当终端发出HTTP请求后,DNS域名系统会对该HTTP请求进行解析,这时代理服务器中的服务容器即可接收并拦截终端发出的HTTP请求。
步骤S202,将所述终端的所述HTTP请求发送至所述目标服务器。
具体实施时,代理服务器中的服务容器在拦截下终端的HTTP请求后,对HTTP请求进行处理后发送至目标服务器,也即服务容器通过处理所有对目标服务器的请求,阻止了目标服务器和终端之间的直接通信,降低了目标服务器的运行负载。
步骤S203,处理所述目标服务器返回的HTTP响应。
具体实施时,在服务容器将HTTP请求发送至所述目标服务器后,目标服务器会根据HTTP请求的内容返回与请求相对应的响应信息,服务容器在接收到目标服务器返回的HTTP响应信息后会进行一系列的处理。
优选地,如图3所示,按照预设规则处理所述HTTP请求中的URL包括如下步骤S301至步骤S302:
步骤S301,删除所述URL中的禁止缓存标识符。
具体实施时,处理终端发送的HTTP请求中的URL信息具体包括删除URL中的禁止缓存标识符。例如,一些浏览器为了增强用户体验,一般会把网页上所需的静态文件缓存到本地,再次刷新的时候则无需再重新加载,但是有些时候可能不需要浏览器缓存这些文件,而是每次都从服务器端重新读取数据,这时就会在对应的URL中设置禁止缓存的标识符,禁止缓存标识符的使用就使得每次请求的页面都是在服务器动态生成的。因此,为了降低目标服务器的运行负载,在进行数据存储或者数据备份之前,需要删除URL中的禁止缓存标识符,进而使URL失去唯一性,使之再次请求时,本申请实施例配置的代理服务器仍能够识别到。
步骤S302,存储所述目标服务器返回的响应信息和删除了所述禁止缓存标识符后的所述URL。
具体实施时,将上述删除了禁止缓存标识符后的URL以及目标服务器返回的响应信息均进行存储,存储URL的目的是为了提供请求标识,达到系统的唯一性和可用性。例如,当用户再次发次对同一URL的请求信息时,此时无需再通过目标服务器调取并加载该URL对应的内容,只需通过存储在代理服务器的URL信息获取与之对应的内容。
优选地,按照预设规则处理所述HTTP请求中的URL还包括如下步骤S401:
步骤S401,按照预设规则处理所述HTTP请求中的图片URL、层叠样式表URL、Javascript URL、流媒体文件URL中的任意一种或多种。
具体实施时,上述URL并非只是终端请求的URL,还包括满足终端所有请求的URL,例如图片URL、层叠样式表(CSS)URL、Javascript(JS)URL、流媒体文件URL等。
优选地,如图4所示,将URL处理结果存储至预设数据库包括如下步骤S501至步骤S502:
步骤S501,将处理后的所述HTTP请求中的URL设置为存储的主键。
具体实施时,代理服务器中的开发程序需要操作数据库和内存,接收到目标服务器返回的响应信息,然后存储在数据库中,而存储的主键就是处理好的URL。
步骤S502,根据所述主键将处理后的所述HTTP请求中的URL和所述目标服务器返回的响应信息存储至数据库。
具体实施时,因为目标服务器返回的响应信息是非结构化的文本型数据,所以本申请实施例的数据库需要依靠文本型数据库(MongoDB)进行存储,并且以处理好的URL为基础的字符串为主键将处理后的HTTP请求中的URL和目标服务器返回的响应信息同时进行存储。
作为本申请实施例的优选实施方式,上述用于网页镜像的数据处理方法的应用场景可以包括:(1)指定网站克隆:比如用户对www.example.com网站比较感兴趣,认为这个网站有研究价值和保存价值,就可以指定该网站,进行指定网站的数据存储或备份。(2)某些网站的指定内容克隆:例如在科研活动或者实际生产中,很多时候对某一类内容比较关心,如娱乐新闻、体育新闻等,这时就可以根据实际的需求对指定内容提起请求。(3)全网克隆:在某些特定场景下,如教育教学工作中,需要全面的大范围的克隆网站,那么就可以运用上述方法进行全网无条件克隆。(4)多网交叉克隆:在某些领域,可能只关心部分网站,那么就可以指定某些网站进行多网交叉克隆。(5)按用户或群体克隆:在某些监控领域,可以指定单个IP地址进行上网行为克隆,对该IP地址进行有效的监控(6)按出口克隆:在某些特殊部门,如果要对某个组织进行行为监控或者行为分析,可以对该组织进行网络出口克隆,来克隆该组织的整个上网行为。
本申请实施例中,采用在服务容器处理接收到的HTTP请求,按照预设规则处理所述HTTP请求中的URL的方式,通过将URL的处理结果存储至预设数据库,达到了根据用户的需求对数据存储进行配置的目的,解决了相关技术中数据存储方法无法根据用户的需求进行配置的技术问题,实现了如下技术效果:(1)以云服务的形式提供给用户,避免了传统应用繁琐的安装;(2)针对性的配置,根据用户的需求实现智能的配置;(3)使用缓存技术和URL处理技术,使传统应用同样能够适应现代网络技术的发展。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述用于网页镜像的数据处理方法的数据处理装置,如图5所示,该装置包括:第一处理单元1、第二处理单元2以及存储单元3。
本实施例中的第一处理单元1,用于在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求。
本申请实施例中利用缓存技术,在客户端与目标服务器之间搭建了代理服务器。一般情况下,用户都是对目标服务器直接访问,当在用户与目标服务器之间有代理服务器的时候,请求首先到达代理服务器,再由代理服务器请求目标服务器,同时,请求结果也由代理服务器保存,并返回给用户。代理服务器的主要构成部分之一就是服务容器,一般的服务容器是无法实现或者说很难实现上述的功能的,因此本申请实施例优选使用具有反向代理功能的服务容器(例如Nginx及其衍生产品等),主要用于通过第一处理单元1处理接收到的从终端发起的HTTP请求等。
本实施例中的第二处理单元2,用于按照预设规则处理所述HTTP请求中的URL。
由上述的服务容器拦截下来的HTTP请求需要经过开发程序进行处理,因此配置能够操作内存的开发程序是构成上述代理服务器的第二个重要组成部分。具体实施时,通过第二处理单元2按照一定的预设规则处理所述HTTP请求中的URL,所述预设规则可以是删除URL的禁止缓存标识符、存储目标服务器返回信息和存储删除了禁止缓存标识符的URL等。删除禁止缓存标识符的目的是让URL失去唯一性,使之再次请求时,本申请实施例配置的代理服务器仍能够识别到。存储URL的目的是为了提供请求标识,达到系统的唯一性和可用性。
本实施例中的存储单元3,用于将所述URL的处理结果存储至预设数据库,其中所述预设数据库中用于存储所述URL和由目标服务器返回的响应信息。
预设数据库是构成上述代理服务器的第三个重要组成部分,用于通过存储单元3存储URL和目标服务器返回的响应信息。由于目标服务器返回的响应信息是非结构化的文本型数据,所以本申请实施例的数据库需要依靠文本型数据库(MongoDB)进行数据存储,并且优选以处理好的URL为基础的字符串作为主键存储。
优选地,如图5所示,该装置还包括:配置单元4。
本实施例中的配置单元4,用于在终端配置DNS域名系统,用于解析所述终端的HTTP请求。
具体实施时,通过配置单元4在终端配置DNS域名系统,能够让终端的HTTP请求通过DNS的解析后,全部到达代理服务器,而不是直接请求目标服务器。
优选地,如图6所示,所述第一处理单元1包括:拦截模块11、发送模块12以及处理模块13。
本实施例中的拦截模块11,用于拦截所述终端的所述HTTP请求。
具体实施时,当终端发出HTTP请求后,DNS域名系统会对该HTTP请求进行解析,这时代理服务器中的服务容器通过拦截模块11即可接收并拦截终端发出的HTTP请求。
本实施例中的发送模块12,用于将所述终端的所述HTTP请求发送至所述目标服务器。
具体实施时,代理服务器中的服务容器在拦截下终端的HTTP请求后,通过发送模块12对HTTP请求进行处理后发送至目标服务器,也即服务容器通过处理所有对目标服务器的请求,阻止了目标服务器和终端之间的直接通信,降低了目标服务器的运行负载。
本实施例中的处理模块13,用于处理所述目标服务器返回的HTTP响应。
具体实施时,在服务容器将HTTP请求发送至所述目标服务器后,目标服务器会根据HTTP请求的内容返回与请求相对应的响应信息,服务容器在接收到目标服务器返回的HTTP响应信息后会通过处理模块13进行一系列的处理。
优选地,如图7所示,所述第二处理单元2包括:删除模块21以及第一存储模块22。
本实施例中的删除模块21,用于删除所述URL中的禁止缓存标识符。
具体实施时,第二处理单元处理终端发送的HTTP请求中的URL信息具体包括通过删除模块21删除URL中的禁止缓存标识符。例如,一些浏览器为了增强用户体验,一般都会把网页上所需的静态文件缓存到本地,再次刷新的时候则无需再重新加载,但是有些时候可能不需要浏览器缓存这些文件,而是每次都从服务器端重新读取数据,这时就会在对应的URL中设置禁止缓存的标识符,禁止缓存标识符的使用就使得每次请求的页面都是在服务器动态生成的。因此,为了降低目标服务器的运行负载,在进行数据存储或者数据备份之前,需要删除URL中的禁止缓存标识符,进而使URL失去唯一性,使之再次请求时,本申请实施例配置的代理服务器仍能够识别到。
本实施例中的第一存储模块22,用于存储所述目标服务器返回的响应信息和删除了所述禁止缓存标识符后的所述URL。
具体实施时,将上述删除了禁止缓存标识符后的URL以及目标服务器返回的响应信息均通过第一存储模块22进行存储,存储URL的目的是为了提供请求标识,达到系统的唯一性和可用性。例如,当用户再次发次对同一URL的请求信息时,此时无需再通过目标服务器调取并加载该URL对应的内容,只需通过存储在代理服务器的URL信息获取与之对应的内容。
优选地,所述第二处理单元2还被配置为:
按照预设规则处理所述HTTP请求中的图片URL、层叠样式表URL、Javascript URL、流媒体文件URL中的任意一种或多种。
具体实施时,上述URL并非只是终端请求的URL,还包括满足终端所有请求的URL,例如图片URL、层叠样式表(CSS)URL、Javascript(JS)URL、流媒体文件URL等。
优选地,如图8所示,所述存储单元3包括:设置模块31以及第二存储模块32。
本实施例中的设置模块31,用于将处理后的所述HTTP请求中的URL设置为存储的主键。
具体实施时,代理服务器中的开发程序需要操作数据库和内存,接收到目标服务器返回的响应信息,然后存储在数据库中,而存储的主键就是处理好的URL,具体地通过设置模块31将处理后的所述HTTP请求中的URL设置为存储的主键。
本实施例中的第二存储模块32,用于根据所述主键将处理后的所述HTTP请求中的URL和所述目标服务器返回的响应信息存储至数据库。
具体实施时,因为目标服务器返回的响应信息是非结构化的文本型数据,所以本申请实施例的数据库需要依靠文本型数据库(MongoDB)进行存储,并且以处理好的URL为基础的字符串为主键将处理后的HTTP请求中的URL和目标服务器返回的响应信息通过第二存储模块32同时进行存储。
根据本发明实施例,还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如上所述方法的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种用于网页镜像的数据处理方法,其特征在于,用于代理服务器,所述方法包括:
在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求;
按照预设规则处理所述HTTP请求中的URL;
将所述URL的处理结果存储至预设数据库,所述预设数据库用于存储所述URL的处理结果和由目标服务器返回的响应信息。
2.根据权利要求1所述的用于网页镜像的数据处理方法,其特征在于,在服务容器处理接收到的HTTP请求之前还包括:
在所述终端配置DNS域名系统,用于解析所述终端的HTTP请求。
3.根据权利要求1所述的用于网页镜像的数据处理方法,其特征在于,在服务容器处理接收到的HTTP请求包括:
拦截所述终端的所述HTTP请求;
将所述终端的所述HTTP请求发送至所述目标服务器;
处理所述目标服务器返回的HTTP响应。
4.根据权利要求1所述的用于网页镜像的数据处理方法,其特征在于,按照预设规则处理所述HTTP请求中的URL包括:
删除所述URL中的禁止缓存标识符;
存储所述目标服务器返回的响应信息和删除了所述禁止缓存标识符后的所述URL。
5.根据权利要求1所述的用于网页镜像的数据处理方法,其特征在于,按照预设规则处理所述HTTP请求中的URL还包括:按照预设规则处理所述HTTP请求中的图片URL、层叠样式表URL、Javascript URL、流媒体文件URL中的任意一种或多种。
6.根据权利要求1所述的用于网页镜像的数据处理方法,其特征在于,将URL处理结果存储至预设数据库包括:
将处理后的所述HTTP请求中的URL设置为存储的主键;
根据所述主键将处理后的所述HTTP请求中的URL和所述目标服务器返回的响应信息存储至数据库。
7.一种用于网页镜像的数据处理装置,其特征在于,用于代理服务器,包括:
第一处理单元,用于在服务容器处理接收到的HTTP请求,所述HTTP请求是指通过所述代理服务器接收的从终端发起的HTTP请求;
第二处理单元,用于按照预设规则处理所述HTTP请求中的URL;
存储单元,用于将所述URL的处理结果存储至预设数据库,其中所述预设数据库中用于存储所述URL和由目标服务器返回的响应信息。
8.根据权利要求7所述的用于网页镜像的数据处理装置,其特征在于,还包括:
配置单元,用于在终端配置DNS域名系统,用于解析所述终端的HTTP请求。
9.根据权利要求7所述的用于网页镜像的数据处理装置,其特征在于,所述第一处理单元包括:
拦截模块,用于拦截所述终端的所述HTTP请求;
发送模块,用于将所述终端的所述HTTP请求发送至所述目标服务器;
处理模块,用于处理所述目标服务器返回的HTTP响应。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
CN201910692247.7A 2019-07-29 2019-07-29 用于网页镜像的数据处理方法、装置及计算机可读存储介质 Active CN110413846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910692247.7A CN110413846B (zh) 2019-07-29 2019-07-29 用于网页镜像的数据处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910692247.7A CN110413846B (zh) 2019-07-29 2019-07-29 用于网页镜像的数据处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110413846A true CN110413846A (zh) 2019-11-05
CN110413846B CN110413846B (zh) 2022-05-20

Family

ID=68364045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910692247.7A Active CN110413846B (zh) 2019-07-29 2019-07-29 用于网页镜像的数据处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110413846B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111176655A (zh) * 2019-12-09 2020-05-19 国电南瑞科技股份有限公司 一种Web应用封装方法、存储介质及计算设备
CN111586201A (zh) * 2020-04-30 2020-08-25 苏州亿歌网络科技有限公司 域名解析系统、方法、设备及存储介质
CN111741100A (zh) * 2020-06-17 2020-10-02 北京三快在线科技有限公司 电子票据的核销方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170479A (zh) * 2011-05-21 2011-08-31 成都市华为赛门铁克科技有限公司 Web缓存的更新方法及Web缓存的更新装置
CN102694772A (zh) * 2011-03-23 2012-09-26 腾讯科技(深圳)有限公司 一种访问互联网网页的装置、系统及方法
CN103248684A (zh) * 2013-04-28 2013-08-14 北京奇虎科技有限公司 一种互联网中资源获取方法和装置
US20140074962A1 (en) * 2012-09-13 2014-03-13 Konica Minolta Inc. Browser device, browser program, browser system, image forming apparatus, and non-transitory storage medium
CN103946833A (zh) * 2011-11-11 2014-07-23 摩博菲乐有限公司Dba摩博莱 管理专用缓存的系统和方法
CN105701233A (zh) * 2016-02-18 2016-06-22 焦点科技股份有限公司 一种优化服务器缓存管理的方法
US20160205168A1 (en) * 2014-05-13 2016-07-14 Opera Software Asa Web access performance enhancement
CN107105050A (zh) * 2017-05-11 2017-08-29 北京奇艺世纪科技有限公司 一种业务对象的存储、下载方法及系统
CN109194749A (zh) * 2018-09-11 2019-01-11 福建天泉教育科技有限公司 监听网络请求的方法、存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102694772A (zh) * 2011-03-23 2012-09-26 腾讯科技(深圳)有限公司 一种访问互联网网页的装置、系统及方法
CN102170479A (zh) * 2011-05-21 2011-08-31 成都市华为赛门铁克科技有限公司 Web缓存的更新方法及Web缓存的更新装置
CN103946833A (zh) * 2011-11-11 2014-07-23 摩博菲乐有限公司Dba摩博莱 管理专用缓存的系统和方法
US20140074962A1 (en) * 2012-09-13 2014-03-13 Konica Minolta Inc. Browser device, browser program, browser system, image forming apparatus, and non-transitory storage medium
CN103248684A (zh) * 2013-04-28 2013-08-14 北京奇虎科技有限公司 一种互联网中资源获取方法和装置
US20160205168A1 (en) * 2014-05-13 2016-07-14 Opera Software Asa Web access performance enhancement
CN105701233A (zh) * 2016-02-18 2016-06-22 焦点科技股份有限公司 一种优化服务器缓存管理的方法
CN107105050A (zh) * 2017-05-11 2017-08-29 北京奇艺世纪科技有限公司 一种业务对象的存储、下载方法及系统
CN109194749A (zh) * 2018-09-11 2019-01-11 福建天泉教育科技有限公司 监听网络请求的方法、存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111176655A (zh) * 2019-12-09 2020-05-19 国电南瑞科技股份有限公司 一种Web应用封装方法、存储介质及计算设备
CN111586201A (zh) * 2020-04-30 2020-08-25 苏州亿歌网络科技有限公司 域名解析系统、方法、设备及存储介质
CN111741100A (zh) * 2020-06-17 2020-10-02 北京三快在线科技有限公司 电子票据的核销方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110413846B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN104468807B (zh) 进行网页缓存的处理方法、云端装置、本地装置及系统
US20160087970A1 (en) Secure application access system
US9690568B2 (en) Client-side script bundle management system
US9673998B2 (en) Differential cache for representational state transfer (REST) API
CN104202360A (zh) 访问网页的方法、装置及路由器
CN106055603B (zh) 基于vpn的浏览器访问网址推荐方法、客户端及系统
CN110413846A (zh) 用于网页镜像的数据处理方法、装置及计算机可读存储介质
CN105868231A (zh) 缓存数据的更新方法及装置
CN107241344A (zh) 拦截客户端对恶意网络服务器的访问的方法、设备和系统
CN102882985A (zh) 基于云存储的文件共享方法
CN104253838A (zh) 一种cdn节点与cdn服务系统
CN105868333A (zh) 文件处理方法及装置
CN103685304A (zh) 一种共享session信息的方法和系统
CN101631143A (zh) 负载均衡环境中多服务器系统及其文件传输方法
CN110266661A (zh) 一种授权方法、装置及设备
CN104104582B (zh) 一种数据存储路径管理方法、客户端及服务器
CN108932238A (zh) 一种跨域通信方法及装置
US9055113B2 (en) Method and system for monitoring flows in network traffic
CN109154968A (zh) 用于组织内的安全且高效的通信的系统和方法
CN107070988A (zh) 报文处理方法及装置
US10783208B1 (en) Server-side and client-side unfurling of resource locators
CN107135242A (zh) Mongodb集群访问方法、装置及系统
US10909070B2 (en) Memory efficient policy-based file deletion system
US10897483B2 (en) Intrusion detection system for automated determination of IP addresses
CN107786594A (zh) 业务请求处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220628

Address after: 610096 No. 801, 802 and 803, unit 1, building 1, No. 1288, north section of Tianfu Avenue, Chengdu high tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan Province

Patentee after: SICHUAN LAN-BRIDGE INFORMATION TECHNOLOGY CO.,LTD.

Address before: No.1, 3rd floor, building 1, No.366, north section of Hupan Road, Tianfu New District, Chengdu, Sichuan 610000

Patentee before: Digital Translation (Chengdu) Information Technology Co.,Ltd.