CN111291083B - 网页源码数据处理方法、装置及计算机设备 - Google Patents
网页源码数据处理方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN111291083B CN111291083B CN202010075085.5A CN202010075085A CN111291083B CN 111291083 B CN111291083 B CN 111291083B CN 202010075085 A CN202010075085 A CN 202010075085A CN 111291083 B CN111291083 B CN 111291083B
- Authority
- CN
- China
- Prior art keywords
- source code
- code data
- webpage source
- level cache
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 19
- 241001178520 Stomatepia mongo Species 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 description 9
- 238000013500 data storage Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网页源码数据处理方法、装置、计算机设备及可读存储介质,属于计算机技术领域。本发明的网页源码数据处理方法包括:获取网页源码数据;将所述网页源码数据存储至多级缓存中,其中,不同级别的缓存用于存储不同时间段内的网页源码数据,不同级别的缓存的类型不同;将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。本发明可以提高数据查询效率。
Description
技术领域
本发明涉及信息安全技术领域,尤其涉及一种网页源码数据处理方法、装置及计算机设备。
背景技术
现有技术中,为了监测网站的状态,需要对网站的网页源码进行存储,以便可以根据存储的网页源码来查询网页是否被攻击以及攻击事件等。
通常,我们一般是通过单一的数据库来存储网页源码数据,然而,随着存储数据量的增多,单一数据库存储的方式在对数据查询时查询速度将变得很慢,使得数据的查询效率较低。
发明内容
本发明实施例的目的是提供一种网页源码数据处理方法、装置、计算机设备及计算机可读存储介质,用于解决现有在查询网页源码数据时,查询效率较低的问题。
本发明提供了一种网页源码数据处理方法,包括:
获取网页源码数据;
将所述网页源码数据存储至多级缓存中,其中,不同级别的缓存用于存储不同时间段内的网页源码数据,不同级别的缓存的类型不同;
将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。
可选地,所述多级缓冲包括第一级缓存、第二级缓存,所述将所述网页源码数据存储至多级缓存中的步骤包括:
将第一预设时间段内的网页源码数据存储至第一级缓存中,将第二预设时间段内的网页源码数据存储至第二级缓存中,所述第二预设时间段包括所述第一预设时间段。
可选地,所述将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中的步骤包括:
将所述第二级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。
可选地,所述第一级缓存为redis数据库,所述第二级缓存为mongo数据库,所述非关系型数据库为hbase数据库。
可选地,所述redis数据库、所述mongo数据库以及所述hbase数据库中存储数据的键key包括三段,所述三段为网站域名、URL哈希值以及时间戳。
可选地,所述网页源码数据处理方法还包括:
接收数据查询请求;
响应于所述数据查询请求,根据所述数据查询请求依次查询所述redis数据库、所述mongo数据库以及所述hbase数据库,获取与所述查询请求对应的网页源码数据。
本发明还提供了一种网页源码数据处理装置,包括:
获取模块,用于获取网页源码数据;
存储模块,用于将所述网页源码数据存储至多级缓存中,其中,不同级别的缓存用于存储不同时间段内的网页源码数据,不同级别的缓存的类型不同;
转存模块,用于将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。
可选地,所述多级缓冲包括第一级缓存、第二级缓存,所述存储模块还用于将第一预设时间段内的网页源码数据存储至第一级缓存中,将第二预设时间段内的网页源码数据存储至第二级缓存中,所述第二预设时间段包括所述第一预设时间段。
本发明还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的网页源码数据处理方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的网页源码数据处理方法的步骤。
上述技术方案的有益效果:
本发明实施例通过获取网页源码数据;将所述网页源码数据存储至多级缓存中,其中,不同级别的缓存用于存储不同时间段内的网页源码数据,不同级别的缓存的类型不同;将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。本发明实施例通过将不同时间段的源码数据存储在不同的缓存中,从而在查询最近时间段的网页源码数据时,可以快速地获取到,进而可以提升网页源码数据的查询效率。
附图说明
图1为本发明所述的网页源码数据处理方法的一种实施例的流程图;
图2为本发明所述的网页源码数据处理方法的另一种实施例的流程图;
图3为本发明实施例提供的网页源码数据处理装置的一种实施例的程序模块图;
图4为本发明计算机设备一实施例的架构图。
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本发明的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本发明及区别每一步骤,因此不能理解为对本发明的限制。
参阅图1,其为本发明一实施例的网页源码数据处理方法的流程示意图,可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定,下面以网页源码数据处理装置为执行主体进行示例性描述,从图中可以看出,本实施例中所提供的测试用例确定方法包括步骤S10-S12,其中:
步骤S10、获取网页源码数据。
具体地,所述网页源码数据可以从存储网站的网页源码的服务器中进行获取。
步骤S11、将所述网页源码数据存储至多级缓存中,其中,不同级别的缓存用于存储不同时间段内的网页源码数据,不同级别的缓存的类型不同。
具体地,所述多级缓存可以包括两级及两级以上的缓存,可以根据需要对缓存的级别进行扩展,在本实施例中不作限定。在本发明实施例中,以2级缓存为例进行说明。
在一实施方式中,所述将所述网页源码数据存储至多级缓存中的步骤包括:
将第一预设时间段内的网页源码数据存储至第一级缓存中,将第二预设时间段内的网页源码数据存储至第二级缓存中,所述第二预设时间段包括所述第一预设时间段。
具体地,不同级别的缓存存储的网页源码数据不同,在对网页源码数据进行存储时,可以将第一预设时间段内的网页源码数据存储至第一级缓存中,将第二预设时间段内的网页源码数据存储至第二级缓存中。举例来说,通过第一级缓存存储1小时以内的网页源码数据,通过第二级缓存存储7天以内的网页源码数据。当然,也可以通过第一级缓存存储1天内的网页源码数据,通过第二级缓存存储10天以内的网页源码数据。也就是说,本发明实施例中的第一预设时间段以及第二预设时间段可以根据实际情况进行设定,在本实施例中不作限定。
在本发明实施例中,不同级别的缓存的类型也不同,即不同级别的缓存不属于同一类型的数据库。比如,第一级缓存可以为redis数据库,第二级缓存为mongo数据库。其中,Redis数据库在存储数据时将数据存在内存中的,所以读写速度非常快,通过将Redis数据库作为第一级缓存,可以提高网页源码数据的查询速度。在一具体应用中,该redis数据库采用cluster(集群)模式实现,包括3台master(主)服务器,以及3台slaver(从)服务器。Mongo数据库是一个基于分布式文件存储的数据库,由C++语言编写,在本实施例中,通过将Mongo数据库作为第二级缓存,从而可以方便数据存储进行动态扩展。
本发明实施例中,在存储网页源码数据时,同时将网页源码数据存储在多级缓存中,可以实现网页源码数据的备份,提升数据存储的安全性。
步骤S12,将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。
具体地,所述预设时间为预先设定的时间,该时间值可以根据多级缓存中其中一级缓存存储数据的时间段来进行设定。举例来说,若选择将第一级缓存中存储时间超过预设时间的网页源码数据转存至所述非关系数据库中,且第一级缓存中是用于存储1小时以内的数据,则可以将该预设时间设置为1小时,从而将第一级缓存中存储时间超过1小时的网页源码数据都转存至非关系型数据库中,进而保证了在第一级缓存中只会存储1小时以内的网页源码数据。再举例说明,若选择将第二级缓存中存储时间超过预设时间的网页源码数据转存至所述非关系数据库中,且第二级缓存中是用于存储7天以内的数据,则可以将该预设时间设置为7天,从而将第二级缓存中存储时间超过7天的网页源码数据都转存至非关系型数据库中,进而保证了在第二级缓存中只会存储7天以内的网页源码数据。
在一实施方式中,所述将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中的步骤包括:
将所述第二级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。
具体地,在本实施例中,所述非关系型数据库优选为Hbase数据库。Hbase数据库是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。在本实施例中使用Hbase数据库作为存储超过预设时间的网页源码数据可以降低数据的存储成本。当然,在本发明其他实施方式中,以可以选择其他非关系型数据库来存储该超过预设时间的网页源码数据。本实施例中,通过将所述第二级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中,可以方便对存储容量进行扩展。
本发明实施例通过获取网页源码数据;将所述网页源码数据存储至多级缓存中,其中,不同级别的缓存用于存储不同时间段内的网页源码数据,不同级别的缓存的类型不同;将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。本发明实施例通过将不同时间段的源码数据存储在不同的缓存中,从而在查询最近时间段的网页源码数据时,可以快速地获取到,进而可以提升网页源码数据的查询效率。同时,本发明实施例采用多级缓存加一个非关系型数据库的方式来存储网页源码数据,也能够存储尽量多的网站的网页源码,以及让网页源码数据保存尽量多的时间。此外,通过多级缓存的方式,以可以保证数据的安全,使得数据的丢失率极低。
在一实施方式中,为了同时能够获取同一网页不同时期的源码,以利于查询网页被攻击的时间。本发明实施例中,选定所述第一级缓存为redis数据库,所述第二级缓存为mongo数据库,所述非关系型数据库为hbase数据库,并且设定所述redis数据库、所述mongo数据库以及所述hbase数据库中存储数据的键key包括三段,分别为网站域名、URL(UniformResource Locator,统一资源定位符)哈希值以及时间戳,即host-urlhash-timestamp这三段,其中,URL哈希值为通过对该访问该网页页面内容对应的URL进行哈希计算得到的,时间戳为存储该网页页面的时间。这样,当需要查询同一网页不同时期的源码时,通过数据库中存储数据的键key中的前面两个字段,即网站域名、URL哈希值进行查询,即可以获取同一网页不同时期的源码。此外,本发明实施方式通过将存储数据的键key设置为三段式的方式,还可以在查询网页源码数据时进行多维度的查询。
本发明实施例提供了另一种网页源码数据处理方法,本实施例基于上述实施例,如图2所示,所述方法还包括:
步骤S20,接收数据查询请求。
步骤S21,响应于所述数据查询请求,根据所述数据查询请求依次查询所述redis数据库、所述mongo数据库以及所述hbase数据库,获取与所述查询请求对应的网页源码数据。
具体地,本发明提供的装置提供查询接口,在需要对网页源码数据进行查询时,通过该查询接口来接收查询请求,其中,该查询请求是按照该查询接口的规范进行封装的。在查询时,依次将该查询请求中携带的查询语句在redis数据库中进行执行,以便确定在redis数据库中是否存才该查询请求对应的网页源码数据,若在该redis数据库中查找到该查询请求对应的网页源码数据,则将查找到的网页源码数据进行返回,结束查询操作;若在该redis数据库中未查找到该查询请求对应的网页源码数据,则继续将该查询请求中携带的查询语句在mongo数据库中进行执行,以便确定在该mongo数据库中是否存在该查询请求对应的网页源码数据;若在该mongo数据库中查找到该查询请求对应的网页源码数据,则将查找到的网页源码数据进行返回,结束查询操作;若在该mongo数据库中未查找到该查询请求对应的网页源码数据,则继续将该查询请求中携带的查询语句在hbase数据库中进行执行,以便确定在该hbase数据库中是否存在该查询请求对应的网页源码数据;若在该hbase数据库中查找到该查询请求对应的网页源码数据,则将查找到的网页源码数据进行返回,结束查询操作;若在该hbase数据库中仍然未查找到该查询请求对应的网页源码数据,则返回预设的提示消息,比如返回“数据不存在”。
本发明实施例中通过在查询网页源码数据时,按照顺序查找各个数据库,从而可以提高数据的查询效率。
参阅图3所示,是本发明网页源码数据处理装置300一实施例的程序模块图。该网页源码数据处理装置300应用于计算机设备中。
本实施例中,所述网页源码数据处理装置300包括一系列的存储于存储器上的计算机程序指令,当该计算机程序指令被处理器执行时,可以实现本发明各实施例的网页源码数据处理功能。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,网页源码数据处理装置300可以被划分为一个或多个模块。例如,在图3中,所述网页源码数据处理装置300可以被分割成获取模块301、存储模块302、以及转存模块303。其中:
获取模块301,用于获取网页源码数据。
具体地,所述网页源码数据可以从存储网站的网页源码的服务器中进行获取。
存储模块302,用于将所述网页源码数据存储至多级缓存中,其中,不同级别的缓存用于存储不同时间段内的网页源码数据,不同级别的缓存的类型不同。
具体地,所述多级缓存可以包括两级及两级以上的缓存,可以根据需要对缓存的级别进行扩展,在本实施例中不作限定。在本发明实施例中,以2级缓存为例进行说明。
在一实施方式中,所述存储模块302,还用于将第一预设时间段内的网页源码数据存储至第一级缓存中,将第二预设时间段内的网页源码数据存储至第二级缓存中,所述第二预设时间段包括所述第一预设时间段。
具体地,不同级别的缓存存储的网页源码数据不同,在对网页源码数据进行存储时,可以将第一预设时间段内的网页源码数据存储至第一级缓存中,将第二预设时间段内的网页源码数据存储至第二级缓存中。举例来说,通过第一级缓存存储1小时以内的网页源码数据,通过第二级缓存存储7天以内的网页源码数据。当然,也可以通过第一级缓存存储1天内的网页源码数据,通过第二级缓存存储10天以内的网页源码数据。也就是说,本发明实施例中的第一预设时间段以及第二预设时间段可以根据实际情况进行设定,在本实施例中不作限定。
在本发明实施例中,不同级别的缓存的类型也不同,即不同级别的缓存不属于同一类型的数据库。比如,第一级缓存可以为redis数据库,第二级缓存为mongo数据库。其中,Redis数据库在存储数据时将数据存在内存中的,所以读写速度非常快,通过将Redis数据库作为第一级缓存,可以提高网页源码数据的查询速度。在一具体应用中,该redis数据库采用cluster模式实现,包括3台master服务器,以及3台slaver服务器。Mongo数据库是一个基于分布式文件存储的数据库,由C++语言编写,在本实施例中,通过将Mongo数据库作为第二级缓存,从而可以方便数据存储进行动态扩展。
本发明实施例中,在存储网页源码数据时,同时将网页源码数据存储在多级缓存中,可以实现网页源码数据的备份,提升数据存储的安全性。
转存模块303,用于将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。
具体地,所述预设时间为预先设定的时间,该时间值可以根据多级缓存中其中一级缓存存储数据的时间段来进行设定。举例来说,若选择将第一级缓存中存储时间超过预设时间的网页源码数据转存至所述非关系数据库中,且第一级缓存中是用于存储1小时以内的数据,则可以将该预设时间设置为1小时,从而将将第一级缓存中存储时间超过1小时的网页源码数据都转存至非关系型数据库中,进而保证了在第一级缓存中只会存储1小时以内的网页源码数据。再举例说明,若选择将第二级缓存中存储时间超过预设时间的网页源码数据转存至所述非关系数据库中,且第二级缓存中是用于存储7天以内的数据,则可以将该预设时间设置为7天,从而将将第二级缓存中存储时间超过7天的网页源码数据都转存至非关系型数据库中,进而保证了在第二级缓存中只会存储7天以内的网页源码数据。
在一实施方式中,所述转存模块303,还用于将所述第二级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。
具体地,在本实施例中,所述非关系型数据库优选为Hbase数据库。Hbase数据库是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。在本实施例中使用Hbase数据库作为存储超过预设时间的网页源码数据可以降低数据的存储成本。当然,在本发明其他实施方式中,以可以选择其他非关系型数据库来存储该超过预设时间的网页源码数据。本实施例中,通过将所述第二级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中,可以方便对存储容量进行扩展。
本发明实施例通过获取网页源码数据;将所述网页源码数据存储至多级缓存中,其中,不同级别的缓存用于存储不同时间段内的网页源码数据,不同级别的缓存的类型不同;将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。本发明实施例通过将不同时间段的源码数据存储在不同的缓存中,从而在查询最近时间段的网页源码数据时,可以快速地获取到,进而可以提升网页源码数据的查询效率。同时,本发明实施例采用多级缓存加一个非关系型数据库的方式来存储网页源码数据,也能够存储尽量多的网站的网页源码,以及让网页源码数据保存尽量多的时间。此外,通过多级缓存的方式,以可以保证数据的安全,使得数据的丢失率极低。
在一实施方式中,为了同时能够获取同一网页不同时期的源码,以利于查询网页被黑的时间。本发明实施例中,选定所述第一级缓存为redis数据库,所述第二级缓存为mongo数据库,所述非关系型数据库为hbase数据库,并且设定述redis数据库、所述mongo数据库以及所述hbase数据库中存储数据的键key包括三段,分别为网站域名、URL哈希值以及时间戳,即host-urlhash-timestamp这三段,其中,URL哈希值为通过对该访问该网页页面内容对应的URL进行哈希计算得到的,时间戳为存储该网页页面的时间。这样,当需要查询同一网页不同时期的源码时,通过数据库中存储数据的键key中的前面两个字段,即网站域名、URL哈希值进行查询,即可以获取到同一网页不同时期的源码。此外,本发明实施方式通过将存储数据的键key设置为三段式的方式,还可以在查询网页源码数据时进行多维度的查询。
进一步地,在一实施方式中,所述网页源码数据处理装置300还包括接收模块以及响应模块。
其中,所述接收模块,用于接收数据查询请求。
所述响应模块,用于响应于所述数据查询请求,根据所述数据查询请求依次查询所述redis数据库、所述mongo数据库以及所述hbase数据库,获取与所述查询请求对应的网页源码数据。
具体地,本发明提供的装置提供查询接口,在需要对网页源码数据进行查询时,通过该查询接口来接收查询请求,其中,该查询请求是按照该查询接口的规范进行封装的。在查询时,依次将该查询请求中携带的查询语句在redis数据库中进行执行,以便确定在redis数据库中是否存才该查询请求对应的网页源码数据,若在该redis数据库中查找到该查询请求对应的网页源码数据,则将查找到的网页源码数据进行返回,结束查询操作;若在该redis数据库中未查找到该查询请求对应的网页源码数据,则继续将该查询请求中携带的查询语句在mongo数据库中进行执行,以便确定在该mongo数据库中是否存在该查询请求对应的网页源码数据;若在该mongo数据库中查找到该查询请求对应的网页源码数据,则将查找到的网页源码数据进行返回,结束查询操作;若在该mongo数据库中未查找到该查询请求对应的网页源码数据,则继续将该查询请求中携带的查询语句在hbase数据库中进行执行,以便确定在该hbase数据库中是否存在该查询请求对应的网页源码数据;若在该hbase数据库中查找到该查询请求对应的网页源码数据,则将查找到的网页源码数据进行返回,结束查询操作;若在该hbase数据库中仍然未查找到该查询请求对应的网页源码数据,则返回预设的提示消息,比如返回“数据不存在”。
本发明实施例中通过在查询网页源码数据时,按照顺序查找各个数据库,从而可以提高数据的查询效率。
参阅图4所示,是本发明计算机设备4的硬件架构示意图。本实施例中,计算机设备4是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图4所示,计算机设备4至少包括但不限于:可通过系统总线相互通信链接存储器401、处理器402、网络接口403。其中:
存储器401至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器401可以是计算机设备4的内部存储模块,例如该计算机设备4的硬盘或内存。在另一些实施例中,存储器401也可以是计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(SmartMedia Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,存储器401还可以既包括计算机设备4的内部存储模块也包括其外部存储设备。本实施例中,存储器401通常用于存储安装于计算机设备4的操作系统和各类应用软件,例如网页源码数据处理方法的程序代码等。此外,存储器401还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器402在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器402通常用于控制计算机设备4的总体操作,例如执行与计算机设备4进行数据交互或者通信相关的控制和处理等。本实施例中,处理器402用于运行存储器401中存储的程序代码或者处理数据。
网络接口403可包括无线网络接口或有线网络接口,该网络接口403通常用于在计算机设备4与其他计算机设备之间建立通信链接。例如,网络接口403用于通过网络将计算机设备4与外部终端相连,在计算机设备4与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access,简称为WCDMA)、4G网络、4G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图4仅示出了具有部件401-403的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器401中的网页源码数据处理方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器402)所执行,以完成本发明。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的网页源码数据处理方法的步骤。本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中的网页源码数据处理方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (8)
1.一种网页源码数据处理方法,其特征在于,包括:
获取网页源码数据;
将所述网页源码数据存储至多级缓存中,其中,不同级别的缓存用于存储不同时间段内的网页源码数据,不同级别的缓存的类型不同;
将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中;
所述多级缓存包括第一级缓存、第二级缓存,所述将所述网页源码数据存储至多级缓存中的步骤包括:
将第一预设时间段内的网页源码数据存储至第一级缓存中,将第二预设时间段内的网页源码数据存储至第二级缓存中,所述第二预设时间段包括所述第一预设时间段。
2.根据权利要求1所述的网页源码数据处理方法,其特征在于,所述将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中的步骤包括:
将所述第二级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中。
3.根据权利要求1所述的网页源码数据处理方法,其特征在于,所述第一级缓存为redis数据库,所述第二级缓存为mongo数据库,所述非关系型数据库为hbase数据库。
4.根据权利要求3所述的网页源码数据处理方法,其特征在于,所述redis数据库、所述mongo数据库以及所述hbase数据库中存储数据的键key包括三段,所述三段为网站域名、URL哈希值以及时间戳。
5.根据权利要求3所述的网页源码数据处理方法,其特征在于,所述网页源码数据处理方法还包括:
接收数据查询请求;
响应于所述数据查询请求,根据所述数据查询请求依次查询所述redis数据库、所述mongo数据库以及所述hbase数据库,获取与所述查询请求对应的网页源码数据。
6.一种网页源码数据处理装置,其特征在于,包括:
获取模块,用于获取网页源码数据;
存储模块,用于将所述网页源码数据存储至多级缓存中,其中,不同级别的缓存用于存储不同时间段内的网页源码数据,不同级别的缓存的类型不同;
转存模块,用于将所述多级缓存中的其中一级缓存中存储时间超过预设时间的网页源码数据转存至预设的非关系型数据库中;
所述多级缓存包括第一级缓存、第二级缓存,所述存储模块还用于将第一预设时间段内的网页源码数据存储至第一级缓存中,将第二预设时间段内的网页源码数据存储至第二级缓存中,所述第二预设时间段包括所述第一预设时间段。
7.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的网页源码数据处理方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至5任一项所述的网页源码数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010075085.5A CN111291083B (zh) | 2020-01-22 | 2020-01-22 | 网页源码数据处理方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010075085.5A CN111291083B (zh) | 2020-01-22 | 2020-01-22 | 网页源码数据处理方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291083A CN111291083A (zh) | 2020-06-16 |
CN111291083B true CN111291083B (zh) | 2024-02-06 |
Family
ID=71022356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010075085.5A Active CN111291083B (zh) | 2020-01-22 | 2020-01-22 | 网页源码数据处理方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291083B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395324B (zh) * | 2020-11-09 | 2021-05-25 | 艾迪安逊教育科技发展(广州)有限公司 | 一种在线教育平台用大数据存储系统 |
CN112486948B (zh) * | 2020-11-25 | 2022-05-13 | 福建省数字福建云计算运营有限公司 | 一种实时数据处理方法 |
CN113672524B (zh) * | 2021-08-20 | 2024-07-02 | 上海哔哩哔哩科技有限公司 | 基于多级缓存的数据处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955786A (zh) * | 2011-08-22 | 2013-03-06 | 北大方正集团有限公司 | 一种动态网页数据缓存和发布方法及系统 |
CN108132958A (zh) * | 2016-12-01 | 2018-06-08 | 阿里巴巴集团控股有限公司 | 一种多级缓存数据存储、查询、调度以及处理方法及装置 |
CN109446222A (zh) * | 2018-08-28 | 2019-03-08 | 厦门快商通信息技术有限公司 | 一种双缓存的数据存储方法、装置及存储介质 |
RU2691834C1 (ru) * | 2018-07-11 | 2019-06-18 | Михаил Сергеевич Герман | Способ управления данными веб-сайта |
CN110674432A (zh) * | 2019-09-09 | 2020-01-10 | 中国平安财产保险股份有限公司 | 二级缓存方法、装置及计算机可读存储介质 |
-
2020
- 2020-01-22 CN CN202010075085.5A patent/CN111291083B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955786A (zh) * | 2011-08-22 | 2013-03-06 | 北大方正集团有限公司 | 一种动态网页数据缓存和发布方法及系统 |
CN108132958A (zh) * | 2016-12-01 | 2018-06-08 | 阿里巴巴集团控股有限公司 | 一种多级缓存数据存储、查询、调度以及处理方法及装置 |
RU2691834C1 (ru) * | 2018-07-11 | 2019-06-18 | Михаил Сергеевич Герман | Способ управления данными веб-сайта |
CN109446222A (zh) * | 2018-08-28 | 2019-03-08 | 厦门快商通信息技术有限公司 | 一种双缓存的数据存储方法、装置及存储介质 |
CN110674432A (zh) * | 2019-09-09 | 2020-01-10 | 中国平安财产保险股份有限公司 | 二级缓存方法、装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
韩兵 ; 李晶晶 ; 方英兰 ; .基于JDBC数据管理与查询优化的研究.计算机技术与发展.2018,(09),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111291083A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109240946B (zh) | 数据的多级缓存方法及终端设备 | |
CN110674432B (zh) | 二级缓存方法、装置及计算机可读存储介质 | |
CN111291083B (zh) | 网页源码数据处理方法、装置及计算机设备 | |
CN106933854B (zh) | 短链接处理方法、装置及服务器 | |
CN109471988B (zh) | 页面信息更新方法、装置、计算机设备及存储介质 | |
CN111400308B (zh) | 缓存数据的处理方法、电子装置及可读存储介质 | |
CN109766349B (zh) | 任务防重方法、装置、计算机设备及存储介质 | |
CN111414389B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
US9021087B1 (en) | Method to improve caching accuracy by using snapshot technology | |
WO2019222006A1 (en) | Obfuscation and deletion of personal data in a loosely-coupled distributed system | |
CN112015820A (zh) | 分布式图数据库实现的方法、系统、电子装置和存储介质 | |
US9075722B2 (en) | Clustered and highly-available wide-area write-through file system cache | |
CN110377649B (zh) | 标签化数据的构建、查询方法、装置、设备及存储介质 | |
CN104767653A (zh) | 一种网络接口监控的方法和装置 | |
US9633035B2 (en) | Storage system and methods for time continuum data retrieval | |
US9928174B1 (en) | Consistent caching | |
CN112433921A (zh) | 用于动态埋点的方法及设备 | |
CN112069384A (zh) | 一种埋点数据处理方法、服务器及可读存储介质 | |
CN111338688B (zh) | 数据长效缓存方法、装置、计算机系统及可读存储介质 | |
US20150234853A1 (en) | Methods Circuits Apparatuses Systems and Associated Computer Executable Code for Data Deduplication | |
CN102929943B (zh) | 数据输出方法及装置 | |
CN112765215A (zh) | 数据查询方法、装置 | |
US9092338B1 (en) | Multi-level caching event lookup | |
CN111382179B (zh) | 数据处理方法、装置及电子设备 | |
CN116304458B (zh) | 一种web页面实时通知更新方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088 Applicant after: QAX Technology Group Inc. Applicant after: Qianxin Wangshen information technology (Beijing) Co.,Ltd. Address before: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088 Applicant before: QAX Technology Group Inc. Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |