CN109639686B - 分布式网页过滤方法、装置、电子设备、存储介质 - Google Patents

分布式网页过滤方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN109639686B
CN109639686B CN201811547343.4A CN201811547343A CN109639686B CN 109639686 B CN109639686 B CN 109639686B CN 201811547343 A CN201811547343 A CN 201811547343A CN 109639686 B CN109639686 B CN 109639686B
Authority
CN
China
Prior art keywords
webpage
data packet
node server
web page
indicated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811547343.4A
Other languages
English (en)
Other versions
CN109639686A (zh
Inventor
王春林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Manyun Software Technology Co Ltd
Original Assignee
Jiangsu Manyun Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Manyun Software Technology Co Ltd filed Critical Jiangsu Manyun Software Technology Co Ltd
Priority to CN201811547343.4A priority Critical patent/CN109639686B/zh
Publication of CN109639686A publication Critical patent/CN109639686A/zh
Application granted granted Critical
Publication of CN109639686B publication Critical patent/CN109639686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种分布式网页过滤方法、装置、电子设备、存储介质,分布式网页过滤方法,应用于公有云集群的各节点服务器,所述分布式网页过滤方法包括:抓取数据包;解析所抓取的数据包,以获得该数据包指示的网页的第一标识信息;判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第一标识信息;若该节点服务器的本地名单库中存在该数据包指示的网页的第一标识信息,则判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤;若该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则中断会话以过滤该网页。本发明提供方法及装置实现公有云集群的网页过滤。

Description

分布式网页过滤方法、装置、电子设备、存储介质
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种分布式网页过滤方法、装置、电子设备、存储介质。
背景技术
随着互联网的普及及信息的爆炸,互联网上的信息繁多,有些网页甚至成为了不良信息的载体从而对不良信息进行传播。
现有技术中,为了过滤这些不良信息,通常会在在互联网内容提供商的机房的网络出口等位置放置专用网页过滤管理设备来过滤网页或网页中的内容。
然而,在云计算时代,当上述网页过滤方式应用于公有云集群中时,原先的技术容易出现如下问题:
1)网络出口专用设备容易成为单点故障。
2)当节点服务器数量不断增加时,对网页过滤管理设备的处理能力要求越来越高,专用设备处理能力无法呈线性增长。
由此可见,现有技术中还没有适用于公有云集群的网页过滤方式。
发明内容
本发明为了克服上述相关技术存在的缺陷,提供一种分布式网页过滤方法、装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本发明的一个方面,提供一种分布式网页过滤方法,应用于公有云集群的各节点服务器,所述分布式网页过滤方法包括:
抓取数据包;
解析所抓取的数据包,以获得该数据包指示的网页的标识信息;
判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第一标识信息;
若该节点服务器的本地名单库中存在该数据包指示的网页的第一标识信息,则判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤;
若该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则中断会话以过滤该网页。
可选地,所述解析所抓取的数据包,以获得该数据包指示的网页的第一标识信息的步骤还包括:
解析所抓取的数据包,以获得该数据包指示的网页的URL,并将该网页的URL作为该网页的第一标识信息。
可选地,若该节点服务器的本地名单库中不存在该数据包指示的网页的第一标识信息,则获得该数据包指示的网页的第二标识信息;
判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第二标识信息;
若该节点服务器的本地名单库中存在该数据包指示的网页的第二标识信息,则判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤;
若该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则中断会话以过滤该网页。
可选地,所述网页的第二标识信息为所述网页的信息摘要值。
可选地,若该节点服务器的本地名单库中不存在该数据包指示的网页的第二标识信息,则向一外部系统发送请求信息,以供所述外部系统判断该数据包指示的网页的网页状态;
接收外部系统的反馈信息,若所述外部系统判断该数据包指示的网页状态指示该网页需过滤,则中断会话以过滤该网页。
可选地,所述接收外部系统的反馈信息之后还包括:
根据所述外部系统的反馈信息更新所述本地名单库。
可选地,当所述本地名单库的更新时,该节点服务器将更新的内容发送至一后台管理模块,所述后台管理模块用于同步更新各个节点服务器的本地名单库。
可选地,所述后台管理模块用于同步更新各个节点服务器的本地名单库包括如下步骤中的一项或多项:
当一节点服务器重启时,由所述后台管理模块同步更新该节点服务器的本地名单库;
所述后台管理模块按预定周期同步更新各节点服务器的本地名单库;
所述后台管理模块当从各节点服务器接收到预定数量的更新内容时,同步更新各节点服务器的本地名单库。
根据本发明的又一方面,还提供一种分布式网页过滤装置,包括:
抓取模块,用于抓取数据包;
解析模块,解析所抓取的数据包,以获得该数据包指示的网页的标识信息;
第一判断模块,用于判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第一标识信息;
第二判断模块,若该节点服务器的本地名单库中存在该数据包指示的网页的第一标识信息,则所述第二判断模块用于判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤;
通讯模块,若该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则所述通讯模块用于中断会话以过滤该网页。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明的优势在于:
本发明通过在公有云集群的各节点服务器执行抓包分析和网站通信控制,由此实现,确定网页状态的网页过滤。此外,每台节点服务器上运行的方法步骤相互独立,当增加新的节点服务器时,可呈线性扩容,没有性能瓶颈。因此,本发明提供的方法及装置随着公有云集群节点服务器的数量增长而线性增加其处理能力,以解决大规模公有云集群中的网页过滤管理问题。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的分布式网页过滤方法的流程图。
图2示出了根据本发明具体实施例的分布式网页过滤方法的流程图。
图3示出了根据本发明实施例的分布式网页过滤装置的示意图。
图4示出了根据本发明具体实施例的分布式网页过滤系统的示意图。
图5示意性示出本发明示例性实施例中一种计算机可读存储介质示意图。
图6示意性示出本发明示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
在本发明的各个实施例中,本发明提供的分布式网页过滤方法应用于公有云集群的各节点服务器。图1示出了根据本发明实施例的分布式网页过滤方法的流程图。参考图1,所述分布式网页过滤方法包括如下步骤:
步骤S110:抓取数据包;
步骤S120:解析所抓取的数据包,以获得该数据包指示的网页的标识信息;
步骤S130:判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第一标识信息;
若步骤S130判断该节点服务器的本地名单库中存在该数据包指示的网页的第一标识信息,则执行步骤S140:判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤;
若步骤S140判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则执行步骤S150:中断会话以过滤该网页。
在本发明的示例性实施方式的分布式网页过滤方法中,通过在公有云集群的各节点服务器执行抓包分析和网站通信控制,由此实现,确定网页状态的网页过滤。此外,每台节点服务器上运行的方法步骤相互独立,当增加新的节点服务器时,可呈线性扩容,没有性能瓶颈。因此,本发明提供的方法及装置随着公有云集群节点服务器的数量增长而线性增加其处理能力,以解决大规模公有云集群中的网页过滤管理问题。
下面结合图2描述本发明的具体实施例,图2示出了根据本发明具体实施例的分布式网页过滤方法的流程图。图2包括如下步骤:
步骤S201:抓取数据包。
在本发明的一些具体实施例中,步骤S201可以在向本地目标网卡的方向上抓取符合特征(例如限定目标端口的特征tcp dstport 80)的数据包。
步骤S203:解析所抓取的数据包,以获得该数据包指示的网页的第一标识信息。
在本发明的一些具体实施例中,第一标识信息可以是数据包指示的网页的URL。通过URL来标识数据包指示的网页无需额外的数据处理,且便于储存。进一步地,数据包可以通过HTTP协议来进行解析。
步骤S205:判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第一标识信息。
具体而言,本地名单库可以是节点服务器的本地高速缓存,本发明并非以此为限。本地名单库储存有多个网页的第一标识信息及该第一标识信息指示的网页的网页状态。网页状态例如可以包括需过滤和无需过滤。在一些具体实施例中,需过滤的网页为预确定存在敏感信息/不良信息的网页,本发明并非以此为限。
若步骤S205判断该节点服务器的本地名单库中存在该数据包指示的网页的第一标识信息,则执行步骤S207:判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤。
若步骤S207判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则执行步骤S209:中断会话以过滤该网页。具体而言,步骤S209除了中断会话(当前的HTTP会话),还包括阻止后续通信的步骤。步骤S209之后执行步骤S211,终止该数据包的处理。
若步骤S207判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页无需过滤,则执行步骤S211,终止该数据包的处理,不对此次HTTP会话进行任何干预。
若步骤S205判断该节点服务器的本地名单库中不存在该数据包指示的网页的第一标识信息,则执行步骤S213:计算该数据包指示的网页的消息摘要值。在一些具体实施例中,该数据包所指示的网页完整的内容已在步骤S203解析,则在步骤S213对该数据包所指示的网页进行诸如md5的消息摘要算法来获得该数据包指示的网页的消息摘要值。该消息摘要值可以作为该数据包所指示的网页的第二标识信息。
步骤S215:判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第二标识信息。
若步骤S215判断该节点服务器的本地名单库中存在该数据包指示的网页的第二标识信息,则执行步骤S217:判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤。
若步骤S217判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则执行步骤S219:中断会话以过滤该网页。具体而言,步骤S219除了中断会话(当前的HTTP会话),还包括阻止后续通信的步骤。步骤S219之后执行步骤S211,终止该数据包的处理。
若步骤S217判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则执行步骤S211,终止该数据包的处理,不对此次HTTP会话进行任何干预。
若步骤S215判断该节点服务器的本地名单库中不存在该数据包指示的网页的第二标识信息,则执行步骤S221:向外部系统发送请求信息,以供所述外部系统判断该数据包指示的网页的网页状态,并接收外部系统的反馈信息。
步骤S223:判断所述反馈信息中该数据包指示的网页的网页状态是否指示该网页需过滤。
若步骤S223判断所述反馈信息中该数据包指示的网页的网页状态指示该网页需过滤,则执行步骤S225,更新本地名单库,将该网页的第一标识信息和/或第二标识信息储存至本地名单库,并保存该网页的网页状态为需过滤。然后执行步骤S219:中断会话以过滤该网页。
若步骤S223判断所述反馈信息中该数据包指示的网页的网页状态指示该网页无需过滤,则执行步骤S225,更新本地名单库,将该网页的第一标识信息和/或第二标识信息储存至本地名单库,并保存该网页的网页状态为无需过滤。然后执行步骤S211:终止该数据包的处理。
在上述实施例中,本发明除了通过第一标识信息对数据包指示的网页的网页状态进行判断,还通过可以对网页全部内容进行处理,从而获得表示网页全部内容的消息摘要值,并以此进行匹配,一方面,增加网页匹配的准确性;另一方面,由于仅保存消息摘要值(而无需保存网页全部内容),可以减少储存空间的要求。本发明通过第一标识信息和第二标识信息提供的双重匹配方式,极大地提高网页匹配的准确率。其次,上述双重匹配方式应用于现有技术中通过一个网页过滤管理设备而言,其会由于一个网页过滤管理设备的计算量有限而无法实现上述双重匹配,而当上述双重匹配方式应用于分布式的公有云集群中,每个节点服务器都可以进行第一标识匹配、消息摘要值的计算和匹配而不会影响节点服务器的处理性能和处理速度。
在上述各个实施例中,各个服务器节点的本地名单库可以同步更新。具体而言,此步骤并非指示当一个服务器节点更新时,将更新的部分实时同步至各个服务器节点的本地名单库,而是指示各个服务器节点的本地名单库更新时,可以将更新的部分上传至一后台管理模块中,并通过后台管理模块同一对各个服务器节点进行批量的同步更新,由此实现各个服务器节点的本地名单库的同步更新。具体而言,在本发明的一些实施例中,当一节点服务器重启时,由所述后台管理模块同步更新该节点服务器的本地名单库。在本发明的一些实施例中,所述后台管理模块按预定周期同步更新各节点服务器的本地名单库。预定周期例如可以是1小时、2小时、5小时等,本发明并非以此为限。在本发明的一些实施例中,所述后台管理模块当从各节点服务器接收到预定数量的更新内容时,同步更新各节点服务器的本地名单库。预定数量例如可以是1000条、2000条。5000条等,本发明并非以此为限。由此,通过后台管理模块,实现公有云集群各个节点服务器的本地名单库的更新,减少由于各个节点服务器由于本地名单库不同导致的错误匹配。
以上仅仅是示意性地描述了本发明的实施方式,本发明并非以此为限。
下面参见图3,图3示出了根据本发明实施例的分布式网页过滤装置的示意图。应用于公有云集群的各节点服务器。分布式网页过滤装置及各模块可以由软件和/或硬件的形式实现。所述分布式网页过滤装置300包括:分布式网页过滤装置300包括抓取模块310、解析模块320、第一判断模块330、第二判断模块340、通讯模块350。
抓取模块310用于抓取数据包;
解析模块320解析所抓取的数据包,以获得该数据包指示的网页的标识信息;
第一判断模块330用于判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第一标识信息;
若该节点服务器的本地名单库中存在该数据包指示的网页的第一标识信息,则所述第二判断模块340用于判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤;
若该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则所述通讯模块350用于中断会话以过滤该网页。
在本发明的示例性实施方式的分布式网页过滤装置中,通过在公有云集群的各节点服务器执行抓包分析和网站通信控制,由此实现,确定网页状态的网页过滤。此外,每台节点服务器上运行的方法步骤相互独立,当增加新的节点服务器时,可呈线性扩容,没有性能瓶颈。因此,本发明提供的方法及装置随着公有云集群节点服务器的数量增长而线性增加其处理能力,以解决大规模公有云集群中的网页过滤管理问题。
图3仅仅是示意性的示出本发明提供的分布式网页过滤装置300,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。
下面参见图4,图4示出了根据本发明具体实施例的分布式网页过滤系统的示意图。图4示出了公有云集群的多个节点服务器410。各节点服务器410包括分布式网页过滤装置300及本地名单库411。分布式网页过滤装置300的结构如图3所示,包括抓取模块310、解析模块320、第一判断模块330、第二判断模块340、通讯模块350,在此不予赘述。本地名单库411可以储存在节点服务器410的本地高速缓存中。
各节点服务器410与后台管理模块420连接,从而通过后台管理模块420管理各节点服务器410的本地名单库411。具体而言,后台管理模块420可以提供设置界面以供设置各节点服务器410的本地名单库411的内容,并部署到本地名单库411中。后台管理模块420可以实现各节点服务器410的本地名单库411的初始化、同步更新、内容删改、增加等操作。
各节点服务器410还可以与外部系统接口430连接,由此,当各节点服务器410的本地名单库411无法支持网页过滤时,通过外部系统接口430来确定网页状态,从而确定是否需要对网页进行过滤。进一步地,通过外部系统接口430确定的网页状态还可以更新到本地名单库411,并通过该节点服务器410/后台管理模块420进行同步更新。
以上仅仅是示意性地描述了本发明的实时方式,本发明并非以此为限。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述分布式网页过滤方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述分布式网页过滤方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图5所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本发明的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述分布式网页过滤方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施方式的电子设备500。图6显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述分布式网页过滤方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器560可以通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述分布式网页过滤方法。
相比现有技术,本发明的优势在于:
本发明通过在公有云集群的各节点服务器执行抓包分析和网站通信控制,由此实现,确定网页状态的网页过滤。此外,每台节点服务器上运行的方法步骤相互独立,当增加新的节点服务器时,可呈线性扩容,没有性能瓶颈。因此,本发明提供的方法及装置随着公有云集群节点服务器的数量增长而线性增加其处理能力,以解决大规模公有云集群中的网页过滤管理问题。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

Claims (9)

1.一种分布式网页过滤方法,其特征在于,应用于公有云集群的各节点服务器,所述分布式网页过滤方法包括:
抓取数据包;
解析所抓取的数据包,以获得该数据包指示的网页的第一标识信息;
判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第一标识信息;
若该节点服务器的本地名单库中存在该数据包指示的网页的第一标识信息,则判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤;
若该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则中断会话以过滤该网页;
若该节点服务器的本地名单库中不存在该数据包指示的网页的第一标识信息,则获得该数据包指示的网页的第二标识信息;
判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第二标识信息;
若该节点服务器的本地名单库中存在该数据包指示的网页的第二标识信息,则判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤;
若该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则中断会话以过滤该网页,
当所述本地名单库的更新时,该节点服务器将更新的内容发送至一后台管理模块,所述后台管理模块用于同步更新各个节点服务器的本地名单库,使各个节点服务器的本地名单库保持一致。
2.如权利要求1所述的分布式网页过滤方法,其特征在于,所述解析所抓取的数据包,以获得该数据包指示的网页的第一标识信息的步骤还包括:
解析所抓取的数据包,以获得该数据包指示的网页的URL,并将该网页的URL作为该网页的第一标识信息。
3.如权利要求1所述的分布式网页过滤方法,其特征在于,所述网页的第二标识信息为所述网页的信息摘要值。
4.如权利要求1所述的分布式网页过滤方法,其特征在于,若该节点服务器的本地名单库中不存在该数据包指示的网页的第二标识信息,则向一外部系统发送请求信息,以供所述外部系统判断该数据包指示的网页的网页状态;
接收外部系统的反馈信息,若所述外部系统判断该数据包指示的网页状态指示该网页需过滤,则中断会话以过滤该网页。
5.如权利要求4所述的分布式网页过滤方法,其特征在于,所述接收外部系统的反馈信息之后还包括:
根据所述外部系统的反馈信息更新所述本地名单库。
6.如权利要求1所述的分布式网页过滤方法,其特征在于,所述后台管理模块用于同步更新各个节点服务器的本地名单库包括如下步骤中的一项或多项:
当一节点服务器重启时,由所述后台管理模块同步更新该节点服务器的本地名单库;
所述后台管理模块按预定周期同步更新各节点服务器的本地名单库;
所述后台管理模块当从各节点服务器接收到预定数量的更新内容时,同步更新各节点服务器的本地名单库。
7.一种分布式网页过滤装置,其特征在于,应用于公有云集群的各节点服务器,所述分布式网页过滤装置包括:
抓取模块,用于抓取数据包;
解析模块,解析所抓取的数据包,以获得该数据包指示的网页的标识信息;
第一判断模块,用于判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第一标识信息;
第二判断模块,若该节点服务器的本地名单库中存在该数据包指示的网页的第一标识信息,则所述第二判断模块用于判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤;
通讯模块,若该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则所述通讯模块用于中断会话以过滤该网页;
所述分布式网页过滤装置还配置成:
若该节点服务器的本地名单库中不存在该数据包指示的网页的第一标识信息,则获得该数据包指示的网页的第二标识信息;
判断该节点服务器的本地名单库中是否存在该数据包指示的网页的第二标识信息;
若该节点服务器的本地名单库中存在该数据包指示的网页的第二标识信息,则判断该节点服务器的本地名单库中该数据包指示的网页的网页状态是否指示该网页需过滤;
若该节点服务器的本地名单库中该数据包指示的网页的网页状态是指示该网页需过滤,则中断会话以过滤该网页,
当所述本地名单库的更新时,该节点服务器将更新的内容发送至一后台管理模块,所述后台管理模块用于同步更新各个节点服务器的本地名单库,使各个节点服务器的本地名单库保持一致。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至6任一项所述的方法。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一项所述的方法。
CN201811547343.4A 2018-12-17 2018-12-17 分布式网页过滤方法、装置、电子设备、存储介质 Active CN109639686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811547343.4A CN109639686B (zh) 2018-12-17 2018-12-17 分布式网页过滤方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811547343.4A CN109639686B (zh) 2018-12-17 2018-12-17 分布式网页过滤方法、装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN109639686A CN109639686A (zh) 2019-04-16
CN109639686B true CN109639686B (zh) 2022-02-25

Family

ID=66074989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811547343.4A Active CN109639686B (zh) 2018-12-17 2018-12-17 分布式网页过滤方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN109639686B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054030A (zh) * 2010-12-17 2011-05-11 惠州Tcl移动通信有限公司 一种移动终端网页显示控制方法和装置
CN102185830A (zh) * 2011-03-04 2011-09-14 深圳Tcl新技术有限公司 一种网络电视浏览器安全过滤的方法及系统
CN103699665A (zh) * 2013-12-27 2014-04-02 贝壳网际(北京)安全技术有限公司 一种网页广告过滤方法及装置
CN104008131A (zh) * 2014-04-30 2014-08-27 广州市动景计算机科技有限公司 一种网页数据处理方法及装置
CN104426863A (zh) * 2013-08-27 2015-03-18 腾讯科技(深圳)有限公司 一种页面请求方法、页面请求装置、中转服务器及终端
CN105302815A (zh) * 2014-06-23 2016-02-03 腾讯科技(深圳)有限公司 网页的统一资源定位符url的过滤方法和装置
CN108023867A (zh) * 2016-10-28 2018-05-11 中国移动通信集团广东有限公司 移动端网页广告过滤的方法、网关服务器及过滤服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468627A (zh) * 2014-09-04 2016-04-06 纬创资通股份有限公司 屏蔽与过滤网页内容的方法与系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054030A (zh) * 2010-12-17 2011-05-11 惠州Tcl移动通信有限公司 一种移动终端网页显示控制方法和装置
CN102185830A (zh) * 2011-03-04 2011-09-14 深圳Tcl新技术有限公司 一种网络电视浏览器安全过滤的方法及系统
CN104426863A (zh) * 2013-08-27 2015-03-18 腾讯科技(深圳)有限公司 一种页面请求方法、页面请求装置、中转服务器及终端
CN103699665A (zh) * 2013-12-27 2014-04-02 贝壳网际(北京)安全技术有限公司 一种网页广告过滤方法及装置
CN104008131A (zh) * 2014-04-30 2014-08-27 广州市动景计算机科技有限公司 一种网页数据处理方法及装置
CN105302815A (zh) * 2014-06-23 2016-02-03 腾讯科技(深圳)有限公司 网页的统一资源定位符url的过滤方法和装置
CN108023867A (zh) * 2016-10-28 2018-05-11 中国移动通信集团广东有限公司 移动端网页广告过滤的方法、网关服务器及过滤服务器

Also Published As

Publication number Publication date
CN109639686A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN108196915B (zh) 基于应用容器引擎的代码处理方法、设备及存储介质
CN109194606B (zh) 攻击检测系统、方法、计算机设备及存储介质
CN111639061B (zh) Redis集群中数据管理方法、装置、介质及电子设备
CN110730090B (zh) 云环境中代理端批量更新方法、装置、介质及电子设备
CN109684038B (zh) Docker服务容器日志的处理方法、装置和电子设备
CN107644075B (zh) 收集页面信息的方法和装置
US11934287B2 (en) Method, electronic device and computer program product for processing data
US20190129743A1 (en) Method and apparatus for managing virtual machine
CN109672722B (zh) 数据部署方法及装置、计算机存储介质和电子设备
CN111290871A (zh) 获取应用程序崩溃信息的方法和装置
CN112306802A (zh) 系统的数据获取方法、装置、介质和电子设备
CN114185734A (zh) 一种监控集群的方法、装置及电子设备
US11704105B2 (en) Method, device, and computer program product for managing virtual machine upgrade
CN109639686B (zh) 分布式网页过滤方法、装置、电子设备、存储介质
US11662927B2 (en) Redirecting access requests between access engines of respective disk management devices
CN113141407B (zh) 一种页面资源加载方法、装置和电子设备
CN114785861A (zh) 一种服务请求转发系统、方法、计算机设备和存储介质
CN111290873B (zh) 故障处理方法和装置
CN114327563A (zh) 数据同步方法及装置、系统、存储介质、计算机系统
CN114265605A (zh) 一种业务系统功能组件的版本回退方法和装置
CN112416698B (zh) 监控系统的扩展方法及装置、存储介质及电子设备
CN114189750A (zh) 一种多格式文件的播放方法及相关装置
CN113946376A (zh) 负载调整方法、装置、电子设备及存储介质
US9465876B2 (en) Managing content available for content prediction
US9191267B2 (en) Device management for determining the effects of management actions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190416

Assignee: Nanjing Manyun Cold Chain Technology Co.,Ltd.

Assignor: JIANGSU MANYUN SOFTWARE TECHNOLOGY Co.,Ltd.

Contract record no.: X2023980038397

Denomination of invention: Distributed web page filtering methods, devices, electronic devices, storage media

Granted publication date: 20220225

License type: Common License

Record date: 20230724