CN113505323B - 提供翻墙服务网站的识别方法、装置、设备及存储介质 - Google Patents
提供翻墙服务网站的识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113505323B CN113505323B CN202110577356.1A CN202110577356A CN113505323B CN 113505323 B CN113505323 B CN 113505323B CN 202110577356 A CN202110577356 A CN 202110577356A CN 113505323 B CN113505323 B CN 113505323B
- Authority
- CN
- China
- Prior art keywords
- website
- feature
- features
- wall turning
- websites
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012216 screening Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000028838 turning behavior Effects 0.000 abstract description 15
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/46—Interconnection of networks
- H04L12/4641—Virtual LANs, VLANs, e.g. virtual private networks [VPN]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种提供翻墙服务网站的识别方法,该方法包括以下步骤:获取各网站分别对应的网站特征集;获取识别为提供翻墙服务网站需满足的预设特征条件;判断是否存在满足预设特征条件的网站特征集;若是,则将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站。应用本发明所提供的提供翻墙服务网站的识别方法,实现了对翻墙行为进行有效控制,降低了监管工作量,降低了监管成本。本发明还公开了一种提供翻墙服务网站的识别装置、设备及存储介质,具有相应技术效果。
Description
技术领域
本发明涉及网络安全技术领域,特别是涉及一种提供翻墙服务网站的识别方法、装置、设备及计算机可读存储介质。
背景技术
翻墙是指绕过相应的网际互连协议(Internet Protocol,IP)封锁、内容过滤、域名劫持、流量限制等,实现对网络内容的访问。翻墙属于违规行为,若翻墙之后传播一些影响网络安全的内容,则将会被判定为违法行为。因此对网络监管部门提出了较高的翻墙行为监管要求。
现有的对翻墙行为的监管主要是通过流量监管方式监测是否存在对翻墙服务网站的访问行为,若存在,则阻断本次访问。由于网站访问量大,造成监管工作量大,监管成本高,不能对翻墙行为进行有效控制。
综上所述,如何有效地解决现有的对翻墙行为的监管方式监管工作量大,监管成本高,不能对翻墙行为进行有效控制等问题,是目前本领域技术人员急需解决的问题。
发明内容
本发明的目的是提供一种提供翻墙服务网站的识别方法,该方法实现了对翻墙行为进行有效控制,降低了监管工作量,降低了监管成本;本发明的另一目的是提供一种提供翻墙服务网站的识别装置、设备及计算机可读存储介质。
为解决上述技术问题,本发明提供如下技术方案:
一种提供翻墙服务网站的识别方法,包括:
获取各网站分别对应的网站特征集;
获取识别为提供翻墙服务网站需满足的预设特征条件;
判断是否存在满足所述预设特征条件的网站特征集;
若是,则将满足所述预设特征条件的网站特征集对应的网站确定为所述提供翻墙服务网站。
在本发明的一种具体实施方式中,获取识别为提供翻墙服务网站需满足的预设特征条件,包括:
获取识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件。
在本发明的一种具体实施方式中,判断是否存在满足所述预设特征条件的网站特征集,包括:
分别从各所述网站特征集中筛选页面代码结构特征、样式主体特征、JS特征、流量和收费特征;
结合各所述网站分别对应的面代码结构特征、样式主体特征、JS特征、流量和收费特征,判断是否存在满足机场类代理网站对应的预设特征条件的网站特征集。
在本发明的一种具体实施方式中,判断是否存在满足所述预设特征条件的网站特征集,包括:
分别从各所述网站特征集中筛选常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征;
结合各所述网站分别对应的常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征,判断是否存在满足VPN工具下载网站对应的预设特征条件的网站特征集。
在本发明的一种具体实施方式中,判断是否存在满足所述预设特征条件的网站特征集,包括:
分别从各所述网站特征集中筛选翻墙技术类关键词、网页源码标题特征;
结合各所述网站分别对应的翻墙技术类关键词、网页源码标题特征,判断是否存在满足翻墙相关技术知识类网站对应的预设特征条件的网站特征集。
在本发明的一种具体实施方式中,在将满足所述预设特征条件的网站特征集对应的网站确定为所述提供翻墙服务网站之后,还包括:
对所述提供翻墙服务网站的源码和渲染后的页面进行截图操作。
一种提供翻墙服务网站的识别装置,包括:
特征获取模块,用于获取各网站分别对应的网站特征集;
特征条件获取模块,用于获取识别为提供翻墙服务网站需满足的预设特征条件;
判断模块,用于判断是否存在满足所述预设特征条件的网站特征集;
网站识别模块,用于当确定存在满足所述预设特征条件的网站特征集时,将满足所述预设特征条件的网站特征集对应的网站确定为所述提供翻墙服务网站。
在本发明的一种具体实施方式中,所述特征条件获取模块具体为获取识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件的模块。
一种提供翻墙服务网站的识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前所述提供翻墙服务网站的识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述提供翻墙服务网站的识别方法的步骤。
本发明所提供的提供翻墙服务网站的识别方法,获取各网站分别对应的网站特征集;获取识别为提供翻墙服务网站需满足的预设特征条件;判断是否存在满足预设特征条件的网站特征集;若是,则将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站。
由上述技术方案可知,通过预先设置某网站被识别为提供翻墙服务网站需满足的预设特征条件,在获取各网站分别对应的网站特征集之后,分别判断各网站分别对应的网站特征集是否满足预设特征条件,若满足,则将满足预设特征条件的网站特征集对应的网站识别为提供翻墙服务网站。本发明通过对提供翻墙服务网站的识别,从而识别出存在翻墙行为的根源,以便根据识别结果对提供翻墙服务网站进行进一步的管控操作,进而实现了对翻墙行为进行有效控制,降低了监管工作量,降低了监管成本。
相应的,本发明还提供了与上述提供翻墙服务网站的识别方法相对应的提供翻墙服务网站的识别装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供翻墙服务网站的识别方法的一种实施流程图;
图2为本发明实施例中提供翻墙服务网站的识别方法的另一种实施流程图;
图3为本发明实施例中提供翻墙服务网站的识别方法的另一种实施流程图;
图4为本发明实施例中提供翻墙服务网站的识别方法的另一种实施流程图;
图5为本发明实施例中一种提供翻墙服务网站的识别装置的结构框图;
图6为本发明实施例中一种提供翻墙服务网站的识别设备的结构框图;
图7为本实施例提供的一种提供翻墙服务网站的识别设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1为本发明实施例中提供翻墙服务网站的识别方法的一种实施流程图,该方法可以包括以下步骤:
S101:获取各网站分别对应的网站特征集。
当进行网站检测时,预先设置需要对各网站进行采集的各个特征,获取各网站分别对应的网站特征集。如可以获取各待检测网站分别对应的网址,采用网络爬虫技术通过各网址逐层获取网站各网页的源代码,根据各网页的源代码分析得到各网站分别对应的网站特征集。
S102:获取识别为提供翻墙服务网站需满足的预设特征条件。
预先设置某网站被识别为提供翻墙服务网站需满足的预设特征条件,当需要进行提供翻墙服务网站的识别时,获取识别为提供翻墙服务网站需满足的预设特征条件。
预设特征条件可以包括预设页面代码结构特征、预设网站样式主体特征、预设JS(JavaScript)特征、关键词特征等。
S103:判断是否存在满足预设特征条件的网站特征集,若是,则执行步骤S104,若否,则不做处理。
在获取到各网站分别对应的网站特征集,并获取到识别为提供翻墙服务网站需满足的预设特征条件之后,判断是否存在满足预设特征条件的网站特征集,若是,则说明存在提供翻墙服务网站,执行步骤S104,若否,则说明不提供翻墙服务网站,不做处理。
S104:将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站。
当确定存在满足预设特征条件的网站特征集时,说明存在提供翻墙服务网站,将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站。本发明通过对提供翻墙服务网站的识别,从而识别出存在翻墙行为的根源,以便根据识别结果对提供翻墙服务网站进行进一步的管控操作,如对提供翻墙服务网站进行封停操作,进而实现了对翻墙行为进行有效控制,降低了监管工作量,降低了监管成本。
由上述技术方案可知,通过预先设置某网站被识别为提供翻墙服务网站需满足的预设特征条件,在获取各网站分别对应的网站特征集之后,分别判断各网站分别对应的网站特征集是否满足预设特征条件,若满足,则将满足预设特征条件的网站特征集对应的网站识别为提供翻墙服务网站。本发明通过对提供翻墙服务网站的识别,从而识别出存在翻墙行为的根源,以便根据识别结果对提供翻墙服务网站进行进一步的管控操作,进而实现了对翻墙行为进行有效控制,降低了监管工作量,降低了监管成本。
需要说明的是,基于上述实施例,本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
参见图2,图2为本发明实施例中提供翻墙服务网站的识别方法的另一种实施流程图,该方法可以包括以下步骤:
S201:获取各网站分别对应的网站特征集。
S202:获取识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件。
预先对提供翻墙服务网站进行总结划分,如预先将提供翻墙服务网站划分为机场类代理网站、虚拟专用网络(Virtual Private Network,VPN)工具下载网站、翻墙相关技术知识类网站。获取识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件。
S203:分别从各网站特征集中筛选页面代码结构特征、样式主体特征、JS特征、流量和收费特征。
在获取到各网站分别对应的网站特征集,并获取识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件之后,分别从各网站特征集中筛选页面代码结构特征、样式主体特征、JS特征、流量和收费特征。
S204:结合各网站分别对应的面代码结构特征、样式主体特征、JS特征、流量和收费特征,判断是否存在满足机场类代理网站对应的预设特征条件的网站特征集,若是,则执行步骤S205,若否,则不做处理。
在分别从各网站特征集中筛选页面代码结构特征、样式主体特征、JS特征、流量和收费特征之后,结合各网站分别对应的面代码结构特征、样式主体特征、JS特征、流量和收费特征,判断是否存在满足机场类代理网站对应的预设特征条件的网站特征集,若是,则说明存在机场类代理网站,执行步骤S205,若否,则说明不存在机场类代理网站,不做处理。
如:若检测到html代码中同时存在/auth/login/auth/register href="/staff"三个登陆页特征,即页面代码结构特征,则说明很大可能为机场类代理网站;若通过正则匹配特征和信息,匹配到theme/malio、theme/yunwang、Theme by malio等主题特征,或者匹配到github.com/anankke/sspannel-uim、https://t.me/editXY等作者信息、联系方式,则说明很大可能为机场类代理网站;若代码中通过Google Tag Manager加载JS,加载到<script async src="https://www.googletagmanager.com/gtag/js?id=G-P1E9Z5LRRK"></script>或<script>gtag('config','G-P1E9Z5LRRK');</script>等,则说明很大可能为机场类代理网站;若检测到代码<div>标签内包含:套餐、流量、收费、节点、网速、价格等信息,则说明很大可能为机场类代理网站。
可以预先设置判定为机场类代理网站需命中的特征条数,若命中多条特征,则将相应网站识别为机场类代理网站。
S205:将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站。
S206:对提供翻墙服务网站的源码和渲染后的页面进行截图操作。
在将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站之后,对提供翻墙服务网站的源码和渲染后的页面进行截图操作,如就可以使用chorme截图技术对提供翻墙服务网站的源码和渲染后的页面进行截图,从而保留证据。
参见图3,图3为本发明实施例中提供翻墙服务网站的识别方法的另一种实施流程图,该方法可以包括以下步骤:
S301:获取各网站分别对应的网站特征集。
S302:获取识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件。
S303:分别从各网站特征集中筛选常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征。
在获取到各网站分别对应的网站特征集,并获取到识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件之后,分别从各网站特征集中筛选常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征。
S304:结合各网站分别对应的常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征,判断是否存在满足VPN工具下载网站对应的预设特征条件的网站特征集,若是,则执行步骤S305,若否,则不做处理。
在分别从各网站特征集中筛选常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征之后,结合各网站分别对应的面代码结构特征、样式主体特征、JS特征、流量和收费特征,判断是否存在满足机场类代理网站对应的预设特征条件的网站特征集,若是,则说明存在VPN工具下载网站,执行步骤S205,若否,则说明不存在VPN工具下载网站,不做处理。
如:若检测到佛跳墙VPN、PandaVpn、VyprVpn等常见VPN工具名称关键词,则说明很大可能为VPN工具下载网站;若检测到网络梯子、威匹恩、回国加速、流媒体解锁等逃逸VPN关键词,则说明很大可能为VPN工具下载网站;若检测到Html代码超链接标签(<a herf=””></a>)中文本包含下载、免费下载、download等词汇(如<a href="https://www.nyzhishan.com/static_2021/d/2.6.2/fotiaoqiang-2.6.2-1-Setup.exe"onclick="showEr('d_windows_0')">免费下载</a>)的工具下载特征,则说明很大可能为VPN工具下载网站;若代码中通过Google Tag Manager加载JS,得到如<script async src="https://www.googletagmanager.com/gtag/js?id=UA-163570548-1"></script>常见JS特征,则说明很大可能为VPN工具下载网站;若检测到用户代理(USER-AGENT,UA)逃逸特征:通过切换UA为百度UA、GOOGLE UA等搜索引擎爬虫UA后,重新获取页面对比与第一次默认UA爬取的页面对比是否相同,若不相同,则存在用户代理逃逸,或者检测到通过对中文进行转码以逃避检测的中文转码逃逸特征,则说明很大可能为VPN工具下载网站。
可以预先设置判定为VPN工具下载网站需命中的特征条数,若命中多条特征,则将相应网站识别为VPN工具下载网站。
S305:将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站。
S306:对提供翻墙服务网站的源码和渲染后的页面进行截图操作。
参见图4,图4为本发明实施例中提供翻墙服务网站的识别方法的另一种实施流程图,该方法可以包括以下步骤:
S401:获取各网站分别对应的网站特征集。
S402:获取识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件。
S403:分别从各网站特征集中筛选翻墙技术类关键词、网页源码标题特征。
在获取到各网站分别对应的网站特征集,并获取到识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件之后,分别从各网站特征集中筛选翻墙技术类关键词、网页源码标题特征。
S404:结合各网站分别对应的翻墙技术类关键词、网页源码标题特征,判断是否存在满足翻墙相关技术知识类网站对应的预设特征条件的网站特征集,若是,则执行步骤S405,若否,则不做处理。
在分别从各网站特征集中筛选翻墙技术类关键词、网页源码标题特征之后,结合各网站分别对应的翻墙技术类关键词、网页源码标题特征,判断是否存在满足翻墙相关技术知识类网站对应的预设特征条件的网站特征集,若是,则执行步骤S405,若否,则不做处理。
如:若检测到“科学上网”、“机场搭建”、“ssr教学”、“教你翻墙”等翻墙技术类关键词,则说明很大可能为翻墙相关技术知识类网站;若检测到“论坛”、“博客”、“blog”、“教程”、“技术学习”等网页源码标题特征,则说明很大可能为翻墙相关技术知识类网站。
可以预先设置判定为翻墙相关技术知识类网站需命中的特征条数,若命中多条特征,则将相应网站识别为翻墙相关技术知识类网站。
S405:将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站。
S406:对提供翻墙服务网站的源码和渲染后的页面进行截图操作。
相应于上面的方法实施例,本发明还提供了一种提供翻墙服务网站的识别装置,下文描述的提供翻墙服务网站的识别装置与上文描述的提供翻墙服务网站的识别方法可相互对应参照。
参见图5,图5为本发明实施例中一种提供翻墙服务网站的识别装置的结构框图,该装置可以包括:
特征获取模块51,用于获取各网站分别对应的网站特征集;
特征条件获取模块52,用于获取识别为提供翻墙服务网站需满足的预设特征条件;
判断模块53,用于判断是否存在满足预设特征条件的网站特征集;
网站识别模块54,用于当确定存在满足预设特征条件的网站特征集时,将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站。
由上述技术方案可知,通过预先设置某网站被识别为提供翻墙服务网站需满足的预设特征条件,在获取各网站分别对应的网站特征集之后,分别判断各网站分别对应的网站特征集是否满足预设特征条件,若满足,则将满足预设特征条件的网站特征集对应的网站识别为提供翻墙服务网站。本发明通过对提供翻墙服务网站的识别,从而识别出存在翻墙行为的根源,以便根据识别结果对提供翻墙服务网站进行进一步的管控操作,进而实现了对翻墙行为进行有效控制,降低了监管工作量,降低了监管成本。
在本发明的一种具体实施方式中,特征条件获取模块52具体为获取识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件的模块。
在本发明的一种具体实施方式中,判断模块53包括:
第一特征筛选子模块,用于分别从各网站特征集中筛选页面代码结构特征、样式主体特征、JS特征、流量和收费特征;
第一判断子模块,用于结合各网站分别对应的面代码结构特征、样式主体特征、JS特征、流量和收费特征,判断是否存在满足机场类代理网站对应的预设特征条件的网站特征集。
在本发明的一种具体实施方式中,判断模块53包括:
第二特征筛选子模块,用于分别从各网站特征集中筛选常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征;
第二判断子模块,用于结合各网站分别对应的常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征,判断是否存在满足VPN工具下载网站对应的预设特征条件的网站特征集。
在本发明的一种具体实施方式中,判断模块53包括:
第三特征筛选子模块,用于分别从各网站特征集中筛选翻墙技术类关键词、网页源码标题特征;
第三判断子模块,用于结合各网站分别对应的翻墙技术类关键词、网页源码标题特征,判断是否存在满足翻墙相关技术知识类网站对应的预设特征条件的网站特征集。
在本发明的一种具体实施方式中,该装置还可以包括:
截图模块,用于在将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站之后,对提供翻墙服务网站的源码和渲染后的页面进行截图操作。
相应于上面的方法实施例,参见图6,图6为本发明所提供的提供翻墙服务网站的识别设备的示意图,该设备可以包括:
存储器332,用于存储计算机程序;
处理器322,用于执行计算机程序时实现上述方法实施例的提供翻墙服务网站的识别方法的步骤。
具体的,请参考图7,图7为本实施例提供的一种提供翻墙服务网站的识别设备的具体结构示意图,该提供翻墙服务网站的识别设备可因配置或性能不同而产生比较大的差异,可以包括处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,处理器322可以设置为与存储器332通信,在提供翻墙服务网站的识别设备301上执行存储器332中的一系列指令操作。
提供翻墙服务网站的识别设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
上文所描述的提供翻墙服务网站的识别方法中的步骤可以由提供翻墙服务网站的识别设备的结构实现。
相应于上面的方法实施例,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
获取各网站分别对应的网站特征集;获取识别为提供翻墙服务网站需满足的预设特征条件;判断是否存在满足预设特征条件的网站特征集;若是,则将满足预设特征条件的网站特征集对应的网站确定为提供翻墙服务网站。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (5)
1.一种提供翻墙服务网站的识别方法,其特征在于,包括:
获取各网站分别对应的网站特征集;
获取识别为提供翻墙服务网站需满足的预设特征条件;
判断是否存在满足所述预设特征条件的网站特征集;
若是,则将满足所述预设特征条件的网站特征集对应的网站确定为所述提供翻墙服务网站;
其中,获取识别为提供翻墙服务网站需满足的预设特征条件,包括:
获取识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件;
其中,判断是否存在满足所述预设特征条件的网站特征集,包括:
分别从各所述网站特征集中筛选页面代码结构特征、样式主体特征、JS特征、流量和收费特征;
结合各所述网站分别对应的面代码结构特征、样式主体特征、JS特征、流量和收费特征,判断是否存在满足机场类代理网站对应的预设特征条件的网站特征集;
分别从各所述网站特征集中筛选常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征;
结合各所述网站分别对应的常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征,判断是否存在满足VPN工具下载网站对应的预设特征条件的网站特征集;
分别从各所述网站特征集中筛选翻墙技术类关键词、网页源码标题特征;
结合各所述网站分别对应的翻墙技术类关键词、网页源码标题特征,判断是否存在满足翻墙相关技术知识类网站对应的预设特征条件的网站特征集。
2.根据权利要求1所述的提供翻墙服务网站的识别方法,其特征在于,在将满足所述预设特征条件的网站特征集对应的网站确定为所述提供翻墙服务网站之后,还包括:
对所述提供翻墙服务网站的源码和渲染后的页面进行截图操作。
3.一种提供翻墙服务网站的识别装置,其特征在于,包括:
特征获取模块,用于获取各网站分别对应的网站特征集;
特征条件获取模块,用于获取识别为提供翻墙服务网站需满足的预设特征条件;
判断模块,用于判断是否存在满足所述预设特征条件的网站特征集;
网站识别模块,用于当确定存在满足所述预设特征条件的网站特征集时,将满足所述预设特征条件的网站特征集对应的网站确定为所述提供翻墙服务网站;
其中,所述特征条件获取模块具体为获取识别为相应类别提供翻墙服务网站分别对应的需满足的预设特征条件的模块;
其中,所述判断模块包括:
第一特征筛选子模块,用于分别从各所述网站特征集中筛选页面代码结构特征、样式主体特征、JS特征、流量和收费特征;
第一判断子模块,用于结合各所述网站分别对应的面代码结构特征、样式主体特征、JS特征、流量和收费特征,判断是否存在满足机场类代理网站对应的预设特征条件的网站特征集;
第二特征筛选子模块,用于分别从各所述网站特征集中筛选常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征;
第二判断子模块,用于结合各所述网站分别对应的常见VPN工具名称关键词、逃逸VPN关键词、工具下载特征、常见JS特征、用户代理逃逸特征、中文转码逃逸特征,判断是否存在满足VPN工具下载网站对应的预设特征条件的网站特征集;
第三特征筛选子模块,用于分别从各所述网站特征集中筛选翻墙技术类关键词、网页源码标题特征;
第三判断子模块,用于结合各所述网站分别对应的翻墙技术类关键词、网页源码标题特征,判断是否存在满足翻墙相关技术知识类网站对应的预设特征条件的网站特征集。
4.一种提供翻墙服务网站的识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至2任一项所述提供翻墙服务网站的识别方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述提供翻墙服务网站的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110577356.1A CN113505323B (zh) | 2021-05-26 | 2021-05-26 | 提供翻墙服务网站的识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110577356.1A CN113505323B (zh) | 2021-05-26 | 2021-05-26 | 提供翻墙服务网站的识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505323A CN113505323A (zh) | 2021-10-15 |
CN113505323B true CN113505323B (zh) | 2024-01-30 |
Family
ID=78008577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110577356.1A Active CN113505323B (zh) | 2021-05-26 | 2021-05-26 | 提供翻墙服务网站的识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505323B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105323216A (zh) * | 2014-06-20 | 2016-02-10 | 中兴通讯股份有限公司 | 通信链路的发送方法、装置及终端 |
CN112347327A (zh) * | 2020-10-22 | 2021-02-09 | 杭州安恒信息技术股份有限公司 | 网站检测方法、装置、可读存储介质及计算机设备 |
CN112600861A (zh) * | 2021-03-03 | 2021-04-02 | 北京安帝科技有限公司 | 网络翻墙行为的检测方法和装置 |
-
2021
- 2021-05-26 CN CN202110577356.1A patent/CN113505323B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105323216A (zh) * | 2014-06-20 | 2016-02-10 | 中兴通讯股份有限公司 | 通信链路的发送方法、装置及终端 |
CN112347327A (zh) * | 2020-10-22 | 2021-02-09 | 杭州安恒信息技术股份有限公司 | 网站检测方法、装置、可读存储介质及计算机设备 |
CN112600861A (zh) * | 2021-03-03 | 2021-04-02 | 北京安帝科技有限公司 | 网络翻墙行为的检测方法和装置 |
Non-Patent Citations (2)
Title |
---|
基于Faster-RCNN的翻墙识别模型;万强;;信息与电脑(理论版)(04);全文 * |
网络监管下的上网代理类插件分析与研究;张正旭;许源;;网络空间安全(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113505323A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8898796B2 (en) | Managing network data | |
CN103095681B (zh) | 一种检测漏洞的方法及装置 | |
US8626786B2 (en) | Dynamic language checking | |
US9485240B2 (en) | Multi-account login method and apparatus | |
US10320817B2 (en) | Systems and methods for detecting an attack on an auto-generated website by a virtual machine | |
CN106815524B (zh) | 恶意脚本文件的检测方法及装置 | |
US20190258606A1 (en) | Generating index entries in source files | |
US20200034530A1 (en) | Protection system against exploitative resource use by websites | |
US20130074160A1 (en) | Method of controlling information processing system, computer-readable recording medium storing program for controlling apparatus | |
CN112650905A (zh) | 基于标签的反爬虫方法、装置、计算机设备及存储介质 | |
US9942267B1 (en) | Endpoint segregation to prevent scripting attacks | |
CN115766184A (zh) | 一种网页数据处理方法、装置、电子设备及存储介质 | |
CN111753302A (zh) | 检测代码漏洞的方法、装置、计算机可读介质及电子设备 | |
CN103390129B (zh) | 检测统一资源定位符安全性的方法和装置 | |
CN110321510A (zh) | 页面渲染方法和系统 | |
CN113505323B (zh) | 提供翻墙服务网站的识别方法、装置、设备及存储介质 | |
CN113495825A (zh) | 线路告警的处理方法、装置、电子设备及可读存储介质 | |
Lau | Scan code injection flaws in html5-based mobile applications | |
Akshay Dev et al. | STRIDE based analysis of the chrome browser extensions API | |
CN103581321A (zh) | 一种refer链的创建方法、装置及安全检测方法和客户端 | |
CN112287349A (zh) | 安全漏洞检测方法及服务端 | |
CN111770168B (zh) | 网页的重定向防护方法、装置及电子设备 | |
CN115809193A (zh) | 前端逆向异常数据健壮性检测方法、装置及存储介质 | |
CN114329459A (zh) | 浏览器防护方法及装置 | |
CN111737624B (zh) | 页面的重定向防护方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |