CN112804266A - 网页数据处理方法、装置、计算机设备和存储介质 - Google Patents

网页数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112804266A
CN112804266A CN202110377489.4A CN202110377489A CN112804266A CN 112804266 A CN112804266 A CN 112804266A CN 202110377489 A CN202110377489 A CN 202110377489A CN 112804266 A CN112804266 A CN 112804266A
Authority
CN
China
Prior art keywords
confusion
character
response data
content
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110377489.4A
Other languages
English (en)
Inventor
梁思健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110377489.4A priority Critical patent/CN112804266A/zh
Publication of CN112804266A publication Critical patent/CN112804266A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种网页数据处理方法、装置、计算机设备和存储介质。所述方法涉及云技术的云安全服务,所述方法包括:获取响应于网页访问请求生成的原始响应数据,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,获取依据字符编码文件及字符映射关系生成的反混淆字符文件,根据混淆内容和反混淆字符文件生成混淆响应数据,返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。采用本方法能够有效防止恶意爬虫的攻击,提高信息安全性。

Description

网页数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种网页数据处理方法、装置、计算机设备和存储介质。
背景技术
网络爬虫是按照特定规则,自动地抓取万维网信息的程序或者脚本。随着计算机技术和互联网技术的飞速发展,出现了恶意爬虫,恶意爬虫在于通过爬取万维网信息来攫取不正当竞争的优势,甚至是牟取不法利益。
在传统的反爬虫方法中,一般是通过分析访问者的访问频率、动作行为等,来判断访问者是否为恶意爬虫,若判定为恶意爬虫,则直接阻断访问。但是,这种方法存在误拦截的可能性。还有一些方法是通过输入验证码等验证方式来提升访问难度。但是,这种方法不仅给正常的访问用户带来不便,恶意爬虫也比较容易绕过各种验证方式。可以看出,传统的反爬虫方法存在反爬虫有效性低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升反爬虫有效性的网页数据处理方法、装置、计算机设备和存储介质。
一种网页数据处理方法,该方法包括:
获取响应于网页访问请求生成的原始响应数据;
按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容;
获取依据字符编码文件及字符映射关系生成的反混淆字符文件;
根据混淆内容和反混淆字符文件生成混淆响应数据;
返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
一种网页数据处理装置,该装置包括:
获取模块,用于获取响应于网页访问请求生成的原始响应数据;
混淆处理模块,用于按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容;获取依据字符编码文件及字符映射关系生成的反混淆字符文件;根据混淆内容和反混淆字符文件生成混淆响应数据;
返回模块,用于返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
在一个实施例中,混淆处理模块还用于:从原始响应数据中提取敏感内容;查询字符映射关系,获得与敏感内容中的字符对应的混淆字符;按照混淆字符替换敏感内容中的相应字符后,得到与敏感内容对应的混淆内容。
在一个实施例中,混淆处理模块还用于:从原始响应数据中查找敏感内容标识字段;将敏感内容标识字段标注的内容作为敏感内容。
在一个实施例中,混淆处理模块还用于:基于预设的原始字符映射关系,生成本次混淆处理对应的动态字符映射关系;按照动态字符映射关系,对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容。
在一个实施例中,混淆处理模块还用于:获取本次混淆处理对应的随机因子;按照随机因子调整原始字符映射关系,得到本次混淆处理对应的动态字符映射关系。
在一个实施例中,混淆处理模块还用于:获取网页访问请求的请求时间;确定与请求时间对应的动态随机因子;根据动态随机因子对原始字符映射关系进行调整,得到本次混淆处理对应的动态字符映射关系。
在一个实施例中,字符编码文件包括字符与字符编码之间的映射关系;混淆处理模块还用于:根据字符映射关系,调整字符编码文件包括的字符与字符编码之间的映射关系,得到反混淆字符文件。
在一个实施例中,混淆处理模块还用于:利用混淆内容替换原始响应数据中的敏感内容;根据替换后的原始响应数据以及反混淆字符文件生成混淆响应数据。
在一个实施例中,混淆响应数据还包括反混淆渲染标识字段;混淆处理模块还用于:将混淆响应数据返回至发起网页访问请求的终端;通过终端接收混淆响应数据,并在遍历到混淆响应数据中的反混淆渲染标识字段时,按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
在一个实施例中,混淆处理模块还用于:通过终端接收混淆响应数据,并在遍历到混淆响应数据中的反混淆渲染标识字段时,提取混淆响应数据的混淆内容中的字符对应的字符编码,从反混淆字符文件包括的字符与字符编码之间的映射关系中,查找与字符编码对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
在一个实施例中,获取模块还用于:获取终端发送的网页访问请求,将网页访问请求转发至网页服务器;接收网页服务器响应于网页访问请求生成的原始响应数据;网页数据处理装置还包括转发模块,转发模块用于:获取网页访问请求指向的访问路径及反恶意攻击路径列表;当网页访问请求指向的访问路径不属于反恶意攻击路径列表中的路径时,则将原始响应数据转发至终端;当网页访问请求指向的访问路径属于反恶意攻击路径列表中的路径时,将混淆响应数据转发至终端。
在一个实施例中,网页数据处理装置还包括配置模块,配置模块用于:通过终端在网页中显示反恶意攻击路径的配置控件;响应于对配置控件的触发操作,进入反恶意攻击路径的配置页面;在配置页面中,获取输入的反恶意攻击路径;根据输入的反恶意攻击路径获得反恶意攻击路径列表。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取响应于网页访问请求生成的原始响应数据;
按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容;
获取依据字符编码文件及字符映射关系生成的反混淆字符文件;
根据混淆内容和反混淆字符文件生成混淆响应数据;
返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取响应于网页访问请求生成的原始响应数据;
按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容;
获取依据字符编码文件及字符映射关系生成的反混淆字符文件;
根据混淆内容和反混淆字符文件生成混淆响应数据;
返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
一种计算机程序,计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机指令,处理器执行计算机指令,使得计算机设备执行上述网页数据处理方法的步骤。
上述网页数据处理方法、装置、计算机设备和存储介质,获取到响应于网页访问请求生成的原始响应数据之后,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,这样可以使恶意爬虫爬取错误内容再获取依据字符编码文件及字符映射关系生成的反混淆字符文件,根据混淆内容和反混淆字符文件生成混淆响应数据,并响应于网页访问请求返回混淆响应数据后,网页就可以按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符,并按照反混淆字符展示原始响应数据中的敏感内容,以向用户展示正确内容。这样,在不影响用户获取信息的同时,降低了恶意爬虫所能够爬取的信息价值,且由于恶意爬虫不清楚字符映射关系,恶意爬虫无法破解混淆内容,降低了恶意爬虫破解的可能性,从而提高了反恶意爬虫的有效性。
附图说明
图1(a)为一个实施例中网页数据处理方法的应用环境图;
图1(b)为另一个实施例中网页数据处理方法的应用环境图;
图2为一个实施例中网页数据处理方法的流程示意图;
图3(a)为一个实施例中字符映射关系的示意图;
图3(b)为一个实施例中原始字符映射关系的示意图;
图4为一个实施例中原始响应数据的示意图;
图5(a)为一个实施例中字符编码文件的示意图;
图5(b)为一个实施例中反混淆字符文件的示意图;
图6为一个实施例中混淆处理的流程框图;
图7为一个实施例中反混淆渲染标识字段的示意图;
图8为一个实施例中反混淆处理的流程框图;
图9(a)为一个实施例中字符编码文件的界面示意图;
图9(b)为一个实施例中反混淆字符文件的界面示意图;
图10为一个实施例中反恶意攻击路径的配置页面的示意图;
图11为另一个实施例中网页数据处理方法的流程示意图;
图12为一个实施例中网页数据处理装置的结构框图;
图13为一个实施例中计算机设备的内部结构图;
图14为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的网页数据处理方法,涉及云技术(Cloud technology),云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
本申请实施例提供的网页数据处理方法,主要涉及云技术的云安全(CloudSecurity)。云安全是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。
云安全主要研究方向包括:1.云计算安全,主要研究如何保障云自身及云上各种应用的安全,包括云计算机系统安全、用户数据的安全存储与隔离、用户接入认证、信息传输安全、网络攻击防护、合规审计等;2.安全基础设施的云化,主要研究如何采用云计算新建与整合安全基础设施资源,优化安全防护机制,包括通过云计算技术构建超大规模安全事件、信息采集与处理平台,实现对海量信息的采集与关联分析,提升全网安全事件把控能力及风险控制能力;3.云安全服务,主要研究各种基于云计算平台为用户提供的安全服务,如防病毒服务等。
本申请实施例提供的网页数据处理方法,主要涉及云安全的云安全服务。例如,在本申请实施例中,计算机设备获取响应于网页访问请求生成的原始响应数据,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,以使恶意爬虫爬取错误内容;并且,计算机设备获取依据字符编码文件及字符映射关系生成的反混淆字符文件,根据混淆内容和反混淆字符文件生成混淆响应数据,返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容,以向用户展示正确内容;这样,在不影响用户获取信息的同时,降低恶意爬虫所能够爬取的信息价值,从而提高反恶意爬虫的有效性。
本申请实施例提供的网页数据处理方法,还涉及区块链技术。例如,在本申请实施例中,应用防护服务器可以是区块链网络中的区块链节点,预设的字符映射关系可以存储在区块链上,应用防护服务器可从区块链的数据区块中获取该字符映射关系。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
本申请提供的网页数据处理方法,可以应用于如图1(a)所示的应用环境中。终端102与网页防护服务器104连接,网页防护服务器104与网页服务器106连接。终端102可安装有网页客户端,比如浏览器;终端102也可安装有恶意爬虫程序。网页防护服务器104部署在网页服务器106的前端,用于保障网页服务器106的通信安全。在一个实施例中,网页防护服务器104可以是网页应用防火墙(Web Application Firewall)。网页应用防火墙通过执行针对HTTP/HTTPS的安全策略来专门为网页应用提供保护。网页应用是基于网页访问的应用程序,用户无需下载应用软件,通过浏览器即可访问应用程序。
在一些实施例中,终端102上还可以按照网页防护应用程序,网页防护服务器104为该网页防护应用程序提供服务,该网页防护应用程序与该网页防护服务器104共同于为终端上安装的网页客户端提供安全服务保护,例如,当终端上安装了网页防护应用程序后,用户就可以通过网页客户端配置需要进行爬虫防护的访问路径。其中,终端102可以但不限于是各种智能手机、平板电脑、笔记本电脑、台式计算机、便携式可穿戴设备、智能音箱等。网页防护服务器104可以是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
网页服务器106可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例提供的网页数据处理方法,其执行主体可以是本申请实施例提供的网页数据处理装置,或者集成了该网页数据处理装置的计算机设备,其中该网页数据处理装置可以采用硬件或软件的方式实现。计算机设备可以是图1(a)中所示网页防护服务器104。
在一个实施例中,以网页防护服务器104为例,参照图1(b),终端102获取网页访问请求,将网页访问请求发送至网页防护服务器104,网页防护服务器104将网页访问请求转发至网页服务器106;网页服务器106响应于网页访问请求生成原始响应数据,将原始响应数据返回至网页防护服务器104;网页防护服务器104按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,获取依据字符编码文件及字符映射关系生成的反混淆字符文件,根据混淆内容和反混淆字符文件生成混淆响应数据,返回混淆响应数据至终端102;终端102按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
本申请实施例提供的网页数据处理方法,可应用于反恶意爬虫场景。恶意爬虫在于爬取网页中的敏感内容,根据敏感内容来攫取不正当竞争的优势,甚至是牟取不法利益。在一个实施例中,网页防护服务器获取响应于网页访问请求生成的原始响应数据,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,以使恶意爬虫爬取错误内容;并且,网页防护服务器获取依据字符编码文件及字符映射关系生成的反混淆字符文件,根据混淆内容和反混淆字符文件生成混淆响应数据,返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容,以向用户展示正确内容;这样,在不影响用户获取信息的同时,降低恶意爬虫所能够爬取的信息价值,从而提高反恶意爬虫的有效性。
在一个实施例中,如图2所示,提供了一种网页数据处理方法,本实施例主要以该方法应用于图1(a)中的网页防护服务器104来举例说明,包括以下步骤:
步骤S202,获取响应于网页访问请求生成的原始响应数据。
其中,网页访问请求是用于访问网页的请求,可用于请求浏览器显示新的页面。网页访问请求可以是HTTP(Hypertext Transfer Protocol)请求或者HTTPS(Hyper TextTransfer Protocol over SecureSocket Layer)请求等。万维网(World Wide Web,WWW)的页面中包括指向其它页面的超级链接,比如统一资源定位器(Uniform Resource Locator,URL)等,当超级链接被激活时,可使浏览器跳转至新的页面。在一个实施例中,终端响应于在当前页面的触发操作生成网页访问请求。在当前页面的触发操作可以是在当前页面的触控操作、点击操作等。可选地,这里的页面可以是网页应用的应用页面。网页应用是基于网页访问的应用程序,用户无需下载应用软件,通过浏览器即可访问应用程序。
其中,原始响应数据是响应于网页访问请求生成的原始网页数据,比如超文本标记语言(Hyper Text Markup Language, HTML)文件等。超文本标记语言是为创建网页设计的一种标记语言,将所需表达的信息编写成超文本标记语言文件,通过浏览器可将超文本标记语言文件“翻译”成万维网的页面。
在一个实施例中,网页服务器接收终端经由网页防火墙发送的网页访问请求,响应于网页访问请求生成原始响应数据。
参照图1(b),网页防护服务器104获取终端102发送的网页访问请求,将网页访问请求转发至网页服务器106,网页服务器106基于网页访问请求返回原始响应数据,网页防护服务器104由此获得原始响应数据。
步骤S204,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容。
其中,字符映射关系用于描述字符与字符之间的映射关系。参照图3(a),图3(a)为一个实施例中字符映射关系的示意图。可以看到,在字符映射关系中,每个原始字符具有唯一对应的混淆字符。敏感内容是原始响应数据中防止恶意爬虫爬取的重要内容,比如证件号码、手机号等。敏感内容可以包括数字、字母、文字、符号中的至少一种。参照图4,图4为一个实施例中原始响应数据的示意图。其中,“19.9”、“59”均可以是原始响应数据中的敏感内容。混淆内容是对敏感内容进行混淆处理后得到的错误内容。
在一个实施例中,字符映射关系可以是相同类型的字符之间的映射关系,比如数字与数字之间的映射关系、字母与字母之间的映射关系、文字与文字之间的映射关系、符号与符号之间的映射关系等。在另一些实施例中,字符映射关系也可以是不同类型的字符之间的映射关系,比如数字与字母之间的映射关系、字母与文字之间的映射关系,文字与数字之间的映射关系、数字与符号之间的映射关系等。
在一个实施例中,网页防护服务器获取预设的字符映射关系,按照预设的字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容。关于字符映射关系的其它获取方式,可参照后续实施例,在此不再赘述。
在一个实施例中,步骤S204包括:从原始响应数据中提取敏感内容;查询字符映射关系,获得与敏感内容中的字符对应的混淆字符;按照混淆字符替换敏感内容中的相应字符后,得到与敏感内容对应的混淆内容。具体地,网页防护服务器从原始响应数据中提取敏感内容,对于敏感内容中的全部字符或者部分字符,按照字符映射关系查询相应的混淆字符,利用混淆字符替换敏感内容中的相应字符,得到与敏感内容对应的混淆内容。
在一个实施例中,混淆处理可通过以下公式进行表示:
Figure 474713DEST_PATH_IMAGE001
其中,
Figure 409171DEST_PATH_IMAGE002
表示混淆字符;
Figure 605797DEST_PATH_IMAGE003
表示敏感内容中的原始字符;
Figure 923908DEST_PATH_IMAGE004
表示字符映射关系。
举例说明,网页防护服务器从图4所示的原始响应数据中提取敏感内容“19.9”,查询图3(a)所示的字符映射关系,获得与原始字符“1”对应的混淆字符“8”,与原始字符“9”对应的混淆字符“0”,利用混淆字符“8”替换原始字符“1”,混淆字符“0”替换原始字符“9”,得到与敏感内容“19.9”对应的混淆内容“80.0”。
本实施例中,按照字符映射关系对敏感内容进行混淆处理,以使恶意爬虫爬取错误内容,降低恶意爬虫所能够爬取的信息价值,且由于恶意爬虫不清楚字符映射关系,故恶意爬虫无法破解混淆内容,降低恶意爬虫破解的可能性。
步骤S206,获取依据字符编码文件及字符映射关系生成的反混淆字符文件。
其中,编码是按照事先规定的方式将字符编码成数码的过程,字符编码文件是按照标准编码方式将字符编码成数码的文件。字符编码文件可以是统一码(Unicode)的编码文件,也可以是字体文件,比如宋体文件、楷体文件等。字符编码文件可以是浏览器页面中的字符所使用的字体文件。
在一个实施例中,字符编码文件包括字符与字符编码之间的映射关系。参照图5(a),图5(a)为一个实施例中字符编码文件的示意图。可以看到,在字符编码文件包括的字符与字符编码之间的映射关系中,每个字符具有唯一对应的字符编码。字符编码可以是统一码(Unicode)等。统一码是为了解决传统的字符编码方案的局限性所产生的,其为每种语言中的每个字符设定了统一且唯一的二进制编码,以满足跨语言、跨平台进行文本处理的要求。
下面对发明人的思路进行介绍:
发明人从降低恶意爬虫所能够爬取的信息价值这一角度出发,通过对敏感内容进行混淆处理,使得恶意爬虫爬取错误内容。但是,在恶意爬虫爬取错误内容的同时,向用户展示的也会是错误内容。发明人分析向用户展示内容的过程:在终端渲染页面时,终端获取混淆内容中的字符对应的字符编码,按照渲染所需的字符编码文件包括的字符与字符编码之间的映射关系,查询字符编码对应的字符,将字符渲染在屏幕上,由于渲染的是混淆内容,故用户看到的是错误内容。发明人想到,可在终端渲染页面时,对混淆内容在视觉上进行反混淆处理。具体地,根据字符映射关系调整字符编码文件包括的字符与字符编码之间的映射关系,生成反混淆字符文件,在终端渲染页面时,终端获取混淆内容中的字符对应的字符编码,按照反混淆字符文件包括的字符与字符编码之间的映射关系,查询字符编码对应的字符,将字符渲染在屏幕上,由于按照反混淆字符文件对混淆内容进行渲染,故用户看到的是正确内容。
在一个实施例中,对混淆内容在视觉上进行反混淆处理,可通过以下公式进行表示:
Figure 270707DEST_PATH_IMAGE005
其中,
Figure 262934DEST_PATH_IMAGE006
表示敏感内容中的原始字符;
Figure 771407DEST_PATH_IMAGE002
表示混淆字符;
Figure 278611DEST_PATH_IMAGE004
表示字符映射关系。比 如,网页防护服务器获得与敏感内容“19.9”对应的混淆内容“80.0”,在向用户展示时,需要 将混淆内容“80.0”展示为“19.9”。
其中,反混淆字符文件是按照事先规定的方式将字符编码成数码的文件,反混淆字符文件是依据字符编码文件与字符映射关系生成的,反混淆字符文件可以是字体文件。反混淆字符文件与字符编码文件可用于渲染相同的字体,但是二者包括的字符与字符编码之间的映射关系存在差异。
在一个实施例中,反混淆字符文件包括字符与字符编码之间的映射关系。参照图5(b),图5(b)为一个实施例中反混淆字符文件的示意图。可以看到,在反混淆字符文件包括的字符与字符编码之间的映射关系中,每个字符具有唯一对应的字符编码,并且图5(b)中的字符与字符编码之间的映射关系,与图5(a)中的字符与字符编码之间的映射关系存在差异。
在一个实施例中,网页防护服务器根据字符编码文件及字符映射关系生成反混淆字符文件。
在一个实施例中,网页防护服务器根据字符映射关系,调整字符编码文件包括的字符与字符编码之间的映射关系,得到反混淆字符文件。
具体地,网页防护服务器根据字符映射关系中原始字符与混淆字符之间的映射关系,将原始字符和混淆字符在字符编码文件中的位置进行交换,以交换原始字符和混淆字符分别对应的字符编码,得到反混淆字符文件。
举例说明,网页防护服务器根据图3(a)所示的字符映射关系,调整图5(a)所示的字符编码文件包括的字符与字符编码之间的映射关系,比如,根据图3(a)中的原始字符“0”与混淆字符“9”之间的映射关系,将图5(a)中的字符“0”和字符“9”分别对应的字符编码进行交换,根据图3(a)中的原始字符“1”与混淆字符“8”之间的映射关系,将图5(a)中的字符“1”和字符“8”分别对应的字符编码进行交换,根据图3(a)中的原始字符“2”和混淆字符“7”之间的映射关系,将图5(a)中的字符“2”和字符“7”分别对应的字符编码进行交换,根据图3(a)中的原始字符“3”和混淆字符“6”之间的映射关系,将图5(a)中的字符“3”和字符“6”分别对应的字符编码进行交换,根据图3(a)中的原始字符“4”和混淆字符“5”之间的映射关系,将图5(a)中的字符“4”和字符“5”分别对应的字符编码进行交换,得到图5(b)所示的反混淆字符文件。图5(b)中的字符与字符编码之间的映射关系与图5(a)中的字符与字符编码之间的映射关系存在差异,该差异与图3(a)中的字符映射关系相匹配。
本实施例中,由于反混淆字符文件是根据字符映射关系调整字符编码文件包括的字符与字符编码之间的映射关系得到的,后续可根据反混淆字符文件包括的字符与字符编码之间的映射关系对混淆内容在视觉上进行反混淆处理,从而向用户展示正确内容。
步骤S208,根据混淆内容和反混淆字符文件生成混淆响应数据。
在一个实施例中,网页防护服务器根据混淆内容和反混淆字符文件生成混淆响应数据。
在一个实施例中,网页防护服务器利用混淆内容替换原始响应数据中的敏感内容;根据替换后的原始响应数据以及反混淆字符文件生成混淆响应数据。举例说明,网页防护服务器利用混淆内容“80.0”替换图4所示的原始响应数据中的敏感内容“19.9”,根据替换后的原始响应数据以及图5(b)所示的反混淆字符文件生成混淆响应数据。
本实施例中,由于恶意爬虫无法处理反混淆字符文件,恶意爬虫也不清楚字符映射关系,降低了恶意爬虫破解的可能性。
步骤S210,返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
在一个实施例中,网页防护服务器返回响应于网页访问请求的混淆响应数据。
参照图1(b),网页防护服务器104向终端102返回混淆响应数据,以使终端102按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
在一个实施例中,终端提取混淆响应数据的混淆内容中的字符对应的字符编码,从反混淆字符文件包括的字符与字符编码之间的映射关系中,查找与字符编码对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
举例说明,终端按照图5(a)所示的字符编码文件提取混淆内容“80.0”对应的字符编码“U+0038”和“U+0030”,按照图5(b)所示的反混淆字符文件查询“U+0038”和“U+0030”分别对应的反混淆字符“1”和“9”,从而向用户展示“19.9”。
上述网页数据处理方法中,获取响应于网页访问请求生成的原始响应数据,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,以使恶意爬虫爬取错误内容;并且,获取依据字符编码文件及字符映射关系生成的反混淆字符文件,根据混淆内容和反混淆字符文件生成混淆响应数据,返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容,以向用户展示正确内容;这样,在不影响用户获取信息的同时,降低了恶意爬虫所能够爬取的信息价值,且由于恶意爬虫不清楚字符映射关系,恶意爬虫无法破解混淆内容,降低了恶意爬虫破解的可能性,从而提高了反恶意爬虫的有效性。
在一个实施例中,从原始响应数据中提取敏感内容,包括:从原始响应数据中查找敏感内容标识字段;将敏感内容标识字段标注的内容作为敏感内容。
其中,敏感内容标识字段用于标注敏感内容。继续参照图4,字段402“<span class=“confuse”></span>”可以是敏感内容标识字段。在一个实施例中,网页防护服务器可采用传统的正则表达式匹配库提取敏感内容。
本实施例中,网页服务器生成原始响应数据时,通过敏感内容标识字段标注敏感内容,网页防护服务器从原始响应数据中提取敏感内容时,通过从原始响应数据中查找敏感内容标识字段,即可快速从原始响应数据中提取敏感内容。
在一个实施例中,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,包括:基于预设的原始字符映射关系,生成本次混淆处理对应的动态字符映射关系;按照动态字符映射关系,对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容。
其中,原始字符映射关系可以是预先设置的字符映射关系。在原始字符映射关系中,每个原始字符对应的混淆字符,可与原始字符相同或不同。参照图3(b),图3(b)为一个实施例中原始字符映射关系的示意图。可以看到,每个原始字符对应的混淆字符可与原始字符相同。动态字符映射关系是本次混淆处理所采用的字符映射关系。
在一个实施例中,网页防护服务器每次对敏感内容进行混淆处理时,可采用动态的字符映射关系。网页防护服务器对预设的原始字符映射关系进行调整,生成本次混淆处理所采用的动态的字符映射关系。可以理解,网页防护服务器可对预设的原始字符映射关系进行全部调整或者部分调整。
在一个实施例中,网页防护服务器可生成的动态字符映射关系的数量可通过以下公式进行表示:
Figure 756997DEST_PATH_IMAGE007
其中,
Figure 666047DEST_PATH_IMAGE008
表示可生成的动态字符映射关系的数量;
Figure 329110DEST_PATH_IMAGE009
表示原始字符中进行映射替换 的字符的数量;
Figure 526873DEST_PATH_IMAGE010
表示原始字符中不做映射替换的字符的数量。可以看出,网页防护服务器 可生成的动态字符映射关系的数量是庞大的,这也在一定程度上增加了恶意爬虫破解的难 度。
在一个实施例中,网页防护服务器对预设的原始字符映射关系中的原始字符所在的位置进行交换,或者对预设的原始字符映射关系中的混淆字符所在的位置进行交换,生成本次混淆处理所采用的动态的字符映射关系。可选地,交换方式可以是两两交换。继续参照图3(b),网页防护服务器对混淆字符“0”和混淆字符“9”所在的位置进行交换,使得原始字符“0”对应混淆字符“9”,原始字符“9”对应混淆字符“0”。
在一个实施例中,参照图6,图6为一个实施例中混淆处理的流程框图。可以看到,网页防护服务器获取响应于网页访问请求生成的原始响应数据,从原始响应数据中提取敏感内容,基于预设的原始字符映射关系生成本次混淆处理对应的动态字符映射关系,将本次混淆处理对应的动态字符映射关系写入共享内存,以使后续从共享内存中读取本次混淆处理对应的动态字符映射关系,根据本次混淆处理对应的动态字符映射关系以及字符编码文件生成反混淆字符文件;并且,按照本次混淆处理对应的动态字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容。
本实施例中,由于每次混淆处理均采用动态的字符映射关系,增加了恶意爬虫破解的难度,降低了恶意爬虫破解的可能性。
在一个实施例中,基于预设的原始字符映射关系,生成本次混淆处理对应的动态字符映射关系,包括:获取本次混淆处理对应的随机因子;按照随机因子调整原始字符映射关系,得到本次混淆处理对应的动态字符映射关系。
在一个实施例中,随机因子可以是随机数。
在一个实施例中,网页防护服务器可根据网页访问请求的请求时间、原始响应数据的生成时间、当前时间等动态参数,确定本次混淆处理对应的随机因子。比如,预先构建动态参数与随机因子之间的映射关系,根据该映射关系以及当前获取的动态参数,确定本次混淆处理对应的随机因子。
在一个实施例中,按照随机因子调整原始字符映射关系,得到本次混淆处理对应的动态字符映射关系,包括:获取网页访问请求的请求时间;确定与请求时间对应的动态随机因子;根据动态随机因子对原始字符映射关系进行调整,得到本次混淆处理对应的动态字符映射关系。
其中,网页访问请求的请求时间可以是网页访问请求的发出时间、网页访问请求的接收时间等。
在一个实施例中,网页防护服务器按照随机因子确定交换次数,交换次数是基于预设的原始字符映射关系生成本次混淆处理对应的动态字符映射关系时,原始字符之间的交换次数,或者混淆字符之间的交换次数。继续参照图3(b),网页防护服务器对混淆字符“0”和混淆字符“9”所在的位置进行交换,即累计一次交换次数。
在一个实施例中,网页防护服务器按照随机因子确定交换字符,交换字符是基于预设的原始字符映射关系生成本次混淆处理对应的动态字符映射关系时,用于交换的原始字符或者混淆字符。继续参照图3(b),假设随机因子为3,则基于图3(b)中排列序号为3的混淆字符进行交换,比如将排列序号为3的混淆字符所在的位置和排列序号为4的混淆字符所在的位置进行交换。本实施例中,添加随机因子加大了动态的字符映射关系的破解难度,降低了恶意爬虫破解的可能性。
在一个实施例中,混淆响应数据还包括反混淆渲染标识字段;该方法还包括:将混淆响应数据返回至发起网页访问请求的终端;通过终端接收混淆响应数据,并在遍历到混淆响应数据中的反混淆渲染标识字段时,按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
其中,反混淆渲染标识字段用于指示按照反混淆字符文件展示原始响应数据中的敏感内容。反混淆渲染标识字段可包括用于描述敏感内容的字段以及用于描述反混淆字符文件的字段。
在一个实施例中,反混淆渲染标识字段可以是层叠样式表(Cascading StyleSheets, CSS)代码。层叠样式表代码可用于指示网页中字符的字体样式。参照图7,图7为一个实施例中反混淆渲染标识字段的示意图。其中,字段702是描述反混淆字符文件的字段,字段704是描述敏感内容的字段。
在一个实施例中,网页防护服务器利用混淆内容替换原始响应数据中的敏感内容,根据替换后的原始响应数据、反混淆字符文件以及反混淆渲染标识字段生成混淆响应数据,通过终端接收混淆响应数据,终端在遍历到混淆响应数据中的反混淆渲染标识字段时,按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
在一个实施例中,通过终端接收混淆响应数据,终端在遍历到混淆响应数据中的反混淆渲染标识字段时,提取混淆响应数据的混淆内容中的字符对应的字符编码,从反混淆字符文件包括的字符与字符编码之间的映射关系中,查找与字符编码对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
举例说明,终端接收混淆响应数据,在遍历到图7所示的反混淆渲染标识字段时,可按照图5(a)所示的字符编码文件提取混淆内容“80.0”对应的字符编码“U+0038”和“U+0030”,按照图5(b)所示的反混淆字符文件查询“U+0038”和“U+0030”分别对应的反混淆字符“1”和“9”,从而向用户展示“19.9”。
参照图8,图8为一个实施例中反混淆处理的流程框图。可以看到,终端接收混淆响应数据,提取混淆响应数据的混淆内容中的字符对应的字符编码,从共享内存中读取本次混淆处理对应的动态字符映射关系,根据本次混淆处理对应的动态字符映射关系以及字符编码文件生成反混淆字符文件,从反混淆字符文件包括的字符与字符编码之间的映射关系中,查找与字符编码对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
参照图9(a)和图9(b),图9(a)为一个实施例中字符编码文件的界面示意图,图9(b)为一个实施例中反混淆字符文件的界面示意图。可以看出,两个字体文件的字符排列位置存在差异。
本实施例中,在混淆响应数据添加反混淆渲染标识字段,以指示按照反混淆字符文件展示混淆内容,从而将混淆内容展示为正确内容。在一个实施例中,获取响应于网页访问请求生成的原始响应数据,包括:获取终端发送的网页访问请求,将网页访问请求转发至网页服务器;接收网页服务器响应于网页访问请求生成的原始响应数据;该方法还包括:获取网页访问请求指向的访问路径及反恶意攻击路径列表;当网页访问请求指向的访问路径不属于反恶意攻击路径列表中的路径时,则将原始响应数据转发至终端;当网页访问请求指向的访问路径属于反恶意攻击路径列表中的路径时,将混淆响应数据转发至终端。
其中,反恶意攻击路径列表包括至少一条反恶意攻击路径,反恶意攻击路径可以是用户配置的、用于防护的访问路径。
在一个实施例中,以网页防火墙作为执行主体为例,网页防火墙获取终端发送的网页访问请求,将网页访问请求转发至网页服务器,网页防火墙获取网页访问请求指向的访问路径及反恶意攻击路径列表,当网页访问请求指向的访问路径不属于反恶意攻击路径列表中的路径时,则将网页服务器返回的原始响应数据转发至终端;当网页访问请求指向的访问路径属于反恶意攻击路径列表中的路径时,网页防火墙通过本申请实施例提供的方法基于网页服务器返回的原始响应数据生成混淆响应数据,将混淆响应数据转发至终端。
在一个实施例中,该方法还包括:通过终端在网页中显示反恶意攻击路径的配置控件;响应于对配置控件的触发操作,进入反恶意攻击路径的配置页面;在配置页面中,获取输入的反恶意攻击路径;根据输入的反恶意攻击路径获得反恶意攻击路径列表。
具体地,用户可通过网页中的反恶意攻击路径的配置控件进入反恶意攻击路径的配置页面,反恶意攻击路径的配置页面可包括反恶意攻击路径的输入区域,用户在反恶意攻击路径的输入区域输入路径,即可将该路径添加至反恶意攻击路径列表。举例说明,参照图10,图10为一个实施例中反恶意攻击路径的配置页面的示意图。反恶意攻击路径的配置页面可包括反恶意攻击路径的输入区域1004。在另一些实施例中,反恶意攻击路径的配置页面还可包括反恶意攻击网页名称的输入区域1002、反恶意攻击路径的匹配方式选择入口1006、敏感内容标识字段的输入区域1008、字符编码文件的上传入口1010和反混淆处理开关1012等。其中,反恶意攻击路径的匹配方式可包括完全匹配、前缀匹配、后缀匹配等多种匹配方式。前缀匹配可以是网站域名的匹配,后缀匹配可以是路径的匹配,完全匹配可以是网站域名和路径的匹配。
本实施例中,用户可自主配置反恶意攻击路径,实现个性化防护。
在一个实施例中,如图11所示,提供了一种网页数据处理方法,本实施例可应用于网页应用的防护场景,网页应用是基于网页访问的应用程序,用户无需下载应用软件,通过浏览器即可访问应用程序。本实施例主要以该方法应用于上述图1(a)中的网页防护服务器104来举例说明,包括以下步骤:
步骤S1102,获取终端发送的网页访问请求,将网页访问请求转发至网页服务器,接收网页服务器响应于网页访问请求生成的原始响应数据。
步骤S1104,获取网页访问请求指向的访问路径及反恶意攻击路径列表,当网页访问请求指向的访问路径属于反恶意攻击路径列表中的路径时,从原始响应数据中查找敏感内容标识字段,将敏感内容标识字段标注的内容作为敏感内容。
步骤S1106,获取本次混淆处理对应的随机因子,按照随机因子调整原始字符映射关系,得到本次混淆处理对应的动态字符映射关系,查询本次混淆处理对应的动态字符映射关系,获得与敏感内容中的字符对应的混淆字符,按照混淆字符替换敏感内容中的相应字符后,得到与敏感内容对应的混淆内容。
在一个实施例中,网页防火墙获取网页访问请求的请求时间,确定与请求时间对应的动态随机因子,根据动态随机因子对原始字符映射关系进行调整,得到本次混淆处理对应的动态字符映射关系。
步骤S1108,根据本次混淆处理对应的动态字符映射关系,调整字符编码文件包括的字符与字符编码之间的映射关系,得到反混淆字符文件。
在一个实施例中,网页防火墙根据字符映射关系中原始字符与混淆字符之间的映射关系,将原始字符和混淆字符在字符编码文件中的位置进行交换,以交换原始字符和混淆字符分别对应的字符编码,得到反混淆字符文件。
步骤S1110,利用混淆内容替换原始响应数据中的敏感内容,根据替换后的原始响应数据、反混淆字符文件以及反混淆渲染标识字段生成混淆响应数据。
步骤S1112,将混淆响应数据返回至发起网页访问请求的终端,以使终端在遍历到混淆响应数据中的反混淆渲染标识字段时,提取混淆响应数据的混淆内容中的字符对应的字符编码,从反混淆字符文件包括的字符与字符编码之间的映射关系中,查找与字符编码对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
本实施例具有内存占用低、低延迟等特点,结合硬件加速可快速进行混淆处理和反混淆处理。
上述网页数据处理方法,获取响应于网页访问请求生成的原始响应数据,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,以使恶意爬虫爬取错误内容;并且,获取依据字符编码文件及字符映射关系生成的反混淆字符文件,根据混淆内容和反混淆字符文件生成混淆响应数据,返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容,以向用户展示正确内容;这样,在不影响用户获取信息的同时,降低了恶意爬虫所能够爬取的信息价值,且由于恶意爬虫不清楚字符映射关系,恶意爬虫无法破解混淆内容,降低了恶意爬虫破解的可能性,从而提高了反恶意爬虫的有效性。
应该理解的是,虽然图2、图11的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图11中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图12所示,提供了一种网页数据处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该计算机设备可以是网页防护服务器,该装置具体包括:获取模块1202、混淆处理模块1204和返回模块1206,其中:
获取模块1202,用于获取响应于网页访问请求生成的原始响应数据;
混淆处理模块1204,用于按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容;获取依据字符编码文件及字符映射关系生成的反混淆字符文件;根据混淆内容和反混淆字符文件生成混淆响应数据;
返回模块1206,用于返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
在一个实施例中,混淆处理模块1204还用于:从原始响应数据中提取敏感内容;查询字符映射关系,获得与敏感内容中的字符对应的混淆字符;按照混淆字符替换敏感内容中的相应字符后,得到与敏感内容对应的混淆内容。
在一个实施例中,混淆处理模块1204还用于:从原始响应数据中查找敏感内容标识字段;将敏感内容标识字段标注的内容作为敏感内容。
在一个实施例中,混淆处理模块1204还用于:基于预设的原始字符映射关系,生成本次混淆处理对应的动态字符映射关系;按照动态字符映射关系,对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容。
在一个实施例中,混淆处理模块1204还用于:获取本次混淆处理对应的随机因子;按照随机因子调整原始字符映射关系,得到本次混淆处理对应的动态字符映射关系。
在一个实施例中,混淆处理模块1204还用于:获取网页访问请求的请求时间;确定与请求时间对应的动态随机因子;根据动态随机因子对原始字符映射关系进行调整,得到本次混淆处理对应的动态字符映射关系。
在一个实施例中,字符编码文件包括字符与字符编码之间的映射关系;混淆处理模块1204还用于:根据字符映射关系,调整字符编码文件包括的字符与字符编码之间的映射关系,得到反混淆字符文件。
在一个实施例中,混淆处理模块1204还用于:利用混淆内容替换原始响应数据中的敏感内容;根据替换后的原始响应数据以及反混淆字符文件生成混淆响应数据。
在一个实施例中,混淆响应数据还包括反混淆渲染标识字段;混淆处理模块1204还用于:将混淆响应数据返回至发起网页访问请求的终端;通过终端接收混淆响应数据,并在遍历到混淆响应数据中的反混淆渲染标识字段时,按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
在一个实施例中,混淆处理模块1204还用于:通过终端接收混淆响应数据,并在遍历到混淆响应数据中的反混淆渲染标识字段时,提取混淆响应数据的混淆内容中的字符对应的字符编码,从反混淆字符文件包括的字符与字符编码之间的映射关系中,查找与字符编码对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
在一个实施例中,获取模块1202还用于:获取终端发送的网页访问请求,将网页访问请求转发至网页服务器;接收网页服务器响应于网页访问请求生成的原始响应数据;网页数据处理装置还包括转发模块,转发模块用于:获取网页访问请求指向的访问路径及反恶意攻击路径列表;当网页访问请求指向的访问路径不属于反恶意攻击路径列表中的路径时,则将原始响应数据转发至终端;当网页访问请求指向的访问路径属于反恶意攻击路径列表中的路径时,将混淆响应数据转发至终端。
在一个实施例中,网页数据处理装置还包括配置模块,配置模块用于:通过终端在网页中显示反恶意攻击路径的配置控件;响应于对配置控件的触发操作,进入反恶意攻击路径的配置页面;在配置页面中,获取输入的反恶意攻击路径;根据输入的反恶意攻击路径获得反恶意攻击路径列表。
关于网页数据处理装置的具体限定可以参见上文中对于网页数据处理方法的限定,在此不再赘述。上述网页数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述网页数据处理装置中,获取响应于网页访问请求生成的原始响应数据,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,以使恶意爬虫爬取错误内容;并且,获取依据字符编码文件及字符映射关系生成的反混淆字符文件,根据混淆内容和反混淆字符文件生成混淆响应数据,返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容,以向用户展示正确内容;这样,在不影响用户获取信息的同时,降低了恶意爬虫所能够爬取的信息价值,且由于恶意爬虫不清楚字符映射关系,恶意爬虫无法破解混淆内容,降低了恶意爬虫破解的可能性,从而提高了反恶意爬虫的有效性。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是网页防护服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储网页数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页数据处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种网页数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13和图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种网页数据处理方法,其特征在于,所述方法包括:
获取响应于网页访问请求生成的原始响应数据;
按照字符映射关系对所述原始响应数据中的敏感内容进行混淆处理,得到与所述敏感内容对应的混淆内容;
获取依据字符编码文件及所述字符映射关系生成的反混淆字符文件;
根据所述混淆内容和所述反混淆字符文件生成混淆响应数据;
返回响应于所述网页访问请求的所述混淆响应数据,所述混淆响应数据用于指示按照所述反混淆字符文件确定与所述混淆内容中的字符对应的反混淆字符后,按照所述反混淆字符展示所述原始响应数据中的所述敏感内容。
2.根据权利要求1所述的方法,其特征在于,所述按照字符映射关系对所述原始响应数据中的敏感内容进行混淆处理,得到与所述敏感内容对应的混淆内容,包括:
从所述原始响应数据中提取所述敏感内容;
查询所述字符映射关系,获得与所述敏感内容中的字符对应的混淆字符;
按照所述混淆字符替换所述敏感内容中的相应字符后,得到与所述敏感内容对应的混淆内容。
3.根据权利要求2所述的方法,其特征在于,所述从所述原始响应数据中提取所述敏感内容,包括:
从所述原始响应数据中查找敏感内容标识字段;
将所述敏感内容标识字段标注的内容作为所述敏感内容。
4.根据权利要求1所述的方法,其特征在于,所述按照字符映射关系对所述原始响应数据中的敏感内容进行混淆处理,得到与所述敏感内容对应的混淆内容,包括:
基于预设的原始字符映射关系,生成本次混淆处理对应的动态字符映射关系;
按照所述动态字符映射关系,对所述原始响应数据中的所述敏感内容进行混淆处理,得到与所述敏感内容对应的混淆内容。
5.根据权利要求4所述的方法,其特征在于,所述基于预设的原始字符映射关系,生成本次混淆处理对应的动态字符映射关系,包括:
获取本次混淆处理对应的随机因子;
按照所述随机因子调整所述原始字符映射关系,得到本次混淆处理对应的所述动态字符映射关系。
6.根据权利要求5所述的方法,其特征在于,所述按照所述随机因子调整所述原始字符映射关系,得到本次混淆处理对应的所述动态字符映射关系,包括:
获取所述网页访问请求的请求时间;
确定与所述请求时间对应的动态随机因子;
根据所述动态随机因子对所述原始字符映射关系进行调整,得到本次混淆处理对应的所述动态字符映射关系。
7.根据权利要求1所述的方法,其特征在于,所述字符编码文件包括字符与字符编码之间的映射关系;
所述方法还包括:
根据所述字符映射关系,调整所述字符编码文件包括的所述字符与字符编码之间的映射关系,得到所述反混淆字符文件。
8.根据权利要求1所述的方法,其特征在于,所述根据所述混淆内容和所述反混淆字符文件生成混淆响应数据,包括:
利用所述混淆内容替换所述原始响应数据中的所述敏感内容;
根据替换后的所述原始响应数据以及所述反混淆字符文件生成所述混淆响应数据。
9.根据权利要求8所述的方法,其特征在于,所述混淆响应数据还包括反混淆渲染标识字段;
所述方法还包括:
将所述混淆响应数据返回至发起所述网页访问请求的终端;
通过所述终端接收所述混淆响应数据,并在遍历到所述混淆响应数据中的所述反混淆渲染标识字段时,按照所述反混淆字符文件确定与所述混淆内容中的字符对应的反混淆字符后,按照所述反混淆字符展示所述原始响应数据中的所述敏感内容。
10.根据权利要求9所述的方法,其特征在于,所述通过所述终端接收所述混淆响应数据,并在遍历到所述混淆响应数据中的所述反混淆渲染标识字段时,按照所述反混淆字符文件确定与所述混淆内容中的字符对应的反混淆字符后,按照所述反混淆字符展示所述原始响应数据中的所述敏感内容,包括:
通过所述终端接收所述混淆响应数据,并在遍历到所述混淆响应数据中的所述反混淆渲染标识字段时,提取所述混淆响应数据的所述混淆内容中的字符对应的字符编码,从所述反混淆字符文件包括的字符与字符编码之间的映射关系中,查找与所述字符编码对应的反混淆字符后,按照所述反混淆字符展示所述原始响应数据中的所述敏感内容。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述获取响应于网页访问请求生成的原始响应数据,包括:
获取终端发送的网页访问请求,将所述网页访问请求转发至网页服务器;
接收所述网页服务器响应于所述网页访问请求生成的所述原始响应数据;
所述方法还包括:
获取所述网页访问请求指向的访问路径及反恶意攻击路径列表;
当所述网页访问请求指向的访问路径不属于所述反恶意攻击路径列表中的路径时,则将所述原始响应数据转发至所述终端;
当所述网页访问请求指向的访问路径属于所述反恶意攻击路径列表中的路径时,将所述混淆响应数据转发至所述终端。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
通过所述终端在网页中显示反恶意攻击路径的配置控件;
响应于对所述配置控件的触发操作,进入反恶意攻击路径的配置页面;
在所述配置页面中,获取输入的反恶意攻击路径;
根据所述输入的反恶意攻击路径获得所述反恶意攻击路径列表。
13.一种网页数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取响应于网页访问请求生成的原始响应数据;
混淆处理模块,用于按照字符映射关系对所述原始响应数据中的敏感内容进行混淆处理,得到与所述敏感内容对应的混淆内容;获取依据字符编码文件及所述字符映射关系生成的反混淆字符文件;根据所述混淆内容和所述反混淆字符文件生成混淆响应数据;
返回模块,用于返回响应于所述网页访问请求的所述混淆响应数据,所述混淆响应数据用于指示按照所述反混淆字符文件确定与所述混淆内容中的字符对应的反混淆字符后,按照所述反混淆字符展示所述原始响应数据中的所述敏感内容。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
CN202110377489.4A 2021-04-08 2021-04-08 网页数据处理方法、装置、计算机设备和存储介质 Pending CN112804266A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110377489.4A CN112804266A (zh) 2021-04-08 2021-04-08 网页数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110377489.4A CN112804266A (zh) 2021-04-08 2021-04-08 网页数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112804266A true CN112804266A (zh) 2021-05-14

Family

ID=75816591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110377489.4A Pending CN112804266A (zh) 2021-04-08 2021-04-08 网页数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112804266A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536358A (zh) * 2021-08-02 2021-10-22 浙江数秦科技有限公司 一种基于区块链的隐私数据安全存储方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150038181A1 (en) * 2013-07-31 2015-02-05 T-Mobile Usa, Inc. Short Code Management for Messaging Campaigns
CN109639747A (zh) * 2017-10-09 2019-04-16 阿里巴巴集团控股有限公司 数据请求处理、询问消息处理方法、装置以及设备
CN111314351A (zh) * 2020-02-19 2020-06-19 望海康信(北京)科技股份公司 反爬虫的数据处理方法、装置、电子设备及存储介质
CN111597424A (zh) * 2020-07-21 2020-08-28 平安国际智慧城市科技股份有限公司 爬虫识别方法、装置、计算机设备和存储介质
US20200396250A1 (en) * 2019-06-14 2020-12-17 The Boeing Company Aircraft network cybersecurity apparatus and methods

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150038181A1 (en) * 2013-07-31 2015-02-05 T-Mobile Usa, Inc. Short Code Management for Messaging Campaigns
CN109639747A (zh) * 2017-10-09 2019-04-16 阿里巴巴集团控股有限公司 数据请求处理、询问消息处理方法、装置以及设备
US20200396250A1 (en) * 2019-06-14 2020-12-17 The Boeing Company Aircraft network cybersecurity apparatus and methods
CN111314351A (zh) * 2020-02-19 2020-06-19 望海康信(北京)科技股份公司 反爬虫的数据处理方法、装置、电子设备及存储介质
CN111597424A (zh) * 2020-07-21 2020-08-28 平安国际智慧城市科技股份有限公司 爬虫识别方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536358A (zh) * 2021-08-02 2021-10-22 浙江数秦科技有限公司 一种基于区块链的隐私数据安全存储方法
CN113536358B (zh) * 2021-08-02 2023-10-10 浙江数秦科技有限公司 一种基于区块链的隐私数据安全存储方法

Similar Documents

Publication Publication Date Title
CN110602052B (zh) 微服务处理方法及服务器
US11886619B2 (en) Apparatus and method for securing web application server source code
US8381276B2 (en) Safe URL shortening
KR101589192B1 (ko) 신원 인증 관리 장치 및 신원 인증 관리 방법
CN110535971B (zh) 基于区块链的接口配置处理方法、装置、设备及存储介质
CA2833969C (en) System and method for web-based security authentication
CN103607385A (zh) 基于浏览器进行安全检测的方法和装置
CN107104924B (zh) 网站后门文件的验证方法及装置
US20170034314A1 (en) Validation associated with a form
Solomos et al. Tales of favicons and caches: Persistent tracking in modern browsers
CN107016074B (zh) 一种网页加载方法及装置
CN104253812A (zh) 委托用于web服务的认证
US20130160132A1 (en) Cross-site request forgery protection
CN112131564A (zh) 加密数据通信方法、装置、设备以及介质
CN107276986B (zh) 一种通过机器学习保护网站的方法、装置和系统
CN113342639A (zh) 小程序安全风险评估方法和电子设备
CN111597424A (zh) 爬虫识别方法、装置、计算机设备和存储介质
CN116324766A (zh) 通过浏览简档优化抓取请求
CN105337776B (zh) 一种生成网站指纹的方法、装置及电子设备
CN112632605A (zh) 一种防止越权访问的方法、装置、计算机设备及存储介质
CN103095663B (zh) 一种非登录用户间的信息交互方法和装置
Rodríguez et al. Cookie scout: An analytic model for prevention of cross-site scripting (xss) using a cookie classifier
CN112804266A (zh) 网页数据处理方法、装置、计算机设备和存储介质
CN106209746B (zh) 一种安全业务提供方法及服务器
Barhoom et al. A new server-side solution for detecting cross site scripting attack

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40043547

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20210514

RJ01 Rejection of invention patent application after publication