CN115118455B

CN115118455B - 面向网页安全的基于属性加密访问控制反爬虫系统及方法

Info

Publication number: CN115118455B
Application number: CN202210584944.2A
Authority: CN
Inventors: 郭楠; 胡景; 高天寒
Original assignee: 东北大学
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2023-08-29
Anticipated expiration: 2042-05-27
Also published as: CN115118455A

Abstract

本发明提供一种面向网页安全的基于属性加密访问控制反爬虫系统及方法，所述系统包括客户端、服务器和数据库三个实体；当客户端要访问某网页时，首先向服务器发出请求，服务器接收该请求后依据通信协议对请求内容进行解析，服务器依据解析结果按照后台的业务逻辑获取相应的资源，然后生成网页源码及响应报文；响应报文不会直接返回给客户端，而是首先通过服务器端的程序对响应体中的内容进行修改和加密；将CipherText_AES和CipherText_ABE全部放在网页的响应体中，并打包成响应报文，由服务器发送给客户端；客户端对基于ABE属性加密算法CipherText_ABE进行解密，然后利用解密获得的对称加密密钥对CipherText_AES进行解密得到网页源码，浏览器对网页源码渲染后，得到客户端访问的实际网页。

Description

面向网页安全的基于属性加密访问控制反爬虫系统及方法

技术领域

本发明属于网页安全技术领域，具体涉及一种面向网页安全的基于属性加密访问控制反爬虫系统及方法。

背景技术

随着信息化的迅速发展，信息采集技术进一步增强。海量个人数据被存储在互联网中(如人脸信息、住址信息)，从而造成大量隐私信息透明度越来越高。通常情况下，这些隐私数据被存储在第三方的服务器上，一旦服务器的漏洞被发现，将导致数据泄露，从而给人们的生活带来巨大的影响。当前，伴随着存储在服务器上的个人数据越来越重要，信息泄露问题的严重性也逐渐增加，人们对数据安全也越来越重视。

至今为止，互联网仍是处于一个数据隐私泄露频发的状况，每一次数据泄露事件带来的影响力都是极具破坏性的。隐私保护问题，在各种WEB网站应用中尤为严重。网站功能的迅速扩展，带来了各类网站对隐私保护的不健全建设。大数据时代的到来，更是强化了这种不健全建设造成的后果。在大数据技术中，重要的步骤之一就是大数据采集，而其中最常用的就是爬虫抓取技术。爬虫抓取技术，就是利用丰富的技术手段，从各个网站上，批量获取信息。而拥有这类信息的用户，或者管理员需防范没有相应权限的人访问该网页的数据，甚至是窃取数据以用于牟利。

显而易见的是，作为当前互联网最多人同时使用的WEB应用，当他们发生数据泄露时，不仅使用户的人身与财产安全受到严重的威胁，同时企业也会陷入到巨大的社会舆论压力中，进而造成严重的财产随时。

在开放式Web应用程序安全项目组织(Open Web Application SecurityProject，OWASP) 于2017年所公布的十大安全漏洞体系报告中，数据泄露问题在其中高居第六位。而根据2021 年由永安在线监控两年公开的数据报告显示，其中数据库漏洞、病毒攻击、钓鱼网站攻击、撞库攻击、黑客入侵、人为泄露仅占有数据泄露的百分之八，而爬虫攻击导致的数据泄露占有92％的比例。因此，研究一种行之有效的面向网页安全用于抵抗爬虫的隐私保护策略至关重要。

目前，针对由服务器主动进行的反爬虫策略的研究，大多都是在拦截率与误伤率之间进行权衡的策略。拦截率较高的策略通常具有较高的误伤率。而通过客户端的操作来判定请求是否由爬虫发起的方式来实现的反爬虫策略，大多都是可以被破解的。比如，通过分析请求头来控制字段User-Agent的方式，该字段用于告知服务器客户端的操作系统和版本，只有在正常范围内的User-Agent才能正常的访问到页面。面对这种反爬虫手段，爬虫可以通过配置 User-Agent，并修改请求头字段的方式来突破；通过IP黑名单限制来反爬虫，爬虫程序可以通过IP代理来突破反爬虫策略。还有一种方法就是通过JS脚本设计验证码来检测是否为真人访问，但该方式也可以通过PhatomJs来模拟浏览器对验证码进行抓取验证。

而当前的反爬虫策略存在的最严重的问题是，面对当前业务开发普遍使用敏捷开发模式，这些策略无法适应当前企业的高速的业务迭代。以Facebook为例，作为一家大型互联网公司，几乎每两到三年就会发生一次数据泄露问题。而其他企业更是如此。大部分的企业，线上业务的API管控完全失控，存在大量的业务API漏洞可以被爬虫程序利用来窃取数据。

中国专利“CN202111536063.5网页文本混淆反爬虫方法、装置、电子设备及存储介质”通过提供了一种网页文本混淆反爬虫方法、装置、电子设备及存储介质，涉及网站页面安全技术领域。所述方法包括：根据网页文本对应的文本数据生成对应的图片数据，并将图片数据存储至第一服务器；对第一服务器返回的图片数据对应的图片地址进行加密得到加密图片地址，并将加密图片地址存储至第二服务器的预设数据库中；在接收用户终端发送的网页文本对应的文本渲染请求时，向用户终端返回加密图片地址。因此，能够解决相关技术中网页中的可见网页文本无法避免爬虫获取网页数据的问题。但是，该技术方案极大的增加了在通信上所花费的时间，而且需要布置多台服务器，两台服务器维护图片数据库，会造成维护数据库的困难，耗费更多的人力物力。

中国专利“CN202111619899.1一种基于动态码的反爬虫方法、系统、客户端和服务器”通过一种基于动态码的反爬虫方法，从各个动态码算法中，筛选出与客户端的可疑等级对应的动态码算法，作为目标动态码算法。从剩余的动态码中，选取满足预设条件的动态码，作为第二动态码。对第二动态码进行加密，得到第二动态码密文。将目标动态码算法、第一动态码、以及第二动态码密文，发送给客户端，触发客户端计算得到目标动态码。将第二动态码与目标动态码进行比较。在第二动态码与目标动态码不相同的情况下，向客户端发送无权访问提示。但是，该技术方案同样会导致更多的通信消耗，且无法真正的保护对网站的数据安全进行保护，该方案只是提出了一种对网络爬虫的检测手段，依旧存在较高的误伤率和误判率，而且其通过动态码进行的对爬虫拒绝访问，依然可以通过在虚拟环境中爬取来绕开。并且，这两个方案都不存在在本方案中提供对用户访问网页细粒度访问控制的功能。

发明内容

本发明适用于网页安全中反爬虫的隐私保护的场景。本发明修改了服务器面向请求报文时直接将网页源码作为响应体发送出去的操作，将其响应体修改为对响应的网页源码进行加密处理。通过这样的修改，即使爬虫程序伪装成浏览器向服务器发送访问请求，得到的响应报文也是加密后的响应报文。在这种场景下，爬虫无法爬取到任何有用的网页数据。并且由于爬虫程序不能通过浏览器拓展程序调用本地程序进行解密，即使进行手动解密，也必须要解密者满足自身拥有的属性才能解密成功。由此该发明阻止了爬虫程序对网页数据的肆意爬取，相对与传统的反爬虫机制，本发明具有细粒度的访问控制的特点，从而大大降低了误伤和误判的几率。

本发明提供的一种面向网页安全的基于属性加密访问控制反爬虫系统，包括：客户端、服务器和数据库三个实体；当客户端要访问某网页时，首先向服务器发出请求；服务器接收所述请求后，依据通信协议对请求内容进行解析；服务器依据解析结果，按照后台的业务逻辑获取相应的资源，生成网页源码及响应报文。

本发明提供的一种面向网页安全的基于属性加密访问控制反爬虫方法，基于所述的一种面向网页安全的基于属性加密访问控制反爬虫系统实现，所述方法包括：

系统初始化；在这里需要分别对ABE加密系统、网页资源服务器以及用户端浏览器和本地程序初始化。首先要对ABE加密系统进行初始化，即将用于属性加密的各个权威进行初始化，生成每个权威i自己的公钥PK_i和私钥Sk_i，其中权威是ABE加密算法的概念，实际上就是一个运行在服务器上，管理某一权威的密钥颁发与验证的程序。在部署了ABE加密系统后，需要在网站资源服务器上导入ABE加密方案，并配置对网页源码的加密策略，从而完成了对网站资源服务器的初始化。在完成上述工作后，用户就可以在网页资源服务器提供的网站上完成注册，完成注册后，用户就可以从该网站上下载浏览器插件与本地程序安装，在这个过程中将完成对本地程序和浏览器插件的初始化，用户通过注册时输入自己的属性，从官网处获得了用于解密加密网页的部分解密密钥集合{sk_i,GID,v}_1≤i≤n。

步骤A1：在初始化阶段，ABE加密算法的可信第三方执行ABE.Setup()算法，根据安全参数λ，该算法生成用于生成加解密所用到的公共参数pp，并将公共参数颁发给各个客户端、权威(ABE Authority)和服务器；服务器设置属性加密访问策映射AccessPolicyMap；客户端安装浏览器插件，并下载本地程序，下载的同时获得属性证书；

步骤A1.1：第三方随机生成大素数p；

步骤A1.2：群G₁、G₂是阶数为p的循环加法群，第三方生成基于循环加法群G₁上的随机元素g₁和g₂，生成基于循环加法群G₂的随机元素g₃；

步骤A1.3：根据SPDX(The Symmetric External Diffie-Hellman)复杂度假设，分别生成 (k+1)×k大小的矩阵和(k+1)×(k+1)的矩阵/>k为矩阵大小，Z_p为有限域，是模p的非负最小完全剩余系；

步骤A1.4：循环计算公共参数和/>

步骤A1.5：计算U^T，并循环计算公共参数和/>U^T表示矩阵U的转置；

步骤A1.6：生成公共参数pp＝{g₁,g₂,g₃,h₁,h₂,h₃,h₄}，即

步骤A1.7：可信第三方(Third Trusted Party，TTP)将生成的安全参数pp颁发给各个客户端和服务器。这里的可信第三方就是生成公共参数的一个实体，可以由用户自己选定ABE方案中的一个权威，也可以由CA证书管理机构代替；

步骤A2：各个权威执行用于生成ABE.AuthSetup()算法和ABE.KeyGen()算法，为各个客户端和服务器颁发公钥PK和部分解密密钥sk_i,GID,v；其中ABE.AuthSetup()算法由各个属性权威执行，通过输入公共参数pp和权威索引i，生成权威的私钥SK_i和公钥PK_i；包括：

步骤A2.1：各个权威随机定义矩阵并计算W_i ^T，W_i ^T是矩阵W_i的转置；

步骤A2.2：令向量

步骤A2.3：生成随机数σ_i∈Z_p；

步骤A2.4：循环计算加密所用参数和/>

步骤A2.5：计算加密所用参数

步骤A2.6：循环计算加密所用参数和/>这里的的 e(g₁,g₂)是双线性配对计算；

步骤A2.7：计算各权威对应的公钥PK_i＝(p₁,p₂,p₃,p₄,p₅)，私钥SK_i＝(W_i,α_i,σ_i)；

步骤A3：各个属性权威执行解密密钥生成算法ABE.KeyGen()，通过输入公共参数pp和各个权威对应的公钥{PK_i}_1≤i≤n和权威私钥SK_i，用户全局标识GID以及属性向量v，输出部分解密密钥{sk_i,GID,v}_1≤i≤n；包括：

步骤A3.1：由当前权威i计算各个权威j相对应的掩蔽值u_i∈Z_p，计算遮蔽项用于防止多个敌手合谋破解密文；

步骤A3.2：计算

步骤A3.3：使用哈希函数生成就是用户全局标识符GID与用户对应的属性向量v 的散列值。其中/>由哈希函数隐性定义H(GID,v)＝(H₁(GID,v),…,H_k+1(GID,v))^T；

步骤A3.4：计算

步骤A3.5：计算每个权威的属性向量v_i对应的部分解密密钥sk_i,GID,v＝(K_i,H(GID,v))；

步骤A4：各个权威i将自己的公钥PK_i和部分解密密钥sk_,GID,v分发给对应的各个权威、客户端和服务器；

步骤A5：加密者为每个加密网页对应的URL地址EncryptURL_x，设计对应的属性向量 Policy_x，并将其存储在在服务器的访问策略映射AccessPolicyMap中；包括：

步骤A5.1：策略向量Policy_x的格式如下所示：policy＝pol(p₁,p₂,p₃,…,p_n-1)，共n-1个值，其中每个值p_i为对应位置所代表的属性的设定值，如果该值指定为0，则代表该策略不对该位置对应的属性值进行约束；

步骤A5.2：将策略向量Policy_x，以EncryptURL为映射的Key，Policy_x为映射的Value，存储在访问策略映射AccessPolicyMap中。

步骤A6：客户端浏览器下载安装浏览器插件，并下载本地程序，下载本地程序的同时获得属性证书；

步骤A6.1：用户在浏览器插件中心上下载安装浏览器插件BrowserExtension；

步骤A6.2：用户在本地程序的下载服务器上下载本地程序，同时填写表单，并给予网站给予用户的相关设备的权限，用于采集用户的相关信息，本地程序下载服务器生成用户属性向量Attribute＝(a₁,a₂,a₃,……,a_n-1)；

步骤A6.3：本地程序的下载服务器初始化部分解密密钥集合KeyCollection＝{sk_i,GID,v}_1≤i≤n，并根据属性变量Attribute向各个权威请求对应属性的部分解密密钥sk_i,GID,v，并将其放在集合 KeyCollection中；

步骤A6.4：下载前将集合作为ABE解密密钥内嵌到本地程序中，本地程序利用该程序对ABE加密的结果进行解密；

为用户请求访问加密网页，进行浏览器与服务器的交互过程；包括：

步骤B1：用户向网页发出访问进行加密保护的页面请求；

步骤B1.1：浏览器Browser生成请求报文Request，并将该报文发送给服务器Server；

步骤B1.2：服务器接收请求Request，并判断该请求网页的页面类型，若为普通页面 NormalURL，则直接返回普通页面相关的网页源码与数据，与正常的网页访问流程相同；若访问的网页为加密保护页面EncryptURL，执行步骤B2；

步骤B2：服务器根据请求的网页内容，从数据库中获取相关数据，并生成网页源码和响应体；包括：

步骤B2.1：服务器解析请求报文Request，根据请求页面，与数据库Database建立连接并查询出数据Data；

步骤B2.2：根据查询出的Data，生成网页源码Source，并生成响应体ResponseBody；

步骤B3：服务器对生成的响应体ResponseBody，随机生成128位的对称密钥key，按照 AES加密方案进行加密，加密结果为密文CipherText_AES；

步骤B4：服务器根据设定的加密策略映射AccessPolicyMap，查询EncryptURL对应的访问策略向量Policy，并执行ABE.PolicyToX()算法，将Policy转换为对应的加密策略随机元素向量x；

步骤B4.1：服务器根据解析请求报文得到的EncryptURL，在映射AccessPolicyMap中查询出对应的访问策略向量Policy＝pol(p₁,p₂,p₃,…,p_n-1)；

步骤B4.2：服务器初始化随机元素向量x，将策略向量Policy中的所有非零值的元素转换为有限域或循环群上非零值对应的元素并赋值给向量x的相应位置，而策略向量中值为零的元素将被赋值为有限域或循环群上零值对应的元素并赋值给向量x的相应位置；

步骤B5：服务器根据加密策略元素向量x＝(x₁,x₂,……,x_n)、权威公钥PK_i＝(p₁,p₂,p₃,p₄,p₅)、公共参数pp＝{g₁,g₂,g₃,h₁,h₂,h₃,h₄}，对AES的对称密钥key进行加密，得到密文其中/>{C′_i}_1≤i≤n用于解密中的验证操作， C'表示加密产生的密文，C₀、{C_i}_1≤i≤n用于求解明文操作；包括：

步骤B5.1：服务器定义随机向量服务器提供密文加密策略向量其中n为属性个数；

步骤B5.2：计算

步骤B5.3：服务器对x中的每一项x_i，计算以及/>

步骤B5.4：服务器对x中的每一项x_i，计算

步骤B5.5：计算AES的对称密钥key密文

步骤B5.6：将计算结果打包为密文CipherText_ABE，

步骤B6：服务器加密，网页源码的加密结果CipherText_AES和AES加密的对称密钥key 加密结果CipherText_ABE打包为响应体ResponseBody＝(CipherText_AES,CipherText_ABE)；服务器生成相应报文Response，将其通过Http协议发送给客户端浏览器；

浏览器扩展程序与本地程序交互，并解密获得网页源码明文；包括：

步骤C1：浏览器通过浏览器扩展程序将获得的密文转发给本地程序；包括：

步骤C1.1：客户端浏览器接收响应报文Response，并通过DOM API读取解析出响应体 ResponseBody中的密文CiphertText＝CipherText_ABE||CipherTextAE，将该响应体包含的密文 CipherText传给浏览器扩展程序；

步骤C1.2：浏览器扩展程序与本地程序建立连接，并将CipherText交付给本地程序进行解密；

步骤C2：本地程序执行ABE.Decrypt()算法，利用下载本地程序时获得的解密密钥集合 KeyCollection＝{sk_i,GID,v}_1≤i≤n解密CipherText中的CipherText_ABE密文；包括：

步骤C2.1：对应于各个权威的部分解密密钥集合KeyCollection，计算

步骤C2.2：对应于密文的内容计算/>

步骤C2.3：计算e_hide1＝e(C'₀,Kmul)、 e_hide1、e_hide2、e_hide3这三个都是用于堆成密钥的中间计算结果；

步骤C2.4：计算用于解密出明文需要用的变量e_all1＝e(C₀,Kmul),

步骤C2.5：根据计算公式判断属性是否满足全部策略；若C_E＝e_hide1·e_hide2·e_hide3，则属性满足全部策略，满足解密权限，进行步骤C2.6进行解密，若不满足，则跳转到步骤C4；

步骤C2.6：满足解密权限的条件下，通过公式进行解密得到结果result；

步骤C2.7：得到解密结果result即为AES对称加密密钥，即key＝result；

步骤C3：利用对称加密密钥对CipherText_AES密文进行解密，获得网页源码WebSourceCode，并将其通过本地程序与客户端浏览器的连接将网页源码交付给浏览器进行渲染；包括：

步骤C3.1：利用对称密钥key，对CipherText_AES解密，获得网页源码WebSourceCode；

步骤C3.2：本地程序通过连接客户端浏览器将WebSourceCode交给浏览器；

步骤C3.3：浏览器获得网页源码，渲染网页源码，用户继续进行操作和访问；

步骤C4：在本地程序判断的结果为，当前用户的属性不满足全部策略，无权限解密时，返回给浏览器本地预设的错误页面；包括：

步骤C4.1：本地程序与客户端浏览器建立连接，交给浏览器本地程序预设好的无权限访问页面网页源码AccessForbbidenPage；

步骤C4.2：浏览器获得网页源码，渲染网页源码，用户得到提示，无权限访问该网页。

本发明的有益效果是：

本发明提出了一种面向网页安全的基于属性加密访问控制反爬虫系统及方法，是一种新的反爬虫策略，先用AES加密算法对网页进行对称加密。然后使用ABE加密算法对AES密钥进行属性加密，从而达到细粒度访问控制的目的。此时，当恶意程序通过爬虫程序爬取网页源码时，爬取到的就不再是网页明文信息，而是网页的AES密文和ABE密文，由于属性不满足要求，故其不能对其进行解析从而获取数据。

所述系统包括客户端、服务器和数据库三个实体。当客户端要访问某网页时，首先向服务器发出请求。服务器接收该请求后，依据通信协议对请求内容进行解析。服务器依据解析结果，按照后台的业务逻辑获取相应的资源，如向数据库查询网页中要所需数据、向ES数据库请求的搜索结果等。然后生成网页源码及响应报文。与传统的网页访问流程不同的是，这里的响应报文不会直接返回给客户端，而是首先通过服务器端的程序对响应体中的内容进行修改和加密。对响应体进行的加密包括两部分，首先对响应体的明文通过AES对称加密算法进行加密，产生密文CipherText_AES，然后将AES使用的加密密钥通过ABE属性加密密钥进行加密，从而生成密文CipherText_ABE。当完成两种加密后，将CipherText_AES和CipherText_ABE全部放在网页的响应体中，并打包成响应报文，由服务器发送给客户端。客户端在接收到相应的响应报文后，由于响应体内数据以密文形式存储，需要对响应体先进行解密操作。首先客户端对基于ABE属性加密算法CipherText_ABE进行解密，若解密成功则可以获得相应的解密密钥，然后利用解密获得的对称加密密钥对CipherText_AES进行解密得到网页源码，浏览器对网页源码渲染后，得到客户端访问的实际网页。

附图说明

图1为本发明中网页隐私保护的场景图；

图2为本发明中系统初始化的时序图；

图3为本发明中网页隐私保护的时序图；

图4为本发明中ABE加密算法Setup()算法流程图；

图5为本发明中ABE加密算法AuthSetup()算法流程图；

图6为本发明中ABE加密算法KeyGen()算法流程图；

图7为本发明中ABE加密算法遮蔽项计算算法流程图；

图8为本发明中ABE加密算法PolicyToX()算法流程图；

图9为本发明中ABE加密算法Encrypt()算法流程图；

图10为本发明中ABE加密算法Decrypt()算法流程图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明。

本发明将基于属性加密的反爬虫策略用于网页安全中的隐私保护场景。页保护的场景图如图1所示。本发明基于AES加密方案和ABE加密方案设计并实现了能进行细粒度访问控制的反爬虫系统及方法。

一种面向网页安全的基于属性加密访问控制反爬虫系统，包括：客户端、服务器和数据库三个实体；当客户端要访问某网页时，首先向服务器发出请求；服务器接收所述请求后，依据通信协议对请求内容进行解析；服务器依据解析结果，按照后台的业务逻辑获取相应的资源，生成网页源码及响应报文。

一种面向网页安全的基于属性加密访问控制反爬虫方法，基于所述的一种面向网页安全的基于属性加密访问控制反爬虫系统实现，该面向网页安全的基于属性加密访问控制反爬虫方法可以分为三个过程，第一个过程为系统初始化的过程，第二个过程为用户请求访问加密网页，浏览器与服务器交互的过程，第三个过程为浏览器扩展程序与本地程序交互并显示网页的过程。本发明实施网页保护的场景图如图1所示。初始化过程中用到的参数，如表1所示。

表1初始化过程参数说明

第一部分，系统初始化，在这里需要分别对ABE加密系统、网页资源服务器以及用户端浏览器和本地程序初始化。首先要对ABE加密系统进行初始化，即将用于属性加密的各个权威进行初始化，生成每个权威i自己的公钥PK_i和私钥Sk_i，其中权威是ABE加密算法的概念，实际上就是一个运行在服务器上，管理某一权威的密钥颁发与验证的程序。在部署了ABE加密系统后，需要在网站资源服务器上导入ABE加密方案，并配置对网页源码的加密策略，从而完成了对网站资源服务器的初始化。在完成上述工作后，用户就可以在网页资源服务器提供的网站上完成注册，完成注册后，用户就可以从该网站上下载浏览器插件与本地程序安装，在这个过程中将完成对本地程序和浏览器插件的初始化，用户通过注册时输入自己的属性，从官网处获得了用于解密加密网页的部分解密密钥集合{sk_i,GID,v}_1≤i≤n。具体过程如下：

步骤A1：初始化阶段：ABE加密算法的可信第三方执行ABE.Setup()算法，根据安全参数λ，该算法生成用于生成加解密所用到的公共参数pp，并将公共参数颁发给各个客户端，权威和服务器。服务器设置属性加密访问策映射AccessPolicyMap；客户端安装浏览器插件，并下载本地程序，下载的同时获得属性证书，初始化过程中的算法执行顺序图如图2所示；

步骤A1.1：第三方随机生成大素数p；

步骤A1.2：群G₁,G₂是阶数为p的循环加法群。第三方生成基于的循环加法群G₁上的随机元素(实际上为椭圆曲线上的一个点)g₁和g₂。生成基于循环加法群G₂的随机元素g₃；

步骤A1.3：分别生成(k+1)×k大小的矩阵和(k+1)×(k+1)的矩阵U∈k为矩阵大小，为方便说明，在该具体实施中的k均取2；

步骤A1.4：循环计算公共参数，即计算和/>

步骤A1.5：计算U^T。并循环计算公共参数和/>

步骤A1.6：生成公共参数pp＝{g₁,g₂,g₃,h₁,h₂,h₃,h₄}即

步骤A1.7：可信第三方将生成的安全参数pp颁发给各个客户端和服务器。这里的可信第三方就是生成公共参数的一个实体，可以由用户自己选定ABE方案中的一个权威，也可以由CA证书管理机构代替；

步骤A2：各个权威执行用于生成ABE.AuthSetup()算法和ABE.KeyGen()算法，为各个客户端和服务器颁发公钥PK和部分解密密钥sk_i,GID,v。其中ABE.AuthSetup()算法由各个属性权威执行，通过输入公共参数pp和权威索引i，生成权威的私钥SK_i和公钥PK_i，ABE方案的 Setup()算法流程图如图4所示，ABE方案的AuthSetup()算法流程图如图5所示，ABE方案的 KeyGen()算法流程图如图6所示；

步骤A2.1：各个权威随机定义矩阵并计算W_i ^T；

步骤A2.2：令向量

步骤A2.3：生成随机数σ_i∈Z_p；

步骤A2.4：循环计算加密所用参数和/>

步骤A2.5：计算加密所用参数

步骤A2.6：循环计算加密所用参数和/>这里的/>的e(g₁,g₂)是双线性配对计算；

步骤A2.7：依据上面计算的加密所用参数，计算各权威对应的公钥PK_i＝(p₁,p₂,p₃,p₄,p₅)，私钥SK_i＝(W_i,α_i,σ_i)；

步骤A3：各个属性权威执行解密密钥生成算法ABE.KeyGen()，通过输入公共参数pp和各个权威对应的公钥{PK_i}_1≤i≤n和权威私钥SK_i，用户全局标识GID以及属性向量v，输出部分解密密钥{sk_i,GID,v}_1≤i≤n，ABE算法的KeyGen()算法，即部分解密密钥生成过程如图6所示。

步骤A3.1：由当前权威i计算各个权威j相对应的掩蔽值u_i∈Z_p，计算遮蔽项的过程如图7所示，用于防止多个敌手合谋破解密文；

步骤A3.2：计算

步骤A3.3：使用哈希函数生成就是用户全局标识符GID与用户对应的属性向量 v的散列值，其中/>由哈希函数隐性定义H(GID,v)＝(H₁(GID,v),…,H_k+1(GID,v))^T；

步骤A3.4：计算

步骤A4：各个权威i将自己的公钥PK_i和部分解密密钥sk_,GID,v分发给对应的各个权威、客户端和服务器。

步骤A5：加密者为每个加密网页对应的URL地址EncryptURL_x，设计对应的属性向量 Policy_x。并将其存储在在服务器的访问策略映射AccessPolicyMap中；

步骤A5.2：将策略向量Policy_x，以EncryptURL为映射的Key，Policy_x为映射的Value，存储在访问策略映射AccessPolicyMap中。ABE加密算法Encrypt()算法流程图如图9所示。

步骤A6.1：用户在浏览器插件中心上下载安装浏览器插件BrowserExtension。

步骤A6.2：用户在官方的本地程序下载服务器上下载本地程序，同时填写表单，并给予网站给予用户的相关设备的权限，用于采集用户的相关信息，本地程序下载服务器生成用户属性向量Attribute＝(a₁,a₂,a₃,……,a_n-1)；

步骤A6.3：本地程序下载服务器初始化部分解密密钥集合KeyCollection＝{sk_i,GID,v}_1≤i≤n，并根据属性变量Attribute向各个权威请求对应属性的部分解密密钥sk_i,GID,v,并将其放在集合 KeyCollection中；

步骤A6.4：下载前将集合作为ABE解密密钥内嵌到本地程序中，本地程序利用该程序对ABE加密的结果进行解密。

第二部分，为用户请求访问加密网页，浏览器与服务器交互的过程，如图1、图3所示，过程如下：

步骤B1：用户向网页发出访问进行加密保护的页面请求；

步骤B1.1：浏览器Browser生成请求报文Request。并将该报文发送给服务器Server；

步骤B2：服务器根据请求的网页内容，从数据库中获取相关数据，并生成网页源码和响应体。

步骤B2.1：服务器解析请求报文Request，根据请求页面，与数据库Database建立连接并查询出相关的数据Data；

步骤B3：服务器对上一步生成的响应体ResponseBody，随机生成128位的对称密钥key，按照AES加密方案进行加密，加密结果为密文CipherText_AES；

步骤B4：服务器根据设定的加密策略映射AccessPolicyMap，查询EncryptURL对应的访问策略向量Policy，并执行ABE.PolicyToX()算法，将Policy转换为对应的加密策略随机元素向量x，ABE.PolicyToX()的算法流程图如图8所示；

步骤B4.1：服务器根据解析请求报文得到的EncryptURL，在映射AccessPolicyMap中查询出对应的访问策略向量Policy＝pol(p₁,p₂,p₃,…,p_n-1)，即计算Policy＝AccessPolicyMap(EncryptURL)；

步骤B4.2：服务器初始化随机元素向量x。将策略向量Policy中的所有非零值的元素转换为有限域或循环群上非零值对应的元素并赋值给向量x的相应位置，而策略向量中值为零的元素将被赋值为有限域或循环群上零值对应的元素并赋值给向量x的相应位置。即，若p_i≠ 0，则令x_i＝Z_p(p_i)。若p_i＝0，则x_i＝Z_p(0)。计算出加密策略元素向量x＝(x₁,x₂,……,x_n)。

步骤B5：服务器根据加密策略元素向量x＝(x₁,x₂,……,x_n)，权威公钥PK_i＝(p₁,p₂,p₃,p₄,p₅)，公共参数pp＝{g₁,g₂,g₃,h₁,h₂,h₃,h₄}，对AES的对称密钥key进行加密，得到密文其中/>{C′_i}_1≤i≤n,用于解密中的验证操作，而C'则是加密产生的密文，C₀,{C_i}_1≤i≤n用于求解明文操作；

步骤B5.2：计算

步骤B5.3：服务器对x中的每一项x_i，计算以及/>/>

步骤B5.4：服务器对x中的每一项x_i，计算

步骤B5.5：计算AES的对称密钥key密文

步骤B5.6：将以上的所有结果打包为密文

步骤B6：服务器将以上加密结果，网页源码的加密结果CipherText_AES和AES加密的对称密钥key加密结果CipherText_ABE打包为响应体ResponseBody＝(CipherText_AES,CipherText_ABE)。服务器生成相应报文Response，将其通过Http协议发送给客户端浏览器。

第三部分，浏览器扩展程序与本地程序交互，并解密获得网页源码明文。浏览器扩展程序从响应报文解析出响应体ResponseBody，并与本地程序通信，将响应体交给本地程序进行解密，解密后，返回解密结果交给浏览器进行渲染显示网页，具体过程如下：

步骤C1：浏览器通过浏览器扩展程序将获得的密文转发给本地程序；

步骤C1.1：客户端浏览器接收响应报文Response，并通过DOM API读取解析出响应体 ResponseBody中的密文CiphertText＝CipherText_ABE||CipherTextAE，将该响应体包含的密文 CipherText传给浏览器扩展程序。

步骤C1.2：浏览器扩展程序与本地程序建立连接，并将CipherText交付给本地程序进行解密

步骤C2：本地程序执行ABE.Decrypt()算法，利用下载本地程序时获得的解密密钥集合 KeyCollection＝{sk_i,GID,v}_1≤i≤n解密CipherText中的CipherText_ABE密文，ABE.Decrypt()的算法流程图如图10所示；

步骤C2.2：对应于密文的内容计算/>

步骤C2.3：计算e_hide1＝e(C'₀,Kmul)， e_hide1、e_hide2、e_hide3这三个都是用于堆成密钥的中间计算结果；

步骤C2.5：计算公式判断属性是否满足全部策略。若C_E＝e_hide1·e_hide2·e_hide3，则属性满足全部策略，满足解密权限，进行步骤C2.6进行解密。若不满足，则跳转到步骤C4；/>

步骤C2.7：得到解密结果result即为AES对称加密密钥，即key＝result。

步骤C3：利用对称加密密钥对CipherText_AES密文进行解密，获得网页源码WebSourceCode，并将其通过本地程序与客户端浏览器的连接将网页源码交付给浏览器进行渲染。

步骤C3.3：浏览器获得网页源码，渲染网页源码，用户继续进行操作和访问。

步骤C4：在本地程序判断的结果为，当前用户的属性不满足全部策略，无权限解密时，返回给浏览器本地预设的错误页面。

本发明提出了一种利用基于属性加密方案解决网页爬虫问题的研究与实现。与以前普遍通过提出新的网络爬虫检测方案或通过黑名单封禁IP等不同，本发明修改了服务器返回的响应报文，讲网页源码替换为了经过属性加密的密文。通过这样的修改，即使爬虫程序向服务器发送请求，由于爬虫程序不能通过浏览器拓展程序调用本地程序进行解密，即使进行手动解密，也必须要解密者满足自身拥有的属性才能解密成功。，就只能获得网页的密文。并且使用ABE加密方案，该发明还具有进行细粒度访问控制的功能，服务器可以设置那些类型的访问者可以访问到服务器上的哪些网页。

本文提出的反爬虫策略，先用AES加密算法对网页进行对称加密。然后使用ABE加密算法对AES密钥进行属性加密，从而达到细粒度访问控制的目的。此时，当恶意程序通过爬虫程序爬取网页源码时，爬取到的就不再是网页明文信息，而是网页的AES密文和ABE密文，由于属性不满足要求，故其不能对其进行解析从而获取数据。

Claims

1.一种面向网页安全的基于属性加密访问控制反爬虫方法，其特征在于，所述方法包括：

系统初始化，包括对ABE加密系统、网页资源服务器以及用户端浏览器和本地程序初始化；

所述系统初始化，包括：

步骤A1：在初始化阶段，ABE加密算法的可信第三方执行ABE.Setup()算法，根据安全参数λ，该算法生成用于生成加解密所用到的公共参数pp，并将公共参数颁发给各个客户端、权威和服务器；服务器设置属性加密访问策略映射AccessPolicyMap；客户端安装浏览器插件，并下载本地程序，下载的同时获得属性证书；

步骤A2：各个权威执行用于生成ABE.AuthSetup()算法和ABE.KeyGen()算法，为各个客户端和服务器颁发公钥PK和部分解密密钥sk_i,GID,v；其中ABE.AuthSetup()算法由各个属性权威执行，通过输入公共参数pp和权威索引i，生成权威的私钥SK_i和公钥PK_i；

步骤A3：各个属性权威执行解密密钥生成算法ABE.KeyGen()，通过输入公共参数pp和各个权威对应的公钥{PK_i}_1≤i≤n和权威私钥SK_i，用户全局标识GID以及属性向量v，输出部分解密密钥{sk_i,GID,v}_1≤i≤n；

步骤A5：加密者为每个加密网页对应的URL地址EncryptURL_x，设计对应的属性向量Policy_x，并将其存储在在服务器的访问策略映射AccessPolicyMap中；

为用户请求访问加密网页，进行浏览器与服务器的交互过程；

所述为用户请求访问加密网页，进行浏览器与服务器的交互过程，包括：

步骤B1：用户向网页发出访问进行加密保护的页面请求；

步骤B2：服务器根据请求的网页内容，从数据库中获取相关数据，并生成网页源码和响应体；

步骤B3：服务器对生成的响应体ResponseBody，随机生成128位的对称密钥key，按照AES加密方案进行加密，加密结果为密文CipherText_AES；

步骤B5：服务器根据加密策略元素向量x＝(x₁,x₂,……,x_n)、权威公钥PK_i＝(p₁,p₂,p₃,p₄,p₅)、公共参数pp＝{g₁,g₂,g₃,h₁,h₂,h₃,h₄}，对AES的对称密钥key进行加密，得到密文其中/>用于解密中的验证操作，C'表示加密产生的密文，C₀、{C_i}_1≤i≤n用于求解明文操作；

步骤B6：服务器加密，网页源码的加密结果CipherText_AES和AES加密的对称密钥key加密结果CipherText_ABE打包为响应体ResponseBody＝(CipherText_AES,CipherText_ABE)；服务器生成相应报文Response，将其通过Http协议发送给客户端浏览器；

浏览器扩展程序与本地程序交互，并解密获得网页源码明文；

所述浏览器扩展程序与本地程序交互，并解密获得网页源码明文，包括：

步骤C2：本地程序执行ABE.Decrypt()算法，利用下载本地程序时获得的解密密钥集合KeyCollection＝{sk_i,GID,v}_1≤i≤n解密CipherText中的CipherText_ABE密文；

步骤C3：利用对称加密密钥对CipherText_AES密文进行解密，获得网页源码WebSourceCode，并将其通过本地程序与客户端浏览器的连接将网页源码交付给浏览器进行渲染；

2.根据权利要求1所述的一种面向网页安全的基于属性加密访问控制反爬虫方法，其特征在于，所述步骤A1包括：

步骤A1.1：第三方随机生成大素数p；

步骤A1.3：根据SPDX(The Symmetric External Diffie-Hellman)复杂度假设，分别生成(k+1)×k大小的矩阵和(k+1)×(k+1)的矩阵/>k为矩阵大小，Z_p为有限域，是模p的非负最小完全剩余系；

步骤A1.4：循环计算公共参数和/>

步骤A1.6：生成公共参数pp＝{g₁,g₂,g₃,h₁,h₂,h₃,h₄}，即

步骤A1.7：可信第三方将生成的安全参数pp颁发给各个客户端和服务器。

3.根据权利要求1所述的一种面向网页安全的基于属性加密访问控制反爬虫方法，其特征在于，所述步骤A2包括：

步骤A2.2：令向量

步骤A2.3：生成随机数σ_i∈Z_p；

步骤A2.4：循环计算加密所用参数和/>

步骤A2.5：计算加密所用参数

步骤A2.6：循环计算加密所用参数和/>e(g₁,g₂)是双线性配对计算；

步骤A2.7：计算各权威对应的公钥PK_i＝(p₁,p₂,p₃,p₄,p₅)，私钥SK_i＝(W_i,α_i,σ_i)。

4.根据权利要求1所述的一种面向网页安全的基于属性加密访问控制反爬虫方法，其特征在于，所述步骤A3包括：

步骤A3.2：计算

步骤A3.3：使用哈希函数生成为用户全局标识符GID与用户对应的属性向量v的散列值，其中/>由哈希函数隐性定义H(GID,v)＝(H₁(GID,v),…,H_k+1(GID,v))^T；

步骤A3.4：计算

步骤A3.5：计算每个权威的属性向量v_i对应的部分解密密钥sk_i,GID,v＝(K_i,H(GID,v))。

5.根据权利要求1所述的一种面向网页安全的基于属性加密访问控制反爬虫方法，其特征在于，所述步骤B5包括：

步骤B5.2：计算

步骤B5.3：服务器对x中的每一项x_i，计算以及/>

步骤B5.4：服务器对x中的每一项x_i，计算

步骤B5.5：计算AES的对称密钥key密文

步骤B5.6：将计算结果打包为密文CipherText_ABE，

6.根据权利要求1所述的一种面向网页安全的基于属性加密访问控制反爬虫方法，其特征在于，所述步骤C2包括：

步骤C2.2：对应于密文的内容计算/>

7.执行权利要求1反爬虫方法的一种面向网页安全的基于属性加密访问控制反爬虫系统，其特征在于，包括：客户端、服务器和数据库三个实体；当客户端要访问某网页时，首先向服务器发出请求；服务器接收所述请求后，依据通信协议对请求内容进行解析；服务器依据解析结果，按照后台的业务逻辑获取相应的资源，生成网页源码及响应报文。