CN112039885B

CN112039885B - 一种网站风险评估方法及装置

Info

Publication number: CN112039885B
Application number: CN202010895595.7A
Authority: CN
Inventors: 高婉玲; 张龙; 穆建光; 何丹丹
Original assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-09-02
Anticipated expiration: 2040-08-31
Also published as: CN112039885A

Abstract

本申请公开了一种网站风险评估方法及装置。该方法从目标网站的数据中获取目标网站中每个页面的页面信息，其包括页面目录深度和与相邻页面间的父子链接关系后，针对每个页面，根据所述页面对应的至少一个页面风险因子的风险值，与相应页面风险因子的预设因子权重的加权和，获取页面的风险值；采用预设路径查找算法，按照父子链接关系，查找目标网站中起始页面对应的包括各自的终点页面的M条访问路径，并根据每条访问路径中各页面的页面目录深度，对各页面的页面风险值和分配的相应页面权重，得到访问路径的风险值；根据至少一条访问路径的风险值与相应预设的被访问概率，确定目标网站的风险评估等级，该方法提高风险评估的准确性。

Description

一种网站风险评估方法及装置

技术领域

本申请涉及网络安全技术领域，尤其涉及一种网站风险评估方法及装置。

背景技术

随着互联网的普及，网站数量越来越多，网站漏洞被利用就会出现安全事件，轻则被利用打广告，重则泄露数据和信息，不仅对网站的利益造成损失，而且对网站访问者也造成了威胁，所以近些年网站安全问题和风险评估也受到了更多的重视。安全事件是指利用网站漏洞，对网络和信息系统或者其中的数据造成危害，对社会造成负面影响的事件。

目前的网站风险值评估方案，主要是根据受攻击事件、历史入侵事件和web漏洞来对网站风险进行评估。但该方案只考虑了漏洞、事件两方面，统计粒度较粗，导致对网站风险进行评估时不够全面，评估准确性较低。

发明内容

本申请实施例提供一种网站风险评估方法及装置，解决了现有技术存在的上述问题，以提高对网站风险评估的全面性和准确性。

第一方面，提供了一种网站风险评估方法，该方法可以包括：

从目标网站的数据中获取所述目标网站中每个页面的页面信息，所述页面信息包括页面目录深度和与相邻页面间的父子链接关系；

针对每个页面，根据所述页面对应的至少一个页面风险因子的风险值，与相应页面风险因子的预设因子权重的加权和，获取所述页面的风险值；其中，所述风险值用于衡量所述至少一个页面风险因子对访问者的影响程度；

采用预设路径查找算法，按照所述父子链接关系，查找所述目标网站中起始页面对应的M条访问路径，所述每条访问路径包括各自的终点页面，M为正整数；

针对每条访问路径，根据所述访问路径中每个页面的页面目录深度，对不同页面目录深度的页面分配不同的页面权重，并对所述访问路径中每个页面的页面风险值和分配的相应页面权重进行加权求和，得到所述访问路径的风险值；

根据所述至少一条访问路径的风险值与相应预设的被访问概率的加权和，确定所述目标网站的风险评估等级。

在一个可选的实现中，针对每个页面，根据所述页面对应的至少一个页面风险因子的风险值，与相应页面风险因子的预设因子权重的加权和，获取所述页面的风险值，包括：

针对每个页面，计算所述页面对应的至少一个页面风险因子的风险值；

根据每个页面风险因子的风险值与相应页面风险因子的预设因子权重的乘积，获取所述页面的页面风险向量，所述页面风险向量的每个维度与所述每个页面风险因子对应的乘积一一对应；

将所述页面的页面风险向量的模值与预设系数的乘积确定为所述页面的风险值，所述预设系数是根据所述每个页面风险因子的预设因子权重确定的。

在一个可选的实现中，所述至少一个页面风险因子包括页面漏洞、系统漏洞、页面安全事件、页面平均访问量、页面平均停留时间、页面最近访问时间与创建时间差值中的至少一个。

在一个可选的实现中，若所述页面风险因子为页面平均访问量、页面平均停留时间或页面最近访问时间与创建时间差值，则针对每个页面，计算所述页面对应的所述页面平均访问量、页面平均停留时间或页面最近访问时间与创建时间差值的计算公式，包括：

所述页面平均访问量的风险值的计算公式为：

其中，x为所述页面平均访问量，P_A为所述页面平均访问量的风险值；

所述页面平均停留时间的风险值的计算公式为：

其中，y为所述页面平均停留时间，P_B为所述页面平均停留时间的风险值；所述页面最近访问时间与创建时间差值的风险值的计算公式为：

其中，z为页面最近访问时间与创建时间差值，P_C为所述页面最近访问时间与创建时间差值的风险值。

在一个可选的实现中，采用预设路径查找算法，按照所述父子链接关系，查找所述目标网站中起始页面对应的M条访问路径，包括：

采用深度优先搜索算法，按照所述父子链接关系和所述每个页面的页面目录深度，对所述目标网站进行路径搜索，得到所述目标网站中起始页面对应的N条候选访问路径，所述N条候选访问路径包括M个终点页面；N为不小于M的正整数；

采用最短路径算法，查找所述N条候选访问路径中M个终点页面所在的最短路径，得到所述目标网站中起始页面对应的M条访问路径。

在一个可选的实现中，所述目标网站中所述起始页面的页面权重大于除所述起始页面外的其他任一页面的页面权重；

按照页面目录深度由小到大的顺序，所述其他任一页面的页面权重均不小于下一个相邻页面的页面权重；

针对每条访问路径，按照页面目录深度由小到大的顺序，目标页面的前一个相邻页面与所述目标页面的页面权重的差值，大于所述目标页面与后一个相邻页面的页面权重的差值；其中，所述目标页面为所述访问路径中的任一页面。

在一个可选的实现中，所述页面权重的计算公式表示为：

其中，β_i表示所述每条访问路径中第i个页面的页面权重，r表示页面所属的页面目录深度的最大值，所述r为大于零的正整数，所述i的取值范围为[1，r]。

在一个可选的实现中，根据所述至少一条访问路径的风险值与相应预设的被访问概率的加权和，确定所述目标网站的风险评估等级，包括：

计算所述至少一条访问路径中每条访问路径的风险值与访问路径总数的比值；

将所述至少一条访问路径的比值相加的和确定为所述目标网站的风险值，并根据所述目标网站的风险值，确定所述目标网站的风险评估等级。

第二方面，提供了一种网站风险评估装置，该装置可以包括：获取单元、查找单元和确定单元；

所述获取单元，用于从目标网站的数据中获取所述目标网站中每个页面的页面信息，所述页面信息包括页面目录深度和与相邻页面间的父子链接关系；

以及，针对每个页面，根据所述页面对应的至少一个页面风险因子的风险值，与相应页面风险因子的预设因子权重的加权和，获取所述页面的风险值；其中，所述风险值用于衡量所述至少一个页面风险因子对访问者的影响程度；

所述查找单元，用于采用预设路径查找算法，按照所述父子链接关系，查找所述目标网站中起始页面对应的M条访问路径，所述每条访问路径包括各自的终点页面，M为正整数；

所述获取单元，还用于针对每条访问路径，根据所述访问路径中每个页面的页面目录深度，对不同页面目录深度的页面分配不同的页面权重，并对所述访问路径中每个页面的页面风险值和分配的相应页面权重进行加权求和，得到所述访问路径的风险值；

所述确定单元，用于根据所述至少一条访问路径的风险值与相应预设的被访问概率的加权和，确定所述目标网站的风险评估等级。

在一个可选的实现中，所述获取单元，具体用于针对每个页面，计算所述页面对应的至少一个页面风险因子的风险值；

在一个可选的实现中，若所述页面风险因子为页面平均访问量、页面平均停留时间或页面最近访问时间与创建时间差值，则针对每个页面，计算所述页面信息对应的所述页面平均访问量、页面平均停留时间或页面最近访问时间与创建时间差值的计算公式，包括：

所述页面平均访问量的风险值的计算公式为：

所述页面平均停留时间的风险值的计算公式为：

在一个可选的实现中，所述查找单元，具体用于采用深度优先搜索算法，按照所述父子链接关系和所述每个页面的页面目录深度，对所述目标网站进行路径搜索，得到所述目标网站中起始页面对应的N条候选访问路径，所述N条候选访问路径包括M个终点页面；N为不小于M的正整数；

以及，采用最短路径算法，查找所述N条候选访问路径中M个终点页面所在的最短路径，得到所述目标网站中起始页面对应的M条访问路径。

在一个可选的实现中，所述页面权重的计算公式表示为：

在一个可选的实现中，所述确定单元，具体用于计算所述至少一条访问路径中每条访问路径的风险值与访问路径总数的比值；

第三方面，提供了一种电子设备，该电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本发明实施例提供的网站风险评估方法从目标网站的数据中获取所述目标网站中每个页面的页面信息，页面信息包括页面目录深度和与相邻页面间的父子链接关系后，针对每个页面，根据页面对应的至少一个页面风险因子的风险值，与相应页面风险因子的预设因子权重的加权和，获取页面的风险值；采用预设路径查找算法，按照父子链接关系，查找目标网站中起始页面对应的包括各自的终点页面的M条访问路径，M为正整数；针对每条访问路径，根据访问路径中每个页面的页面目录深度，对不同页面目录深度的页面分配不同的页面权重，并对访问路径中每个页面的页面风险值和分配的相应页面权重进行加权求和，得到访问路径的风险值；根据至少一条访问路径的风险值与相应预设的被访问概率的加权和，确定目标网站的风险评估等级，与现有技术相比，该方法通过对网站页面和访问路径进行不同维度的分析得到目标网站的风险评估等级，提高风险评估的全面性和准确性。

附图说明

图1为本发明实施例提供的一种网站风险评估方法的流程示意图；

图2A为本发明实施例提供的一种不同页面的页面平均访问量的对比示意图；

图2B为图2A中页面平均访问量与风险值的曲线示意图；

图2C为本发明实施例提供的一种页面平均停留时间与相应风险值的曲线示意图；

图2D为本发明实施例提供的一种页面最近访问时间与创建时间差值与其风险值的曲线示意图；

图3为本发明实施例提供的一种目标网站中页面的网状拓扑图；

图4为本发明实施例提供的一种网站风险评估装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

术语解释：

漏洞：在硬件、软件、协议的具体实现或系统安全策略上存在的缺陷，从而可以使攻击者能够在未授权的情况下访问或破坏系统。其中，本申请将漏洞分为页面漏洞和系统漏洞两种类型。

页面漏洞：是由于页面自身原因(如编码、内容等)导致的漏洞；

系统漏洞：为网站非页面类漏洞，如信息泄露漏洞、拒绝服务漏洞等，系统漏洞的发生对整个网站都会产生影响。

安全事件：利用网站的漏洞，对网络和信息系统或者其中的数据造成危害，对社会造成负面影响的事件。

页面(或称“网页”)：是构成网站的基本元素，是承载各种网站应用的平台。通俗地说，网站就是由页面组成的。

S型曲线：S型曲线是社会学、生物统计学、临床、数量心理学、市场营销等统计实证分析的常用方法。曲线主要分为3段区域，当数量少时，增长速率较慢；数量快速增长期，增长速率达到最高；数量达到一定值后，增长速率减少，最终数量逐渐趋于稳定。

N维向量：是普通平面和空间向量概念的推广，是一种特殊的矩阵，数域P中的n个数的有序数组(a1，a2，…，an)，ai(i＝1，2，…，n)称为这个向量的分量或坐标。从原点到某点的有向线段，在1维向量可以以数轴表示，2维向量以平面坐标(a，b)表示，3维向量以空间直角坐标系内坐标(a,b,c)表示。高于4维向量无具体几何意义，以空间加时间理解4维向量，在时间t经过点(a，b，c)，可以用4维向量(a，b，c，t)表示。超过4维的向量，比如某事件受地点(3维向量)、时间、温度、日照因素影响，即可用6维向量表示。以此类推，可以抽象出N维向量。

深度优先搜索算法(Depth-First-Search)：属于图算法的一种，其过程简要来说是对每一个可能的分支路径深入到不能再深入为止，而且每个结点只能访问一次。

迪杰斯特拉算法(Dijkstra)：典型的最短路径算法，用于计算一个结点到其他结点的最短路径。它的主要特点是从起始点开始，每次遍历到起始点距离最近且未访问过的顶点的邻接结点，直到扩展到终点为止。它可以计算起始点到所有点的最短距离，并存在二维数组中，设定终点后可以直接查询得到起始点到设定终点的最短距离。

本申请提供的网站风险评估方法可以应用在风险评估系统中，该风险评估系统可以安装在云服务器或应用服务器中。该方法是站在访问者角度、以页面为检测单元的网站风险评估方案。

网站主要是以页面形式体现，不同的页面可以由主页面(或称“起始页面”)经过至少一个跳转来对目标页面进行访问。

风险评估系统可以使用爬虫算法对该网站中的各个页面进行信息爬取，获得每个页面的页面内容、与相邻页面间的父子链接关系、每个页面的页面目录深度等页面信息，并获取各个页面形成的访问路径，根据访问路径可形成一个网状拓扑，故本申请的网站风险评估方法则是从点(单个页面的风险值)到线(每个访问路径的风险值)再到面(网站的风险值)，计算网站风险值，从而确定该网站的风险评估等级。风险值用于衡量存在风险的可能性和风险造成的损失对访问者的影响程度，即各种风险对访问者的影响程度。风险值越高，表示风险越高，对访问者的影响程度越大。

其中，单个页面的风险值，是指访问者访问的问题页面的风险大小，即该页面对访问者的影响程度；

每个访问路径的风险值，是指访问者从主页面通过某种访问顺序访问到问题页面的访问路径的风险大小，即该访问路径对访问者的影响程度；

网站的风险值，是指访问者在该网站中通过不同路径访问到问题页面的整体风险大小，即该网站对访问者的影响程度。

需要说明的是，对于只存在一条访问路径的网站，本申请仅需要使用计算得到的单个页面的风险值，得到该条访问路径的风险值，并将该风险值确定为该网站的风险值即可。但为了提高网站风险评估的准确性，本申请所述的网站为包括至少两条访问路径的网站。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的一种网站风险评估方法的流程示意图。如图1所示，该方法可以包括：

步骤110、从目标网站的数据中获取目标网站中每个页面的页面信息。

风险评估系统可以使用爬虫算法对目标网站的数据进行页面信息爬取，获取目标网站中每个页面的页面信息。

页面信息可以包括页面目录深度、与相邻页面间的父子链接关系、页面内容、页面的开始访问时间、结束访问时间和访问次数等页面的相关信息。

其中，页面内容是指页面内的数据；页面目录深度反映了页面的访问层次；相邻页面间的父子链接关系是指相邻页面间的链接层次关系。

步骤120、针对每个页面，根据页面对应的至少一个页面风险因子的风险值与相应页面风险因子的预设因子权重的加权和，获取页面的风险值。

在具体实施中，针对每个页面，计算页面对应的至少一个页面风险因子的风险值。

页面风险因子可以包括页面漏洞、系统漏洞、页面安全事件、页面平均访问量、页面平均停留时间、页面最近访问时间与创建时间差值等存在访问风险的属性信息。

其中，页面漏洞、系统漏洞、页面安全事件可作为页面的安全性因素；页面平均访问量、页面平均停留时间和页面最近访问时间与创建时间差值可作为页面的价值性因素。

在一个例子中，对于页面风险因子为页面漏洞、系统漏洞和页面安全事件的情况：

风险评估系统或现有的监测系统可以先对该页面的页面内容进行漏洞扫描或安全事件监测；再根据扫描出的漏洞类型及数量，以及监测出的安全事件类型及数量，确定页面漏洞的风险值、系统漏洞的风险值和页面安全事件的风险值。

进一步的，对于页面风险因子为页面平均访问量、页面平均停留时间和页面最近访问时间与创建时间差值的情况：

风险评估系统首先计算得到页面平均访问量、页面平均停留时间和页面最近访问时间与创建时间差值，之后计算每个页面风险因子的风险值。

(1)页面平均访问量为访问总次数与页面创建时长(即当前时间与页面创建时间的差)的比值。页面创建时间可以通过网站数据，结合搜索引擎数据统计得到。如以天作为统计维度，页面平均访问量的计算公式为：

页面平均访问量越大，表明该页面访问越频繁、使用率越高。

如图2A所示，网站A是1天访问量为60次，即每天页面平均访问量是60，网站B是3天访问量为60次，即每天页面平均访问量是20。可以看出，相同天数网站A的页面平均访问量高。

为不同的页面平均访问量值赋予不同的风险值，页面平均访问量与其风险值的计算公式如下：

其中，x为页面平均访问量，P_A为页面平均访问量的风险值；

另，页面平均访问量对应的风险值曲线与S型曲线相似，故页面平均访问量与其风险值的曲线。

如图2B所示，曲线中，横轴x代表页面平均访问量，纵轴F(x)代表风险值。在页面平均访问量为0时，风险值为0；页面平均访问量约为6.5万，风险值约为50分；页面平均访问量约为10万，风险值约为80分。可以看出，在页面平均访问量小于2万左右时，风险值差距不大，都较低；页面平均访问量在2万-10万之间，风险值差距变大，最高达到80分；页面平均访问量超过10万之后，风险值差距也慢慢减小，最高风险值接近100分。页面平均访问量越高，风险值越高，页面产生风险后的影响范围越广。

(2)页面平均停留时间为每次访问的时间段，即访问开始时间与访问结束时间确定的访问时间段。

以每次的页面停留时间为统计维度，停留时间以秒统计。页面平均停留时间的计算公式为：

页面平均停留时间越长，表明该页面的内容为访问者提供的了更有价值的内容和服务。

为不同的页面平均停留时间赋予不同的风险值，页面平均停留时间与相应风险值的计算公式为：

其中，y为页面平均停留时间，P_B为页面平均停留时间的风险值。

另，页面平均停留时间与相应风险值的曲线，如图2C所示，曲线中，横轴x代表页面平均页面停留时间，单位为分钟，纵轴F(x)代表风险值。在页面平均停留时间为0时，风险值为0；页面平均停留时间约为4分钟，风险值约为50分；页面平均停留时间约为13分钟，得分约为80分。页面平均停留时间超过5分钟，风险值差距慢慢减小，最高风险值接近100分。风险值越高，表示页面内容越重要，产生风险后对访问者影响程度越大。

(3)页面最近访问时间与创建时间差值反映页面的价值度。最近访问时间和页面创建时间可以通过网站数据，结合搜索引擎数据统计得到。

页面最近访问时间与创建时间差值的风险值的计算公式为：

其中，z为页面最近访问时间与创建时间差值，P_C为页面最近访问时间与创建时间差值的风险值。

另，页面最近访问时间与创建时间差值与其风险值的曲线，如图2D所示，曲线中，横轴x代表页面最近访问时间与创建时间差值，单位为天，纵轴F(x)代表风险值。

页面最近访问时间与创建时间差值每增加30天，风险值增加1分。差值为0，表示新建的页面，风险值为0；差值为4年，风险值约为50分；差值为6年，风险值约为80分；差值为8.33年以上，风险值均为100分，表示页面被长时间使用。风险值越高，表示页面的存在价值越高，产生安全风险后影响更大。

需要说明的是，为了便于运算与比较，风险值的取值区间为[0，100]。

进一步的，根据每个页面风险因子的风险值与相应页面风险因子的预设因子权重的乘积，获取该页面的页面风险向量，其中，页面风险向量的每个维度与每个页面风险因子对应的乘积一一对应；

之后，将该页面的页面风险向量的模值与预设系数的乘积确定为页面的风险值。

可以理解的是，页面的风险值也可以是每个页面风险因子的风险值与相应页面风险因子的预设因子权重的乘积的累加和。

其中，每个页面风险因子的预设因子权重可以是根据对访问者造成影响程度设置的，影响程度越大，设置的预设因子权重越大，且至少一个页面风险因子的预设因子权重之和为1，例如，安全事件权重为0.3，漏洞类权重为0.2，网站价值类权重为0.1，漏洞类包括页面漏洞和系统漏洞，网站价值类包括页面平均访问量、页面平均停留时间和页面最近访问时间与创建时间差值。

在至少一个页面风险因子包括页面漏洞、系统漏洞、安全事件、页面平均访问量、页面平均停留时间和页面最近访问时间与创建时间差值6种页面风险因子时，各页面风险因子可以以一个6维行向量来表示，每个页面风险因子的风险值对应6维行向量中的一个列的值。也就是说，若至少一个页面风险因子包括K个页面风险因子，则每个页面风险因子的风险值对应K维行向量中的一个列的值。

至少一个页面风险因子中每个页面风险因子的6维行向量与相应预设因子权重加权求和后，得到页面的风险向量，并计算该风险向量的模值与预设系数的乘积，将该乘积确定为页面的风险值。

其中，预设系数可以是根据每个页面风险因子的预设因子权重确定的，用于将风险向量的模值收敛到风险值区间[1,100]内。

可选的，预设系数可以为每个页面风险因子的预设因子权重的平方累加和开方后的倒数。

设有N个页面风险因子，每个页面风险因子以N维向量

表示，N为正整数，则：

...

其中x_i是不同页面风险因子各自的风险值。

为不同页面风险因子分配权重α₁,α₂,...,α_n，其中α₁+α₂+...+α_n＝1。

页面风险向量可以表示为:

即

页面风险向量的模值可以表示为：

为了将页面风险向量的模值收敛到风险值区间[1,100]内，将该模值乘以预设系数，预设系数为1与每个预设因子权重的平方累加和的开方值的比值，即

则页面的风险值P的公式如下：

其中，α＞0，且α₁+α₂+...+α_n＝1。

在一个例子中，如以2个页面风险因子计算单个页面的风险值，安全事件的风险值为30分，权重为0.6，页面漏洞的风险值为20分，权重为0.4。则以2维向量表示，如下：

安全事件向量：

页面漏洞向量：

页面的风险向量：

风险向量值：

页面的风险值：

可见，通过页面的安全性、价值性的考虑，对页面进行不同维度的分析，通过多维因素的风险值计算，得到单个网页的风险值，实现了更加全面的衡量风险大小，以提高风险评估的准确性。

步骤130、采用预设路径查找算法，按照父子链接关系，查找目标网站中起始页面对应的M条访问路径。

采用深度优先搜索算法，按照父子链接关系，对目标网站进行路径搜索，得到目标网站中起始页面对应的N条候选访问路径，N条候选访问路径包括M个终点页面；M为正整数，N为不小于M的正整数；

采用深度优先搜索算法，并按照每个页面的页面目录深度和父子链接关系等信息，可以得到目标网站中页面的网状拓扑图，如图3所示，页面A为主页面，候选访问路径可以包括：

页面A、页面B、页面C和页面D组成的候选访问路径；

页面A、页面B、页面E和页面F组成的候选访问路径；

页面A、页面B、页面C和页面F组成的候选访问路径；

页面A、页面G、页面H和页面I组成的候选访问路径；

页面A、页面G、页面E和页面F组成的候选访问路径；

页面A、页面G、页面H和页面F组成的候选访问路径。

同时，获取到目标网站中所有终点页面，如页面D、页面F和页面I。终点页面的数量不大于候选访问路径的数量。

进一步的，采用最短路径算法，如Dijkstra算法，查找N条候选访问路径中M个终点页面所在的最短路径，得到目标网站中起始页面对应的M条访问路径，即每条访问路径包括各自的终点页面。

以最短路径算法为Dijkstra算法为例，对于每个终点页面，从起始页面开始，首先在N条候选访问路径中遍历与起始页面距离最近且未访问过的相邻页面，记录该子路径，并将该相邻页面标记为已访问。

然后，以相邻页面为新的起始页面，重复上述过程，直到扩展到相应终点页面为止，最终得到从第一个起始页面到每个终点页面的最短距离路径，从而得到目标网站中起始页面对应的M条访问路径，以及每条访问路径中页面的顺序。

结合图3，以最短路径算法为Dijkstra算法为例，以起始页面为页面A，每个终点页面为页面F为例，从页面A开始，首先在6条候选访问路径中查找到与页面A距离最近且未访问过的页面B和页面G，记录页面A到页面B的子路径和页面G的子路径，并将页面B和页面G标记为已访问；

然后，以页面B为第一新起始页面和页面G为第二新起始页面，分别查找到与页面B距离最近且未访问过的页面E，和与页面G距离最近且未访问过的页面H，并记录页面B到页面E的子路径，和页面G到页面H的子路径，并将页面E和页面H标记为已访问；

然后，再以页面E为第三新起始页面和页面H为第四新起始页面，分别查找到与页面E距离最近且未访问过的页面F，和与页面H距离最近且未访问过的页面I，并记录页面E到页面F的子路径，和页面H到页面I的子路径，并将页面F和页面I标记为已访问。

由于页面I是终止节点，即查找到页面I后路径查找将结束，故得到页面A到页面F的访问路径为：页面A到页面B的子路径、页面B到页面E的子路径和页面E到页面F的子路径。

步骤140、针对每条访问路径，根据访问路径中每个页面的页面风险值和分配的相应页面权重的加权和，得到访问路径的风险值。

针对每条访问路径，可以根据访问路径中每个页面的页面目录深度，对不同页面目录深度的页面分配不同的页面权重。

具体实施中，在每条访问路径中，对不同页面目录深度的页面分配不同的页面权重，页面目录深度越小的页面，表明越容易被访问到，即页面权重越高。

针对每条访问路径，如图3中页面A，页面B至页面D的访问路径，页面权重的满足条件可以包括：

(1)起始页面的页面权重大于除起始页面外的其他任一页面的页面权重，如页面A的页面权重大于除页面A外的页面B至页面D中任一页面的页面权重；

(2)按照页面目录深度由小到大的顺序，该其他任一页面的页面权重均不小于下一个相邻页面的页面权重，如页面B的页面权重大于页面C的页面权重大于页面D的页面权重；

(3)各页面的页面权重之和为1，且按照页面目录深度由小到大的顺序，目标页面的前一个相邻页面与目标页面的页面权重的差值，大于目标页面与后一个相邻页面的页面权重的差值；其中，目标页面为访问路径中的任一页面，如页面A的页面权重与页面B的页面权重的差，大于页面B的页面权重与页面C的页面权重的差，大于页面C的页面权重与页面D的页面权重的差。

例如，目标访问路径有r个页面，即页面目录深度是r级，则页面权重需满足如下条件：

β₁+β₂+...+β_r＝1

β₁＞β₂≥...≥β_r＞0

β₁-β₂＞β₂-β₃＞...＞β_r-1-β_r；

可选地，页面权重的计算公式可以表示为：

其中，β_i表示第i个页面的页面权重，r表示页面所属的页面目录深度的最大值，r为大于零的正整数，i的取值范围为[1，r]。

故，对于r个页面的页面权重分别为：

...

进一步的，对访问路径中每个页面的页面风险值和分配的相应页面权重进行加权求和，得到访问路径的风险值。

访问路径的风险值的计算公式如下：

V＝β₁P₁+β₂P₂+...+β_rP_r；

其中，r为访问路径的页面总数量，P₁,P₂,...,P_r为相应页面的风险值。β₁,β₂,...,β_r为按照不同页面的页面目录深度分配的页面权重。

例如，以图3中由A页面、B页面C页面和页面D组成的访问路径说明，假设P₁＝50，P₂＝30，P₃＝0，P₄＝20。此访问路径为4级页面目录深度，r＝4，根据上述访问路径中页面权重的计算公式，可得到A页面、B页面C页面和页面D的页面权重分别为：β₁＝0.53，β₂＝0.27，β₃＝0.13，β₄＝0.07，由此该访问路径的风险值为：V＝β₁P₁+β₂P₂+β₃P₃+β₄P₄＝26.5+8.1+0+1.4＝36。

步骤150、根据至少一条访问路径的风险值与相应预设的被访问概率的加权和，确定目标网站的风险评估等级。

其中，每条访问路径的风险值对应的被访问概率可以是访问路径总数的倒数，即每条访问路径被访问概率均相同，也可以是根据网站实际的业务情况预先设置的，本发明实施例在此不做限定。

计算至少一条访问路径中每条访问路径的风险值与访问路径总数的比值；

将至少一条访问路径的比值相加的和确定为目标网站的风险值，并根据目标网站的风险值，确定目标网站的风险评估等级。其中，目标网站的风险值的范围为[0,100]。

目标网站的风险值可根据不同页面目录深度页面被访问可能性不同，得到的影响风险不同，即目标网站的风险评估等级不同。

例如，目标网站有m条访问路径，V₁,V₂,...,V_m分别为每条访问路径的风险值，目标网站的风险值可以为：

本发明实施例提供的网站风险评估方法从目标网站的数据中获取所述目标网站中每个页面的页面信息，其包括页面目录深度和与相邻页面间的父子链接关系后，针对每个页面，根据页面对应的至少一个页面风险因子的风险值，与相应页面风险因子的预设因子权重的加权和，获取页面的风险值；采用预设路径查找算法，按照父子链接关系，查找目标网站中起始页面对应的包括各自的终点页面的M条访问路径，M为正整数；针对每条访问路径，根据访问路径中每个页面的页面目录深度，对不同页面目录深度的页面分配不同的页面权重，并对访问路径中每个页面的页面风险值和分配的相应页面权重进行加权求和，得到访问路径的风险值；根据至少一条访问路径的风险值与相应预设的被访问概率的加权和，确定目标网站的风险评估等级，与现有技术相比，该方法通过对网站页面和访问路径进行不同维度的分析得到目标网站的风险评估等级，提高风险评估的全面性和准确性。

与上述方法对应的，本发明实施例还提供一种网站风险评估装置，如图4所示，该网站风险评估装置包括：获取单元410、查找单元420和确定单元430；

获取单元410，用于从目标网站的数据中获取所述目标网站中每个页面的页面信息，所述页面信息包括每个页面的页面目录深度和与相邻页面间的父子链接关系；

查找单元420，用于采用预设路径查找算法，按照所述父子链接关系，查找所述目标网站中起始页面对应的M条访问路径，所述每条访问路径包括各自的终点页面，M为正整数；

获取单元410，还用于针对每条访问路径，根据所述访问路径中每个页面的页面目录深度，对不同页面目录深度的页面分配不同的页面权重，并对所述访问路径中每个页面的页面风险值和分配的相应页面权重进行加权求和，得到所述访问路径的风险值；

确定单元430，用于根据所述至少一条访问路径的风险值与相应预设的被访问概率的加权和，确定所述目标网站的风险评估等级。

获取单元410，具体用于针对每个页面，计算页面对应的至少一个页面风险因子的风险值；

所述页面平均访问量的风险值的计算公式为：

所述页面平均停留时间的风险值的计算公式为：

在一个可选的实现中，查找单元420，具体用于采用深度优先搜索算法，按照所述父子链接关系和所述每个页面的页面目录深度，对所述目标网站进行路径搜索，得到所述目标网站中起始页面对应的N条候选访问路径，所述N条候选访问路径包括M个终点页面；N为不小于M的正整数；

在一个可选的实现中，所述页面权重的计算公式表示为：

本发明上述实施例提供的网站风险评估装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本发明实施例提供的网站风险评估装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器510、通信接口520、存储器530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。

存储器530，用于存放计算机程序；

处理器510，用于执行存储器530上所存放的程序时，实现如下步骤：

所述页面平均访问量的风险值的计算公式为：

所述页面平均停留时间的风险值的计算公式为：

在一个可选的实现中，所述页面权重的计算公式表示为：

上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现，因此，本发明实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的网站风险评估方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的网站风险评估方法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。

Claims

1.一种网站风险评估方法，其特征在于，所述方法包括：

针对每条访问路径，根据所述访问路径中每个页面的页面目录深度，对不同页面目录深度的页面分配不同的页面权重，并对所述访问路径中每个页面的页面风险值和分配的相应页面权重进行加权求和，得到所述访问路径的风险值；所述目标网站中所述起始页面的页面权重大于除所述起始页面外的其他任一页面的页面权重；按照页面目录深度由小到大的顺序，所述其他任一页面的页面权重均不小于下一个相邻页面的页面权重；针对每条访问路径，按照页面目录深度由小到大的顺序，目标页面的前一个相邻页面与所述目标页面的页面权重的差值，大于所述目标页面与后一个相邻页面的页面权重的差值；其中，所述目标页面为所述访问路径中的任一页面；

2.如权利要求1所述的方法，其特征在于，针对每个页面，根据所述页面对应的至少一个页面风险因子的风险值，与相应页面风险因子的预设因子权重的加权和，获取所述页面的风险值，包括：

3.如权利要求2所述的方法，其特征在于，所述至少一个页面风险因子包括页面漏洞、系统漏洞、页面安全事件、页面平均访问量、页面平均停留时间、页面最近访问时间与创建时间差值中的至少一个。

4.如权利要求3所述的方法，其特征在于，若所述页面风险因子为页面平均访问量、页面平均停留时间或页面最近访问时间与创建时间差值，则针对每个页面，计算所述页面对应的所述页面平均访问量、页面平均停留时间或页面最近访问时间与创建时间差值的计算公式，包括：

所述页面平均访问量的风险值的计算公式为：

所述页面平均停留时间的风险值的计算公式为：

其中，y为所述页面平均停留时间，P_B为所述页面平均停留时间的风险值；

所述页面最近访问时间与创建时间差值的风险值的计算公式为：

5.如权利要求1所述的方法，其特征在于，采用预设路径查找算法，按照所述父子链接关系，查找所述目标网站中起始页面对应的M条访问路径，包括：

6.如权利要求1所述的方法，其特征在于，所述页面权重的计算公式表示为：

7.如权利要求1所述的方法，其特征在于，根据所述至少一条访问路径的风险值与相应预设的被访问概率的加权和，确定所述目标网站的风险评估等级，包括：

8.一种网站风险评估装置，其特征在于，所述装置包括：获取单元、查找单元和确定单元；

所述获取单元，还用于针对每条访问路径，根据所述访问路径中每个页面的页面目录深度，对不同页面目录深度的页面分配不同的页面权重，并对所述访问路径中每个页面的页面风险值和分配的相应页面权重进行加权求和，得到所述访问路径的风险值；所述目标网站中所述起始页面的页面权重大于除所述起始页面外的其他任一页面的页面权重；按照页面目录深度由小到大的顺序，所述其他任一页面的页面权重均不小于下一个相邻页面的页面权重；针对每条访问路径，按照页面目录深度由小到大的顺序，目标页面的前一个相邻页面与所述目标页面的页面权重的差值，大于所述目标页面与后一个相邻页面的页面权重的差值；其中，所述目标页面为所述访问路径中的任一页面；

9.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存储的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。