CN107786529A

CN107786529A - 网站的检测方法、装置及系统

Info

Publication number: CN107786529A
Application number: CN201610799094.2A
Authority: CN
Inventors: 李泽洋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2018-03-09
Anticipated expiration: 2036-08-31
Also published as: CN107786529B

Abstract

本申请提供一种网站的检测方法、装置及系统，该方法包括：获取待检测网站的网站地址；确定所述网站地址对应的哈希值；根据所述哈希值，确定所述待检测网站是否为目标网站。本发明提供一种检测准确性较高的网站检测方式。

Description

网站的检测方法、装置及系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种网站的检测方法、装置及系统。

背景技术

“钓鱼网站”是一种虚假网站，指不法分子利用各种手段，仿冒真实网站的网络地址URL以及页面内容，以此来骗取用户银行或信用卡账号、密码等私人资料。

“钓鱼网站”和普通网站一样为超文本标记语言html页面，访问地址或者域名看起来和真实网站很像。钓鱼页面通常由多个资源组成，例如html实体、层叠样式表单文件、脚本文件、静态图片等。制作越逼真的“钓鱼网站”所包含的资源文件越多。

传统的钓鱼网站检测方法，主要从网页地址和html实体着手。

网页地址方面，通过比较待检测网站的地址与真实网站的地址之间的相似程度来判断待检测网站是否为钓鱼网站。例如定义相似字母表，通过相似字母表来判断待检测网站的地址与真实网站的地址之间的相似度，从而确定待检测网站是否具有钓鱼网站的嫌疑。

html实体方面，主要通过关键字查找，查看关键字在待检测网站中是否存在，从而判断待检测网站是否为钓鱼网站。例如将“登录”、“淘宝”、“电子商务”、“注册”定义为一组规则，查找这些词在待检测网站的html实体中是否存在，若都存在，则待检测网站有钓鱼网站的嫌疑。

但是，实际情况中，也可能存在钓鱼网站的地址与真实网站的地址之间差别较大的情况，这中情况下通过网页地址检测钓鱼网站的方法，就受到了限制，检测钓鱼网站的准确性较低，而通过html实体进行检测时，检测受限于关键字规则。若关键字设置较少，误报率非常高，检测准确性较低。

发明内容

本发明提供一种网站的检测方法、装置及系统，以至少提供一种检测准确性较高的网站检测方式。

第一方面，本发明提供一种网站的检测方法，包括：

获取待检测网站的网站地址；

确定所述网站地址对应的哈希值；

根据所述哈希值，确定所述待检测网站是否为目标网站。

第二方面，本发明提供一种样本特征数据库的建立方法，包括：

收集样本网站的网站数据；

从所述样本网站数据中，获取各样本网站对应的资源地址和/或网页地址；

根据所述各样本网站对应的资源地址和/或网页地址，生成所述各样本网站对应的哈希值；

根据所述各样本网站对应的哈希值，建立样本特征数据库，其中，所述样本特征数据库用于与待检测网站对应的哈希值进行匹配，确定所述待检测网站是否是目标网站。

第三方面，本发明提供一种网站检测装置，包括：

获取单元，用于获取待检测网站的网站地址；

处理单元，所述处理单元耦合到所述获取单元，用于确定所述网站地址对应的哈希值，并根据所述哈希值，确定所述待检测网站是否为目标网站。

第四方面，本发明提供一种网站监测系统，该系统，包括：

外部输入端口，用于接收用户的网站链接请求；

内部通信接口，所述内部通信接口与所述外部输入端口耦合，用于从所述外部输入端口获取待检测网站的网站地址；

处理器，所述处理器耦合到所述内部通信接口，用于确定所述网站地址对应的哈希值，并根据所述哈希值，确定所述待检测网站是否为目标网站。

本发明中，通过获取待检测网站的地址，确定该地址对应的哈希值，根据该哈希值，确定待检测网站是否为目标网站，使得通过网站的地址的哈希值即可确定待检测网站是否是目标网站，而不需根据待检测网站地址与目标地址的相似度来对待检测网站进行检测，避免在待检测网站地址与目标网站地址差别较大的情况下，检测准确性较差的问题，同时，本发明的方案不依赖于html实体，检测不受关键字规则的限制，即使在html实体被加密的情况下，也能够对待检测网站进行准确检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种可选的应用场景/组网方式的示意图；

图2a为本发明实施例一提供的网站的检测方法的流程图；

图2b为本发明提供的一种识别架构图；

图3为本发明一实施例提供的样本特征库的构建方法示意图；

图4为本发明实施例二提供的网站的检测方法的流程图；

图5为本发明实施例三提供的网站的检测方法的流程图；

图6为本发明实施例四提供的网站的检测方法的流程图；

图7为本发明实施例五提供的网站检测装置的结构图；

图8为本发明实施例六提供的网站监测系统的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明提供一种网站的检测方式，尤其适用于诸如钓鱼网站等恶意网站的检测。以钓鱼网站为例，现有技术中，钓鱼网站的检测方法主要从网站的网页地址和html实体着手，对于网页地址方面，现有技术主要是通过检测待检测网站地址和目标网站地址之间的相似度来确定待检测网站是否是钓鱼网站。其中，所称的目标网站可以是预先设定的目前已知的钓鱼网站但不限于是钓鱼网站，也可以是其他恶意网站。目标网站地址可以是预先设定的目前已知的钓鱼网站的网络地址，但不限于是钓鱼网站的地址，也可以是其他恶意网站的地址。然而这种网站检测方式，其检测结果容易受到网址形式的影响，例如当待检测网站的地址与目标网站的地址之间的相似度较低时，采用网页地址的判断方法会认为待检测网站不是目标网站(例如钓鱼网站)，而实际上该网站是目标网站，这样就会造成误检、错检的问题。而对于html实体方面，现有技术主要是通过将待检测网站的html实体与预设的关键字规则进行匹配，从而根据匹配结果确定待检测网站是否是目标网站。其中，预设的关键字规则是从目标网站的html实体中提取获得的。例如，将从目标网站中提取的“登录”、“淘宝”、“电子商务”、“注册”定义为一组规则，查找这些词在待检测网站的html实体中是否存在，若都存在，则有钓鱼网站的嫌疑。但是这种方式容易受到关键字规则的影响，当关键字设置较少时，监测的准确率很低，并且，当待检测网站的html实体被加密时，现有方法无法获得待检测网站的html实体内容，进而更无法根据网站的html实体对网站进行检测，从而降低了检测的准确率。

本发明针对上述问题，提出了一种网站的检测方法，该方法通过获取待检测网站的地址，确定该地址对应的哈希值，从而根据待检测网站的哈希值，确定待检测网站是否是目标网站。

图1为本发明的一种可选的应用场景/组网方式的示意图，下面结合图1对本发明的检测方式进行说明。如图1所示，本发明提供的检测方式可以通过一独立于其他设备的网站检测装置(以下简称监测装置)来执行，该装置与网络服务器的输入端口连接，并对该输入端口的实时数据进行监测。图中的客户端可以是手机，平板电脑等具备互联网功能的设备，网络服务器可以用来对客户端发送的网站链接请求进行处理。当客户端通过网络服务器的输入端口向网络服务器发送网站链接请求时，检测装置被触发从该网站链接请求中，获取待检测网站的地址，即网站链接请求中的网站地址。在获得待检测的网站的地址后，根据预先设定的网站地址和哈希值之间的映射关系获得待检测网站地址的哈希值。可选的，本发明中涉及的网站地址和哈希值之间的映射关系，可以包括哈希函数md5、sha1中的任意一种。即以网站地址为哈希函数md5或sha1的输入变量，以对应的哈希值为哈希函数md5或sha1的输出变量，根据哈希函数md5或sha1计算网站地址对应的哈希值。进一步的，通过将计算获得的哈希值与预先存储的目标网站的地址的哈希值进行匹配，若一致则，确定待检测网站为目标网站(即钓鱼网站或其他恶意网站)，否则确定待检测网站不是目标网站。

实际应用中，通过对众多诸如钓鱼网站等恶意网站的分析，发现恶意网站通常是由相同的或相近的网站模板制作而成的，即使用同一网站模板的恶意网站之间的资源结构相似或相同。而资源结构在网站上主要被体现在网站资源路径和网页地址路径之间的关系上，以及网站资源路径之间的关系上。因此，可选的，本发明具体可以根据待检测网站的网页地址的路径和网站的资源地址路径之间的关系，和/或网站上各资源地址路径之间的关系，确定待检测网站是否是目标网站。

以钓鱼网站的检测为例，在获取待检测网站的地址后，通过加载该网站获取该网站的资源地址，并分别从网站的地址和各资源地址中获取各地址对应的路径，在此之后，可以通过拼接各资源地址的路径的方式，获得由各资源地址路径拼接而成的路径字符串，并根据预设的路径与哈希值之间的映射关系，确定该路径字符串对应的哈希值，从而通过将该哈希值分别与预先存储的各哈希值进行匹配，若存在一致的哈希值，则确定待检测网站为钓鱼网站，否则不是钓鱼网站。其中，预先存储的各哈希值为预先获得的各钓鱼网站的路径字符串对应的哈希值，各钓鱼网站的路径字符串的获得方式与待检测网站的路径字符串的获取方式相同，在这里不再赘述。

可选的，在获得待检测网站的地址的路径，以及待检测网站上各资源地址的路径之后，本发明还可以将各资源地址的路径分别与网站地址的路径进行组合拼接，生成与各资源地址路径对应的各路径字符串，在此之后，可以通过预先设定的路径与哈希值的映射关系，确定待检测网站对应的各路径字符串对应的哈希值。从通过将各路径字符串对应的哈希值与预先存储的哈希值进行匹配，从而可以根据待检测网站上哈希值与预先存储的哈希值一致的路径字符串的个数，确定待检测网站为钓鱼网站的概率。值得说明的是，本发明中，待检测网站上对应哈希值与预先存储的哈希值一致的路径字符串的个数和待检测网站为钓鱼网站的概率之间呈正比关系，即待检测网站上对应哈希值与预先存储的哈希值一致的路径字符串的个数越多，则待检测网站为钓鱼网站的概率越大。优选的，本发明中可以设置一个阈值，并可以设置为当待检测网站为钓鱼网站的概率超过此阈值时，待检测网站为钓鱼网站。

特别的，为了增加检测的准确性，也可以采用上述两种方法结合的方式对待检测网站进行检测。即在获得待检测网站的地址的路径，以及待检测网站上各资源地址的路径之后，首先将待检测网站上各资源地址的路径进行拼接，生成第一路径字符串，并将各资源地址的路径分别与网站地址的路径进行拼接，生成各资源地址对应的第二路径字符串。在此之后，再根据路径与哈希值之间的映射关系获得第一路径字符串对应的哈希值，以及各第二路径字符串对应的哈希值。最后，再将第一路径字符串对应的哈希值分别与预先存储的各钓鱼网站对应的第一路径字符串的哈希值进行匹配，其中，各钓鱼网站对应的第一路径字符串的获取方法与待检测网站的第一路径字符串的获取方法一致在这路不再赘述。进一步的，若存在一致的哈希值，则确定待检测的网站为钓鱼网站，否则，将待检测网站对应的各第二路径字符串对应的哈希值分别与预先存储的各钓鱼网站对应的第二路径字符串的哈希值进行匹配，确定待检测网站上对应哈希值与预先存储的哈希值一致的第二路径字符串的个数，从而确定待检测网站是否是钓鱼网站。其中，预先存储的各钓鱼网站对应的第二路径字符串的获取方法与待检测网站的第二路径字符串的获取方式类似在这里不再赘述。进一步的，本发明中在确定待检测网站为钓鱼网站后，还可以包括存储待检测网站的第一路径字符串的哈希值的步骤，以及关联存储待检测网站的各第二路径字符串的哈希值的步骤。

图2a为本发明实施例一提供的网站的检测方法的流程图，如图2a所示，该方法包括：

步骤101、获取待检测网站的网站地址。

实际应用中，检测装置对网络服务器的输入数据进行实时监测，当检测装置监测到网络服务器的输入数据中包含客户端的网络链接请求时，检测装置从该网络链接请求中获取待链接的网站的地址，即待检测网站的地址。也就是说本实施例中的网站检测时检测装置主动发起的。

另外，需要说明的是，本实施例中所涉及的地址包括网站的网页地址，和/或至少一个资源地址。其中，网页地址可以直接从网站链接请求中直接获得，网站的资源地址可以通过加载网页地址的方式获得。

步骤102、确定所述网站地址对应的哈希值。

实际应用中，待检测网站的地址对应的哈希值的获取方法可以有多种，比如可以根据预设的网站地址与哈希值之间的映射关系，获得待检测网站地址对应的哈希值，例如该映射关系可以具体被体现为一个以网站地址作为输入变量，将哈希值作为输出变量的哈希函数，当获取待检测网站的地址后，即可以该地址作为输入变量获得对应的哈希值。再比如，本实施例还可以根据预设的网站地址的路径与哈希值之间的映射关系，获得待检测网站的哈希值。例如该映射关系可以被体现为一个以网站地址的路径作为输入变量，以哈希值作为输出变量的哈希函数，当获得待检测网站的地址后，可以首先从待检测网站的地址中获取该地址的路径，再以该路径作为输入变量，获取对应的哈希值。

举例来说，当待检测网站的地址仅包括网页地址时，可以根据预设的哈希函数，将该网页地址作为输入变量，获得对应的哈希值，也可以根据预设的哈希函数将该地址的路径作为输入变量，获得该地址对应的哈希值。当待检测网站的地址包括网页地址和至少一个资源地址时，此时可以根据各地址之间的结构关系来确定待检测网站是否是目标网站。而实际应用中，网页地址与资源地址之间的结构关系，以及同一网页上的资源地址之间的结构关系，可以通过各地址之间的路径结构来表示。比如可以通过各资源地址之前的路径结构关系来表示个资源地址之间的结构关系，当获得待检测网站的网页地址后，可以通过加载该网页地址的方式获得该网页上各资源地址，在获得各资源地址后，从各资源地址中获得各资源地址的路径，并拼接成路径字符串，通过该路径字符串来表示，这些路径对应的资源地址在同一网页上，从而进一步根据预设的哈希函数，以该路径字符串为输入变量，以哈希值为输出变量，获得该路径字符串对应的哈希值，以通过该路径字符串对应的哈希值来确定待检测网站是否是目标网站。再比如，还可以将各资源地址的路径分别与网站地址的路径进行拼接，生成各资源地址对应的路径字符串，并以各资源地址对应的路径字符串来表示，资源地址与网页地址之间的从属结构关系，进一步的可以根据预设的哈希函数，以资源地址对应的路径字符串为输入变量，获得各资源地址对应的路径字符对应的哈希值，从而计算获得的各哈希值，来判断待检测网站是否为目标网站。当然，也可以综合根据资源地址间的结构关系，以及每个资源地址与网页地址间的结构关系，来判断待检测网站是否为目标网站，在这里不再赘述。当然上述仅为举例说明，并不是对本本发明的唯一限定。

步骤103、根据所述哈希值，确定所述待检测网站是否为目标网站。

图3为本发明一实施例提供的样本特征库的构建方法示意图，图3中的样本网站数据，可以包含现有已知的钓鱼网站的网站数据，但不仅限于钓鱼网站的网站数据，还可以包括其他恶意网站的网站数据，其中，上述所涉及的“网站数据”包括网站的网站地址(例如，网页地址和资源地址)。以目标网站为钓鱼网站为例，实际应用中，可以根据当前已知的钓鱼网站的地址信息建立样本特征库。根据步骤102的方法的不同，该特征库中存储的内容不同，例如当步骤102中所称的地址只包括网页地址时，该特征库中存储当前已知的各钓鱼网页地址对应的哈希值，或者当前已知的各钓鱼网站地址的路径对应的哈希值。当步骤102中所称的地址包括网页地址和至少一个资源地址时，该特征库中存储有当前已知的每个钓鱼网站上，各资源地址之间的结构关系对应的哈希值(即图3中的主哈希值)，进一步的，该特征库中还可以存储有当前已知的每个钓鱼网站上网页地址和资源地址之间的结构关系对应的哈希值(即图3中的分支哈希值)，这里需要说明的是，图3中主哈希值和分支哈希值的获取方法，与上述目标网站的哈希值的获取方法类似，在这里不再赘述。

实际应用中，当根据步骤102的方法获得哈希值后，可以通过将该哈希值与上述特征库中的哈希值进行匹配的方式来确定待检测网站是否是目标网站。比如，当步骤102中获得的是待检测网站上资源地址之间结构关系对应的哈希值，则可以将该哈希值与特征库中的哈希值进行匹配，若样本特征库中存在一哈希值与待检测网站上资源地址之间结构关系对应的哈希值一致，则确定待检测网站为目标网站，否则待检测网站不是目标网站。再比如，当上述步骤102中获得的是待检测网站上资源地址之间结构关系对应的哈希值，以及每个资源地址与网页地址之间的结构关系对应的哈希值，则先将待检测网站上资源地址之间结构关系对应的哈希值与特征库中存储的每个目标网站上资源地址之间的结构关系对应的哈希值进行匹配，若样本特征库中未存储有与待检测网站上资源地址之间结构关系对应的哈希值，则进一步将待检测网站上每个资源地址与网页地址之间的结构关系对应的哈希值与样本特征库中存储的每个目标网站上资源地址与网页地址之间的结构关系对应的哈希值进行匹配，确定与样本特征库中哈希值匹配的个数，从而根据预设的映射关系，以该个数为输入变量，计算待检测网站为目标网站的概率。并根据该概率的大小确定待检测网站是否为目标网站。

特别的，实际应用中，图2a中的方法可以在图2b所示的识别架构中执行。以云平台为例，在图2b中，云平台首先获取待检测网站的网站地址，再对该网站地址进行哈希值计算，获得网站地址的主哈希值和分支哈希值，从而通过将计算获得的主哈希值和分支哈希值分别与样本特征库中的哈希值进行匹配，即可确定待检测网站是否是目标网站。进一步的，若待检测网站时目标网站，则将待检测网站对应的哈希值存储在样本特征库中。其中，该识别架构下的执行方式与图2a所示实施例类似，在这里不再赘述。

本实施例中，通过获取待检测网站的地址，确定该地址对应的哈希值，根据该哈希值，确定待检测网站是否为目标网站，使得通过网站的地址的哈希值即可确定待检测网站是否是目标网站，而不需根据待检测网站地址与目标地址的相似度来对待检测网站进行检测，避免在待检测网站地址与目标网站地址差别较大的情况下，检测准确性较差的问题，同时，本实施例的方案不依赖于html实体，检测不受关键字规则的限制，即使在html实体被加密的情况下，也能够对待检测网站进行准确检测。

图4为本发明实施例二提供的网站的检测方法的流程图，如图4所示，该方法包括：

步骤201、获取待检测网站的网站地址，其中，该网站地址包括至少一个资源地址。

本实施例中所称的待检测网站的地址为待检测网站上各资源的资源地址。资源地址的获取方法与现有技术类似，在这里不再赘述。

步骤202、提取各所述资源地址的路径。

实际应用中，网络访问地址是由域名、路径以及参数列表组成的。因此，在获得待检测网站上的各资源地址后，可以直接从各资源地址中获取各资源地址对应的路径，此与现有技术中网络访问地址的路径获取方法类似，在这里不再赘述。

例如，资源地址1：http://www.b.com/ab/a.js？ua＝mobile

资源地址2：http://www.c.com/cr/b.css

资源地址3：http://www.d.com/ba/cd/c.jpg

则资源地址1对应的路径为/ab/a.js,资源地址2对应的路径为/cr/b.css,资源地址3对应的路径为/ba/cd/c.jpg。

步骤203、拼接各所述资源地址的路径，生成第一路径字符串。

可选的，本实施例中，可按预设的拼接规则将各资源地址之间的路径按照一定的顺序进行拼接，生成对应的路径字符串。例如，本实施例中，可以按照路径中首字母在字母表中的排列顺序对各资源地址间的路径进行排序、拼接，生成对应的路径字符串。

仍以步骤202中的示例为例，对资源地址1、资源地址2以及资源地址3的路径进行排序、拼接后，生成的路径字符串为：/ab/a.js/ba/cd/c.jpg/cr/b.css。

步骤204、根据预设的路径与哈希值之间的映射关系，确定所述第一路径字符串对应的第一哈希值。

仍以上例为例，假设预设的哈希函数为hash()，则将上例中的路径字符串作为输入变量，获得对应的哈希值hash1可表示为：hash(/ab/a.js/ba/cd/c.jpg/cr/b.css)＝hash1

步骤205、确定第一数据库中是否存在与所述第一哈希值匹配的哈希值，若存在，则确定所述待检测网站为目标网站，否则不是。

本实施例中，第一数据库(即前述特征库)中用于存储每个目标网站上由各资源地址的路径构成的路径字符串对应的哈希值，通过将待检测网站上资源地址对应的路径字符串对应的哈希值与第一数据库中的哈希值进行对比，若第一数据库中存在一哈希值与待检测网站上资源地址对应的路径字符串对应的哈希值一致，则确定待检测网站为目标网站，否则不是。

仍以上例为例，在获得哈希值hash1后，将hash1与第一数据库中的哈希值进行匹配，若第一数据库中存储有哈希值hash1，则确定待检测网站为目标网站，否则不是。

图5为本发明实施例三提供的网站的检测方法的流程图，如图5所示，该方法包括：

步骤301、获取待检测网站的网站地址，其中，该网站地址包括所述待检测网站的网页地址和至少一个资源地址。

本实施例中，待检测网站的网页地址可以从客户端发送的网站链接请求中直接获得，待检测网站上的至少一个资源地址可以通过加载网页地址间接获得。

步骤302、提取各所述资源地址的路径和所述网页地址的路径。

举例来说，假设网页地址为：

http://www.a.com/b/c.html？id＝24&from＝other

资源地址1为：http://www.b.com/ab/a.js？ua＝mobile

资源地址2为：http://www.c.com/cr/b.css

资源地址3为：http://www.d.com/ba/cd/c.jpg

则资源地址1对应的路径为/ab/a.js,资源地址2对应的路径为/cr/b.css,资源地址3对应的路径为/ba/cd/c.jpg，网页地址对应的路径为/b/c.html。

步骤303、将每个资源地址的路径分别与所述网页地址的路径进行拼接，生成对应的第二路径字符串。

本实施例中，每个资源地址的路径与网页地址的路径之间的拼接方法，与上述步骤203的拼接方法类似，在这里不再赘述。

仍上例中的资源地址1和网页地址为例，则根据资源地址1的路径和网页地址的路径，拼接成的路径字符串为：/ab/a.js/b/c.html

步骤304、根据预设的路径与哈希值之间的映射关系，确定所述第二路径字符串对应的哈希值。

实际应用中，本实施例是根据预设的哈希函数，分别将步骤303中获得的各路径字符串作为输入变量来计算获得各路径字符串对应的哈希值。

仍以上例为例，假设预设的哈希函数为hash()，则资源地址1和网页地址对应的路径字符串/ab/a.js/b/c.html对应的哈希值hash2为：

hash(/ab/a.js/b/c.html)＝hash2

其中，资源地址2和网页地址对应的路径字符串对应的哈希值的确定方法，以及资源地址3和网页地址对应的路径字符串对应的哈希值的确定方法，与资源地址1和网页地址对应的路径字符串对应的哈希值的确定方法类似，在这里不再赘述。

步骤305、确定哈希值和第二数据库中的哈希值匹配的第二路径字符串的个数；

本实施例中，第二数据库(即上述特征库)中存储的是各目标网站上各资源地址与网页地址对应的路径字符串对应的哈希值。

实际应用中，本实施例是通过确定上述步骤304中获得的哈希值中与第二数据库中哈希值匹配的数量来确定待检测网站是否是目标网站的。

步骤306、根据所述个数，确定所述待检测网站为目标网站的概率，若所述概率超过预设阈值，则确定所述待检测网站为目标网站，否则不是。

图6为本发明实施例四提供的网站的检测方法的流程图，如图6所示，该方法包括：

步骤401、获取待检测网站的网站地址，其中，该网站地址包括所述待检测网站的网页地址和至少一个资源地址。

步骤402、提取各所述资源地址的路径和所述网页地址的路径。

步骤403、拼接各所述资源地址的路径，生成第一路径字符串，并将每个资源地址的路径分别与所述网页地址的路径进行拼接，生成对应的第二路径字符串。

本实施例中第一路径字符串的生成方法与图3所示实施例类似，在这里不再赘述。第二路径字符串的生成方法与图4所示实施例类似，在这里不再赘述。

步骤404、确定第一数据库中是否存在与所述第一哈希值匹配的哈希值，若存在，则确定所述待检测网站为目标网站，并执行步骤407，否则，执行步骤405-步骤406。

步骤405、确定哈希值和第二数据库中的哈希值匹配的第二路径字符串的个数；

步骤406、根据所述个数，确定所述待检测网站为目标网站的概率，其中，若所述概率超过预设阈值，则确定所述待检测网站为目标网站，并执行步骤407，否则，所述待检测网站不是目标网站。

步骤407、将所述待检测网站对应的所述第一路径字符串存储在所述第一数据库中，将所述待检测网站对应的各所述第二路径字符串关联存储在所述第二数据库中。

图7为本发明实施例五提供的网站检测装置的结构图，如图7所示，该装置包括：

获取单元11，用于获取待检测网站的网站地址；

处理单元12，所述处理单元耦合到所述获取单元，用于确定所述网站地址对应的哈希值，并根据所述哈希值，确定所述待检测网站是否为目标网站。

其中，所述处理单元12，具体可以用于：

根据预设的网站地址与哈希值之间的映射关系，确定所述网站地址对应的哈希值。

所述处理单元12，具体还可以用于：

根据预设的路径与哈希值之间的映射关系，确定所述网站地址的路径对应的哈希值。

特别的，所述待检测网站的地址包括：至少一个资源地址；

所述处理单元12，还用于：

提取所述网站地址中资源地址的路径；

拼接所述网站地址中资源地址的路径，生成第一路径字符串；

根据预设的路径与哈希值之间的映射关系，确定所述第一路径字符串对应的第一哈希值。

所述处理单元12，还可以用于：

确定第一数据库中是否存在与所述第一哈希值匹配的哈希值；

若存在，则确定所述待检测网站为目标网站。

特别的，所述待检测网站的网站地址还可以包括：所述待检测网站的网页地址；

所述处理单元12，还用于

提取所述网站地址中网页地址的路径；

将所述网站地址中每个资源地址的路径分别与所述网站地址中网页地址的路径进行拼接，生成对应的第二路径字符串；

根据预设的路径与哈希值之间的映射关系，确定所述第二路径字符串对应的哈希值。

所述处理单元12，还可以用于：

确定哈希值和第二数据库中的哈希值匹配的第二路径字符串的个数；

根据所述个数，确定所述待检测网站为目标网站的概率；

若所述概率超过预设阈值，则确定所述待检测网站为目标网站。

所述装置还包括；

存储单元13，用于将所述待检测网站对应的各所述第二路径字符串关联存储在所述第二数据库中。

所述待检测网站为目标网站的概率与所述个数之间呈正比关系。

所述处理单元12，还用于：

若存在，则确定所述待检测网站为目标网站；

若不存在，则执行所述提取所述网页地址的路径的步骤。

所述目标网站包括钓鱼网站。

本实施例提供的装置能够用于执行上述方法实施例所示的方法，其执行方式和有益效果类似，在这里不再赘述。

图8为本发明实施例六提供的网站监测系统的结构图，如图8所示，该系统包括：

外部输入端口21，用于接收用户的网站链接请求；

内部通信接口22，所述内部通信接口与所述外部输入端口耦合，用于从所述外部输入端口获取待检测网站的网站地址；

处理器23，所述处理器耦合到所述内部通信接口，用于确定所述网站地址对应的哈希值，并根据所述哈希值，确定所述待检测网站是否为目标网站。

所述处理器23，具体用于：

所述处理器23，具体还用于：

所述待检测网站的地址包括：至少一个资源地址；

所述处理器23，还用于：

提取所述网站地址中资源地址的路径；

拼接所述资源地址的路径，生成第一路径字符串；

所述处理器23，还用于：

若存在，则确定所述待检测网站为目标网站。

所述待检测网站的预设的地址包括：所述待检测网站的网页地址；

所述处理器23，还用于：

提取所述网站地址中网页地址的路径；

将网站地址中每个资源地址的路径分别与所述网站地址中网页地址的路径进行拼接，生成对应的第二路径字符串；

所述处理器23，还用于：

根据所述个数，确定所述待检测网站为目标网站的概率；

所述系统还包括：

存储器24，所述存储器与所述处理器耦合，用于将所述待检测网站对应的各所述第二路径字符串关联存储在所述第二数据库中。

所述处理器23，还用于：

若存在，则确定所述待检测网站为目标网站；

若不存在，则执行所述提取所述网页地址的路径的步骤。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种网站的检测方法，其特征在于，包括：

获取待检测网站的网站地址；

确定所述网站地址对应的哈希值；

根据所述哈希值，确定所述待检测网站是否为目标网站。

2.根据权利要求1所述的方法，其特征在于，所述网站地址包括：网站的网页地址和网站的资源地址。

3.根据权利要求2所述的方法，其特征在于，所述确定所述网站地址对应的哈希值，包括：

根据预设的网站地址与哈希值之间的映射关系，确定所述待检测网站的网站地址对应的哈希值。

4.根据权利要求3所述的方法，其特征在于，所述根据预设的网站地址与哈希值之间的映射关系，确定所述待检测网站的网站地址对应的哈希值，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据预设的路径与哈希值之间的映射关系，确定所述网站地址的路径对应的哈希值，包括：

提取所述网站地址中资源地址的路径；

拼接所述资源地址的路径，生成第一路径字符串；

6.根据权利要求5所述的方法，其特征在于，所述根据所述哈希值，确定所述待检测网站是否为目标网站，包括：

若存在，则确定所述待检测网站为目标网站。

7.根据权利要求6所述的方法，其特征在于，所述获取待检测网站的网站地址之前，所述方法还包括：

收集样本网站数据；

从所述样本网站数据中，获取各样本网站对应的资源地址；

根据所述各样本网站对应的资源地址，生成所述各样本网站对应的哈希值；

根据所述各样本网站对应的哈希值，建立所述第一数据库。

8.根据权利要求5所述的方法，其特征在于，所述根据预设的路径与哈希值之间的映射关系，确定所述网站地址的路径对应的哈希值，还包括：

提取所述网站地址中网页地址的路径；

9.根据权利要求8所述的方法，其特征在于，所述根据所述哈希值，确定所述待检测网站是否为目标网站，包括：

根据所述个数，确定所述待检测网站为目标网站的概率；

10.根据权利要求9所述的方法，其特征在于，所述确定所述待检测网站为目标网站之后，所述方法还包括：

将所述待检测网站对应的各所述第二路径字符串，关联存储在所述第二数据库中。

11.根据权利要求10所述的方法，其特征在于，所述待检测网站为目标网站的概率与所述个数之间呈正比关系。

12.根据权利要求9所述的方法，其特征在于，所述根据所述哈希值，确定所述待检测网站是否为目标网站，包括：

若存在，则确定所述待检测网站为目标网站；

若不存在，则执行所述提取所述网站地址中网页地址的路径的步骤。

13.根据权利要求12所述的方法，其特征在于，在所述执行所述提取所述网站地址中网页地址的路径的步骤之后，若确定所述待检测网站为目标网站，则所述方法还包括：

将所述待检测网站对应的所述第一路径字符串存储在所述第一数据库中，将所述待检测网站对应的各所述第二路径字符串关联存储在所述第二数据库中。

14.根据求权利要求13所述的方法，其特征在于，所述获取待检测网站的网站地址之前，所述方法还包括：

收集样本网站数据；

从所述样本网站数据中，获取各样本网站对应的资源地址和网页地址；

根据所述各样本网站对应的资源地址和网页地址，生成所述各样本网站对应的哈希值；

根据所述各样本网站对应的哈希值，建立所述第二数据库。

15.根据求权利要求1-14中任选一项所述的方法，其特征在于，所述目标网站包括钓鱼网站。

16.一种样本特征数据库的建立方法，其特征在于，包括：

收集样本网站的网站数据；

17.一种网站检测装置，其特征在于，包括：

获取单元，用于获取待检测网站的网站地址；

18.根据权利要求17所述的装置，其特征在于，所述网站地址包括：网站的网页地址和网站的资源地址。

19.根据权利要求18所述的装置，其特征在于，所述处理单元，具体用于：

20.根据权利要求19所述的装置，其特征在于，所述处理单元，具体还用于：

21.根据权利要求20所述的装置，其特征在于，所述处理单元，还用于：

提取所述网站地址中资源地址的路径；

拼接所述资源地址的路径，生成第一路径字符串；

22.根据权利要求21所述的装置，其特征在于，所述处理单元，还用于：

若存在，则确定所述待检测网站为目标网站。

23.根据权利要求21所述的装置，其特征在于，所述处理单元，还用于

提取所述网站地址中网页地址的路径；

24.根据权利要求23所述的装置，其特征在于，所述处理单元，还用于：

根据所述个数，确定所述待检测网站为目标网站的概率；

25.根据权利要求24所述的装置，其特征在于，所述装置还包括；

存储单元，用于将所述待检测网站对应的各所述第二路径字符串，关联存储在所述第二数据库中。

26.根据权利要求25所述的装置，其特征在于，所述待检测网站为目标网站的概率与所述个数之间呈正比关系。

27.根据权利要求24所述的装置，其特征在于，所述处理单元，还用于：

若存在，则确定所述待检测网站为目标网站；

28.根据求权利要求18-27中任选一项所述的装置，其特征在于，所述目标网站包括钓鱼网站。

29.一种网站监测系统，其特征在于，包括：

外部输入端口，用于接收用户的网站链接请求；

30.根据权利要求29所述的系统，其特征在于，所述网站地址包括：网站的网页地址和网站的资源地址。

31.根据权利要求30所述的系统，其特征在于，所述处理器，具体用于：

32.根据权利要求31所述的系统，其特征在于，所述处理器，具体还用于：

33.根据权利要求32所述的系统，其特征在于，所述处理器，还用于：

提取所述网站地址中资源地址的路径；

拼接所述资源地址的路径，生成第一路径字符串；

34.根据权利要求33所述的系统，其特征在于，所述处理器，还用于：

若存在，则确定所述待检测网站为目标网站。

35.根据权利要求33所述的系统，其特征在于，

所述处理器，还用于

提取所述网站地址中网页地址的路径；

36.根据权利要求35所述的系统，其特征在于，所述处理器，还用于：

根据所述个数，确定所述待检测网站为目标网站的概率；

37.根据权利要求36所述的系统，其特征在于，所述系统还包括：

存储器，所述存储器与所述处理器耦合，用于将所述待检测网站对应的各所述第二路径字符串，关联存储在所述第二数据库中。

38.根据权利要求35所述的系统，其特征在于，所述处理器，还用于：

若存在，则确定所述待检测网站为目标网站；