CN107204956B

CN107204956B - 网站识别方法及装置

Info

Publication number: CN107204956B
Application number: CN201610149762.7A
Authority: CN
Inventors: 申瑞珉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2020-06-23
Anticipated expiration: 2036-03-16
Also published as: CN107204956A

Abstract

本发明公开了一种网站识别方法及装置。其中，该方法包括：获取待检测网站上的网页图像；将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络，得到输出结果，其中，目标神经网络用于识别钓鱼网站；根据输出结果识别待检测网站是否为钓鱼网站。本发明解决了现有的网站识别技术所存在的准确率较低的技术问题。

Description

网站识别方法及装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种网站识别方法及装置。

背景技术

目前，传统的钓鱼网站识别技术通常包括以下几种：

1)基于黑名单技术：将已发现的钓鱼网站的统一资源定位符(Uniform ResourceLocation，URL)统一记录到一个黑名单中，以利用该黑名单判断待检测网站是否为钓鱼网站。但由于钓鱼网站的生命周期通常很短，因而通过频繁地更改域名和IP地址可以很容易实现对钓鱼网站地伪装；

2)基于网站内容识别的方法：提取待检测网站的Web内容，如JavaScript脚本、标题、文本内容、布局等。若其中包含钓鱼网站的特征，则认定是钓鱼网站。但是通过对网站内容进行混淆，或将文本内容转化成图片即可轻松实现对钓鱼网站地伪装；

3)基于网站IP地址关联的方法：通过分析待检测网站IP地址前24位与已知钓鱼网站之间的关联来判断是否为钓鱼网站。然而，单从IP维度分析钓鱼网站很难保证准确率与覆盖率；

4)基于URL属性大数据分析的方法：分析钓鱼网站的URL的多维度的属性，如URL中是否包含IP形式、是否包含16进制字符、是否包含敏感关键字、Whois注册信息是否在一年之内、网站排名等。然而，这些属性却无法准确反映该网站的全部特征，因而很难保证识别钓鱼网站的准确性与覆盖率。

也就是说，采用现有的网站识别方法识别钓鱼网站时，由于识别方式较为简单，钓鱼网站可以很容易通过伪装规避识别，因而很难保证识别的准确率与覆盖率。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种网站识别方法及装置，以至少解决现有的网站识别技术所存在的准确率较低的技术问题。

根据本发明实施例的一个方面，提供了一种网站识别方法，包括：获取待检测网站上的网页图像；将上述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络，得到输出结果，其中，上述目标神经网络用于识别钓鱼网站；根据上述输出结果识别上述待检测网站是否为钓鱼网站。

根据本发明实施例的另一方面，还提供了一种网站识别装置，包括：获取单元，用于获取待检测网站上的网页图像；输入单元，用于将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络，得到输出结果，其中，目标神经网络用于识别钓鱼网站；识别单元，用于根据输出结果识别待检测网站是否为钓鱼网站。

在本发明实施例中，通过获取待检测网站上的网页图像，将网页图像中预定区域的像素值构成的向量输入到预先建立的目标神经网络，得到输出结果，以实现根据该输出结果识别待检测网站是否为钓鱼网站。通过利用目标神经网络对待检测网站上的网页图像进行识别，判断该待检测网站是否为钓鱼网站，以避免遗漏伪装后的钓鱼网站，从而实现提高对钓鱼网站识别的准确率，进而克服现有技术中所存在的对钓鱼网站识别的准确率较低的技术问题。

进一步，利用经过训练得到的目标神经网络还可以实现对内容更加复杂的钓鱼网站进行深度识别，从而实现扩大对钓鱼网站的识别范围，提高对钓鱼网站识别的覆盖率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的网站识别方法的应用环境示意图；

图2是根据本发明实施例的一种可选的网站识别方法的流程图；

图3是根据本发明实施例的另一种可选的网站识别方法的流程图；

图4是根据本发明实施例的一种可选的待检测网站的示意图；

图5是根据本发明实施例的一种可选的网站识别装置的示意图；以及

图6是根据本发明实施例的一种可选的网站识别服务器示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种网站识别方法的实施例，该网站识别方法可以但不限于应用于如图1所示的应用环境中，检测服务器102通过网络104从待检测网站所在的待检测服务器106上获取待检测网站上的网页图像，将网页图像中的预定区域的像素值构成的向量输入到预先建立的目标神经网络中，以得到输出结果，其中，目标神经网络用于识别钓鱼网站；检测服务器102根据输出结果识别待检测网站是否为钓鱼网站。可选地，在本实施例中，上述网络可以包括但不限于以下至少之一：广域网、城域网、局域网。可选地，在本实施例中，上述检测服务器102与待检测服务器106可以集成为同一个服务器，也可以为如图1所示的不同的服务器。上述只是一种示例，本实施例对此不做任何限定。

根据本发明实施例，提供了一种网站识别方法，如图2所示，该方法包括：

S202，获取待检测网站上的网页图像；

S204，将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络，得到输出结果，其中，目标神经网络用于识别钓鱼网站；

S206，根据输出结果识别待检测网站是否为钓鱼网站。

可选地，在本实施例中，上述网站识别方法可以但不限于应用于对钓鱼网站的识别过程中，通过获取待检测网站上的网页图像，将该网页图像中的预定区域的像素值构成的向量输入预先建立的用于识别钓鱼网站的目标神经网络，得到输出结果，然后根据输出结果识别上述待检测网站是否为钓鱼网站。

需要说明的是，在本实施例中，通过获取待检测网站上的网页图像，将网页图像中预定区域的像素值构成的向量输入到预先建立的目标神经网络，得到输出结果，以实现根据该输出结果识别待检测网站是否为钓鱼网站。通过利用目标神经网络对待检测网站上的网页图像进行识别，判断该待检测网站是否为钓鱼网站，以避免遗漏伪装后的钓鱼网站，从而实现提高对钓鱼网站识别的准确率，进而克服现有技术中所存在的对钓鱼网站识别的准确率较低的技术问题。进一步，利用经过训练得到的目标神经网络还可以实现对内容更加复杂的钓鱼网站进行深度识别，从而实现扩大对钓鱼网站的识别范围，提高对钓鱼网站识别的覆盖率的效果。

可选地，在本实施例中，上述目标神经网络可以但不限于是通过对多目标进化神经网络进行N次迭代，从N次迭代所输出的非支配个体中选择一个非支配个体所对应的神经网络作为目标神经网络。也就是说，通过对多目标进化神经网络进行多次迭代优化，以得到识别准确率高、漏过率低的目标神经网络。进一步，在本实施例中，利用多目标进化神经网络的自动训练优化的自身结构的特性，不仅提高了网站识别方法的易用性，此外，还降低了计算开销，提高了网站识别效率。

可选地，在本实施例中，由多目标进化神经网络得到上述目标神经网络包括：收集神经网络训练样本。其中，上述神经网络训练样本用于对预先建立的多目标进化神经网络进行多次迭代训练。

可选地，在本实施例中，神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合，钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量，正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量。

需要说明的是，在本实施例中，上述正常网站训练样本集合可以但不限于作为白名单使用。也就是说，在识别过程中，若发现被误判为钓鱼网站的正常网站，则将该正常网站的网页图像中的预定区域的像素值构成的向量加入正常网站训练样本集合；同理，若发现遗漏的钓鱼网站，则将该钓鱼网站的网页图像中的预定区域的像素值构成的向量加入钓鱼网站训练样本集合。从而实现对网站识别结果的进一步修正，保证识别的准确率。

此外，在本实施例中，采用这种对多目标进化神经网络进行训练的方式，相对于传统的网站识别方法，对优化问题的性质没有任何限制，这使得复杂神经网络结构的自动设计成为可能。这样，在本发明实施例中，利用目标神经网络实现对网站识别过程中的多个目标同时进行优化。在保证精度的同时，还可以提高系统的易用性并降低识别计算开销。

可选地，在本实施例中，将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络可以包括但不限于：获取网页图像中的网站登录区域的像素值，其中，预定区域的像素值包括网站登录区域的像素值，网站登录区域至少包括：账号输入框和密码输入框；将网站登录区域的像素值输入目标神经网络。

需要说明的是，在本实施例中，上述预定区域可以但不限于根据不同的应用场景设置为不同区域。进一步，上述网站登录区域还可以包括验证区域等。本实施例中对此不做任何限定。

可选地，在本实施例中，根据网页图像的输出结果识别待检测网站是否为钓鱼网站可以包括但不限于：若输出结果的取值大于预定阈值，则识别出待检测网站为钓鱼网站；若输出结果的取值小于或等于预定阈值，则识别出待检测网站不为钓鱼网站。

其中，在本实施例中，上述预定阈值可以但不限于根据不同应用场景设置为不同的取值，本实施例中对此不做任何限定。例如，可以但不限于将钓鱼网站样本集合中的神经网络训练样本对应的预期的输出第一值，与正常网站样本集合中的神经网络训练样本对应的预期的输出第二值，二者之间的均值作为该预定阈值。

具体结合以下示例进行说明，如图3所示，假设待检测网站W为共享社区应用网站，获取该待检测网站W的登录页面图像。具体步骤可以如下：

S302，获取多目标进化神经网络。

S304，准备神经网络训练样本。其中，神经网络训练样本分为两部分：第一部分为钓鱼网站训练样本集合，钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量，与钓鱼网站样本集合中的神经网络训练样本对应的预期的输出定义为1；第二部分为正常网站训练样本集合，正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量，与正常网站样本集合中的神经网络训练样本对应的预期的输出定义为0。

S306，训练多目标进化神经网络，得到目标神经网络。将训练样本输入多目标进化神经网络进行迭代，并从输出的非支配解中选择一个非支配解对应的神经网络作为目标神经网络。

S308，识别钓鱼网站。将待检测网站W的网站登录区域的像素值(例如420x320的区域)构成的向量输入到预先建立的目标神经网络，得到输出结果，若输出结果大于预定阈值(例如预定阈值为0.5)，则认为待检测网站W是钓鱼网站，否则认为待检测网站W是正常网站。

通过本申请提供的实施例，通过利用目标神经网络对待检测网站上的网页图像进行识别，判断该待检测网站是否为钓鱼网站，以避免遗漏伪装后的钓鱼网站，从而实现提高对钓鱼网站识别的准确率，进而克服现有技术中所存在的对钓鱼网站识别的准确率较低的技术问题。进一步，利用经过训练得到的目标神经网络还可以实现对内容更加复杂的钓鱼网站进行深度识别，从而实现扩大对钓鱼网站的识别范围，提高对钓鱼网站识别的覆盖率的效果。

作为一种可选的方案，在获取待检测网站上的网页图像之前，还包括：

S1，收集神经网络训练样本，其中，神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合，钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量，与钓鱼网站样本集合中的神经网络训练样本对应的预期的输出为第一值，正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量，与正常网站样本集合中的神经网络训练样本对应的预期的输出为第二值；

S2，根据神经网络训练样本对预先建立的多目标进化神经网络进行训练，得到目标神经网络。

可选地，在本实施例中，第一值与第二值可以分别为1、0，第一值与第二值也可以分别为0、1。本实施例中对其不做任何限定。

需要说明的是，在本实施例中，可以通过收集已知网站类型的神经网络训练样本(即正常网站训练样本集合及钓鱼网站训练样本集合)，从而实现通过利用已知网站类型的两种神经网络训练样本对多目标神经网络进行优化训练，大大缩短了训练时间，减少了训练开销。

此外，在准备神经网络训练样本的过程中，还可以但不限于对已获取的神经网络训练样本进行校正。例如，假设以与钓鱼网站样本集合中的神经网络训练样本对应的预期的输出为1，与正常网站样本集合中的神经网络训练样本对应的预期的输出为0为例，在系统运营期间，若发现误判为钓鱼网站的正常网站，则可以将该正常网站的神经网络训练样本对应的预期的输出定义修正为0，并加入正常网站样本集合；同理，若发现漏过的钓鱼网站，也可以将该钓鱼网站的神经网络训练样本对应的预期的输出定义修正为1，并加入钓鱼网站集合。

通过本申请提供的实施例，通过利用神经网络训练样本(即正常网站训练样本集合及钓鱼网站训练样本集合)对预先建立的多目标进化神经网络进行训练，得到目标神经网络。从而实现利用识别能力较强，漏过率较低的目标神经网络对钓鱼网站进行深度识别，以提高对钓鱼网站识别的准确率及覆盖率。

作为一种可选的方案，根据神经网络训练样本对预先建立的多目标进化神经网络进行训练，得到目标神经网络包括：

S1，将神经网络训练样本输入多目标进化神经网络进行N次迭代，其中，N为预定值；

S2，在进行完N次迭代之后，从第N次迭代所输出的非支配个体中选择一个非支配个体，将选择出的非支配个体所对应的神经网络作为目标神经网络。

可选地，在本实施例中，上述非支配解用于指示在多目标规划中，由于存在目标之间的冲突和无法比较的现象，一个解在某个目标上是最好的，在其他的目标上可能比较差。

例如，假设第N次迭代后的输出结果包括：(0.6,0.6)^T、(2,3)^T、(3,2)^T、(0,1)^T、(1,0)^T、(5,5)^T。则可知：第一层为(0.6,0.6)^T、(0,1)^T、(1,0)^T(不被所有个体支配)；第二层为(2,3)^T和(3,2)^T(除去第一层非支配个体后不被所有个体支配)；第三层为(5,5)^T。

在该示例中，可以但不限于在第一层的非支配个体(0.6,0.6)^T、(0,1)^T、(1,0)^T中选择一个非支配个体所对应的神经网络作为目标神经网络。

可选地，在本实施例中，上述迭代次数N可以但不限于根据所需目标神经网络的不同精度设置为不同取值。本实施例中对此不做任何限定。

通过本申请提供的实施例，通过从第N次迭代所输出的非支配个体中选择一个非支配个体所对应的神经网络作为目标神经网络，利用多次迭代优化，选择出合适的神经网络作为用于识别钓鱼网站的目标神经网络，从而保证识别钓鱼网站的准确率和覆盖率。

作为一种可选的方案，将神经网络训练样本输入多目标进化神经网络进行N次迭代包括：

S1，随机生成多个所述多目标进化神经网络，参数为

其中，

所述m为用于对所述多目标进化神经网络进行训练的个体的数量，所述n为所述多目标进化神经网络的层数；其中，收集到的所述神经网络训练样本中的第k个所述神经网络训练样本

所述i为与

对应的网页图像中所述预定区域的像素行数，所述j为与

对应的网页图像中所述预定区域的像素列数；

S2，将神经网络训练样本输入多目标进化神经网络中，执行N次迭代操作，其中，q₁为m，第j次迭代操作包括：

S21，将用于第j次迭代的参数ξ^j和Y个神经网络训练样本代入到公式1和公式2中得到

其中，

q_j的取值为第j-1次迭代的参数中的非支配个体的个数；

S22，通过对

进行随机变换得到

和Y个神经网络训练样本代入到公式1和公式2中得到

S23，根据

及

从

中选择出用于第j+1次迭代的参数ξ^j+1，其中，

为第j次迭代的参数

中的非支配个体；

其中，公式1如下：

其中，在将用于第j次迭代的参数ξ^j和Y个神经网络训练样本代入到公式1时，

为Y个神经网络训练样本中第k个神经网络训练样本，

为参数ξ^j中第r个参数，

1≤r≤q_j，1≤k≤Y，1≤t≤n；

其中，

z_t为公式1中的

公式2如下：

其中，在将用于第j次迭代的参数ξ^j和Y个神经网络训练样本代入到公式2时，

为将神经网络训练样本

输入到

对应的公式1中得到的输出结果，y^k为与第k个神经网络训练样本对应的预期的输出。

可选地，在本实施例中，每一次迭代过程中q_j的大小可以但不限于由第j-1次迭代的参数中的非支配个体确定，即每一次迭代q₁,q₂...q_j的大小不完全相同；此外，每一次迭代过程中q_j的大小也可以但不限于为恒定值，即，每一次迭代q₁,q₂...q_j的大小均等于m(例如一般预设为100)。例如，通过分布性保持机制对上一次迭代过程中获得的非支配个体中进行删除，从而使下一代个体的数量保持为m。

可选地，在本实施例中，上述第k个神经网络训练样本

包括第k个神经网络训练样本中预定区域的像素值

可以但不限于构成一维向量输入目标神经网络。

具体结合以下示例进行说明：

S1，执行初始化操作。随机生成多个多目标进化神经网络，参数为

其中，多目标进化神经网络的每个个体对应不同的神经网络构造方案，它由包含若干权值矩阵、偏置向量的链表直接编码。假设m＝3，

其中，上述m为用于对多目标进化神经网络进行训练的个体的数量，n为多目标进化神经网络的层数。这样可以省去解码环节，防止产生不可行解，减少不必要的效率损失。

进一步，可以通过以下方式获取：在一定范围内产生一个随机整数以确定神经网络深度n作为多目标进化神经网络的层数，然后依次产生大于0的随机整数以确定

从而得到神经网络的结构。最后在一定的实数范围内随机均匀填充上述权值矩阵和偏置向量，得到对应的参数。

需要说明的是，在本实施例中，在未满足终止条件(通常设置一个固定的迭代次数)时，采用变换算子对父代种群进行一些随机调整得到子代群体。若满足终止条件，多目标进化神经网络迭代后的输出结果中将得到一组非支配解供选择。

假设收集到Y个(例如Y＝5)神经网络训练样本T，

其中，收集到的第k个神经网络训练样本

i为与

对应的网页图像中预定区域的像素行数，j为与

对应的网页图像中预定区域的像素列数；

S2，将神经网络训练样本T输入多目标进化神经网络中，执行N次迭代操作，其中，q₁为m，第j次迭代操作包括：

S21，将用于第j次迭代的参数ξ^j和Y个神经网络训练样本T代入到公式1和公式2中得到

其中，

q_j的取值为第j-1次迭代的参数中的非支配个体的个数；

其中，公式1如下：

为Y个神经网络训练样本中第k个神经网络训练样本，

为参数ξ^j中第r个参数，

1≤r≤q_j，1≤k≤Y，1≤t≤n；

其中，

z_t为公式1中的

公式2如下：

为将神经网络训练样本

输入到

也就是说，在第j次迭代的过程中，将5个神经网络训练样本分别依次代入公式1，得到与多目标进化神经网络中的参数

对应的输出结果

然后将上述输出结果代入公式2，得到

进一步，将5个神经网络训练样本分别代入公式1，得到与多目标进化神经网络中的参数

对应的输出结果。并将上述输出结果代入公式2，得到

S22，判断是否满足终止条件，若不满足终止条件，则对第j次迭代的目标神经进化网络(父代种群)进行一些随机的变换，将得到的参数ξ′₁,ξ′₂,ξ′₃作为子代种群，并计算对应的

这里需要说明的是，子代种群中的个体有可能比父代种群中的个体好，也可能比父代种群中的个体坏。

进一步，根据

及

中选择出用于第j+1次迭代的参数ξ^j+1。

假设第j次迭代后的输出结果包括：(0.6,0.6)^T、(2,3)^T、(3,2)^T、(0,1)^T、(1,0)^T、(5,5)^T。则可知：第一层为(0.6,0.6)^T、(0,1)^T、(1,0)^T(不被所有个体支配)；第二层为(2,3)^T和(3,2)^T(除去第一层非支配个体后不被所有个体支配)；第三层为(5,5)^T。则可以将第一层的非支配个体(0.6,0.6)^T、(0,1)^T、(1,0)^T对应的

作为用于第j+1次迭代的参数。

S3，在完成N次迭代后，可以根据实际场景选择一个非支配个体所对应的神经网络作为目标神经网络。

通过本申请提供的实施例，通过对多目标神经进化网络进行多次迭代训练，从而得到识别度较高的目标神经网络，以保证对钓鱼网站识别的准确率和覆盖率。进一步，通过多次迭代得到的目标神经网络，经优化还可以实现开销小、识别效率高的效果。

作为一种可选的方案，在进行完N次迭代之后，从第N次迭代所输出的非支配个体中选择一个非支配个体，将选择出的非支配个体所对应的神经网络作为目标神经网络包括：

S1，从第N次迭代所输出的非支配个体

里面选择出一个

其中，1≤R≤q_N，

代入公式3，得到目标神经网络，其中，

为待检测区域的像素值：

其中，将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络包括：将

包括的网页图像中的预定区域的像素值构成的向量输入目标神经网络。

通过本申请提供的实施例，通过将待检测网站中网页图像中的预定区域的像素值代入经迭代训练得到的目标神经网络，从而保证对待检测网站识别的准确率，避免误判或遗漏的问题。

作为一种可选的方案，将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络包括：

S1，获取网页图像中的网站登录区域的像素值，其中，预定区域的像素值包括网站登录区域的像素值，网站登录区域至少包括：账号输入框和密码输入框；

S2，将网站登录区域的像素值输入目标神经网络。

具体结合以下示例进行说明，从待检测网站W获取的网页图像如图4所示，其中，该网页图像中包括预定区域(即网站登录区域)，该网站登录区域为如图4所示的账号输入框和密码输入框所在的区域。

通过本申请提供的实施例,通过将从待检测网站获取的网页图像中网站登录区域的像素值输入目标神经网络，从而实现利用目标神经网络对该区域进行图像识别，以达到对该待检测网站进行深度识别，进而实现准确判断出该待检测网站是否为钓鱼网站的效果。

作为一种可选的方案，根据输出结果识别待检测网站是否为钓鱼网站包括：

S1，若输出结果的取值大于预定阈值，则识别出待检测网站为钓鱼网站；

S2，若输出结果的取值小于或等于预定阈值，则识别出待检测网站不为钓鱼网站。

可选地，在本实施例中，上述预定阈值可以但不限于根据不同应用场景设置为不同的取值，本实施例中对此不做任何限定。例如，预定阈值为第一值和第二值之间的中间值。

具体结合以下示例进行说明，例如，以钓鱼网站预期的输出定义为1，正常网站的预期的输出定义为0，预定阈值为0.5为例，若输出结果的取值大于0.5，则认为待检测网站W的输出结果更接近钓鱼网站预期的输出定义1，则判定该待检测网站W为钓鱼网站，若输出结果的取值小于等于0.5，则认为待检测网站W的输出结果更接近正常网站预期的输出定义0，则判定该待检测网站W为正常网站。

通过本申请提供的实施例，根据目标神经网络输出的输出结果的取值来判断待检测网站是否为钓鱼网站，不仅提高了识别的准确率，且识别开销较小。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述网站识别方法的网站识别装置，如图5所示，该装置包括：

1)获取单元502，用于获取待检测网站上的网页图像；

2)输入单元504，用于将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络，得到输出结果，其中，目标神经网络用于识别钓鱼网站；

3)识别单元506，用于根据输出结果识别待检测网站是否为钓鱼网站。

可选地，在本实施例中，上述网站识别装置可以但不限于应用于对钓鱼网站的识别过程中，通过获取待检测网站上的网页图像，将该网页图像中的预定区域的像素值构成的向量输入预先建立的用于识别钓鱼网站的目标神经网络，得到输出结果，然后根据输出结果识别上述待检测网站是否为钓鱼网站。

S302，获取多目标进化神经网络。

作为一种可选的方案，还包括：

1)收集单元，用于在获取待检测网站上的网页图像之前，收集神经网络训练样本，其中，神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合，钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量，与钓鱼网站样本集合中的神经网络训练样本对应的预期的输出为第一值，正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量，与正常网站样本集合中的神经网络训练样本对应的预期的输出为第二值；

2)训练单元，用于根据神经网络训练样本对预先建立的多目标进化神经网络进行训练，得到目标神经网络。

作为一种可选的方案，训练单元包括：

1)第一输入模块，用于将神经网络训练样本输入多目标进化神经网络进行N次迭代，其中，N为预定值；

2)选择模块，用于在进行完N次迭代之后，从第N次迭代所输出的非支配个体中选择一个非支配个体，将选择出的非支配个体所对应的神经网络作为目标神经网络。

作为一种可选的方案，第一输入模块包括：

1)生成子模块，用于随机生成多个所述多目标进化神经网络，参数为

其中，

所述i为与

对应的网页图像中所述预定区域的像素行数，所述j为与

对应的网页图像中所述预定区域的像素列数；

2)输入子模块，用于将神经网络训练样本输入多目标进化神经网络中，执行N次迭代操作，其中，q₁为m，第j次迭代操作包括：

S1，将用于第j次迭代的参数ξ^j和Y个神经网络训练样本代入到公式1和公式2中得到

其中，

q_j的取值为第j-1次迭代的参数中的非支配个体的个数；

S2，通过对

进行随机变换得到

将

和Y个神经网络训练样本代入到公式1和公式2中得到

S3，根据

及

从

中选择出用于第j+1次迭代的参数ξ^j+1，其中，

为第j次迭代的参数

中的非支配个体；

其中，公式1如下：

为Y个神经网络训练样本中第k个神经网络训练样本，

为参数ξ^j中第r个参数，

1≤r≤q_j，1≤k≤Y，1≤t≤n；

其中，

z_t为公式1中的

公式2如下：

为将神经网络训练样本

输入到

可选地，在本实施例中，上述第k个神经网络训练样本

包括第k个神经网络训练样本中预定区域的像素值

可以但不限于构成一维向量输入目标神经网络。

具体结合以下示例进行说明：

S1，执行初始化操作。随机生成多个多目标进化神经网络的参数为

假设收集到Y个(例如Y＝5)神经网络训练样本T，

其中，收集到的第k个神经网络训练样本

i为与

对应的网页图像中预定区域的像素行数，j为与

对应的网页图像中预定区域的像素列数；

其中，

q_j的取值为第j-1次迭代的参数中的非支配个体的个数；

其中，公式1如下：

为Y个神经网络训练样本中第k个神经网络训练样本，

为参数ξ^j中第r个参数，

1≤r≤q_j，1≤k≤Y，1≤t≤n；

其中，

z_t为公式1中的

公式2如下：

为将神经网络训练样本

输入到

对应的输出结果

然后将上述输出结果代入公式2，得到

对应的输出结果。并将上述输出结果代入公式2，得到

S22，判断是否满足终止条件，若不满足终止条件，则对第j次迭代的目标神经进化网络(父代种群)进行一些随机的变换，将得到的参数ξ₁′,ξ₂′,ξ₃′作为子代种群，并计算对应的

进一步，根据

及

中选择出用于第j+1次迭代的参数ξ^j+1。

作为用于第j+1次迭代的参数。

作为一种可选的方案，选择模块包括：

1)选择子模块，用于从第N次迭代所输出的非支配个体

里面选择出一个

其中，1≤R≤q_N，

代入公式3，得到目标神经网络，其中，

为待检测区域的像素值：

作为一种可选的方案，输入单元504包括：

1)获取模块，用于获取网页图像中的网站登录区域的像素值，其中，预定区域的像素值包括网站登录区域的像素值，网站登录区域至少包括：账号输入框和密码输入框；

2)第二输入模块，用于将网站登录区域的像素值输入目标神经网络。

作为一种可选的方案，识别单元506包括：

1)第一识别模块，用于在输出结果的取值大于预定阈值时，识别出待检测网站为钓鱼网站；

2)第二识别模块，用于在输出结果的取值小于或等于预定阈值时，识别出待检测网站不为钓鱼网站。

实施例3

根据本发明实施例，还提供了一种用于实施上述网站识别方法的网站识别服务器，如图6所示，该服务器包括：

1)通讯接口602，设置为获取待检测网站上的网页图像；

2)处理器604，与通讯接口602连接，设置为将网页图像中的预定区域的像素值输入预先建立的目标神经网络，得到输出结果，其中，目标神经网络用于识别钓鱼网站；还设置为根据输出结果识别待检测网站是否为钓鱼网站；

3)存储器606，与通讯接口602及处理器604连接，设置为存储待检测网站上的网页图像，预先建立的目标神经网络及得到的输出结果。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，获取待检测网站上的网页图像；

S2，将网页图像中的预定区域的像素值输入预先建立的目标神经网络，得到输出结果，其中，目标神经网络用于识别钓鱼网站；

S3，根据输出结果识别待检测网站是否为钓鱼网站。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种网站识别方法，其特征在于，包括：

获取待检测网站上的网页图像；

将所述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络，得到输出结果，其中，所述目标神经网络用于识别钓鱼网站，所述目标神经网络使用神经网络训练样本对多目标进化神经网络进行训练得到，所述神经网络训练样本包括钓鱼网站训练样本集合中的神经网络训练样本与正常网站训练样本集合中的神经网络训练样本；

根据所述输出结果识别所述待检测网站是否为钓鱼网站；

其中，所述将所述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络包括：

获取所述网页图像中的网站登录区域的像素值，其中，所述预定区域的像素值包括所述网站登录区域的像素值，所述网站登录区域至少包括：账号输入框和密码输入框；

将所述网站登录区域的像素值输入所述目标神经网络；

其中，所述根据所述输出结果识别所述待检测网站是否为钓鱼网站包括：在所述输出结果的取值大于预定阈值的情况下，则识别出所述待检测网站为钓鱼网站，在所述输出结果的取值小于或等于所述预定阈值的情况下，则识别出所述待检测网站不为钓鱼网站，所述预定阈值为所述钓鱼网站训练样本集合中的神经网络训练样本对应的预期的输出第一值，与所述正常网站训练样本集合中的神经网络训练样本对应的预期的输出第二值的均值。

2.根据权利要求1所述的方法，其特征在于，在所述获取待检测网站上的网页图像之前，还包括：

收集所述神经网络训练样本，其中，所述神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合，所述钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量，与所述钓鱼网站训练样本集合中的神经网络训练样本对应的预期的输出为第一值，所述正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量，与所述正常网站训练样本集合中的神经网络训练样本对应的预期的输出为第二值；

根据所述神经网络训练样本对预先建立的多目标进化神经网络进行训练，得到所述目标神经网络。

3.根据权利要求2所述的方法，其特征在于，所述根据所述神经网络训练样本对预先建立的多目标进化神经网络进行训练，得到所述目标神经网络包括：

将所述神经网络训练样本输入所述多目标进化神经网络进行N次迭代，其中，N为预定值；

在进行完N次迭代之后，从第N次迭代所输出的非支配个体中选择一个非支配个体，将选择出的非支配个体所对应的神经网络作为所述目标神经网络。

4.根据权利要求3所述的方法，其特征在于，将所述神经网络训练样本输入所述多目标进化神经网络进行N次迭代包括：

随机生成多个所述多目标进化神经网络，参数为

其中，

W¹为权值矩阵，

为偏置向量，所述m为用于对所述多目标进化神经网络进行训练的个体的数量，所述n为所述多目标进化神经网络的层数；其中，收集到的所述神经网络训练样本中的第k个所述神经网络训练样本

所述i为与

对应的网页图像中所述预定区域的像素行数，所述j为与

对应的网页图像中所述预定区域的像素列数；

将所述神经网络训练样本输入所述多目标进化神经网络中，执行N次迭代操作，其中，q₁为m，第j次迭代操作包括：

将用于第j次迭代的参数ξ^j和Y个所述神经网络训练样本代入到公式1和公式2中得到

其中，

所述q_j的取值为第j-1次迭代的参数中的非支配个体的个数；

通过对

进行随机变换得到

将

和Y个所述神经网络训练样本代入到所述公式1和所述公式2中得到

根据

及

从

中选择出用于第j+1次迭代的参数ξ^j+1，其中，

为第j次迭代的参数

中的非支配个体；

其中，所述公式1如下：

其中，在将用于第j次迭代的参数ξ^j和Y个所述神经网络训练样本代入到公式1时，所述

为Y个所述神经网络训练样本中第k个所述神经网络训练样本，

为所述参数ξ^j中第r个参数，所述

其中，所述

所述z_t为所述公式1中的

所述公式2如下：

其中，在将用于第j次迭代的参数ξ^j和Y个所述神经网络训练样本代入到公式2时，所述

为将所述神经网络训练样本

输入到所述

对应的公式1中得到的输出结果，所述y^k为与所述第k个所述神经网络训练样本对应的预期的输出。

5.根据权利要求4所述的方法，其特征在于，在进行完N次迭代之后，从第N次迭代所输出的非支配个体中选择一个非支配个体，将选择出的非支配个体所对应的神经网络作为所述目标神经网络包括：

从第N次迭代所输出的非支配个体

里面选择出一个

其中，1≤R≤q_N，

代入所述公式3，得到所述目标神经网络，其中，所述

为待检测区域的像素值：

其中，将所述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络包括：将

包括的所述网页图像中的预定区域的像素值构成的向量输入所述目标神经网络。

6.一种网站识别装置，其特征在于，包括：

获取单元，用于获取待检测网站上的网页图像；

输入单元，用于将所述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络，得到输出结果，其中，所述目标神经网络用于识别钓鱼网站，所述目标神经网络使用神经网络训练样本对多目标进化神经网络进行训练得到，所述神经网络训练样本包括钓鱼网站训练样本集合中的神经网络训练样本与正常网站训练样本集合中的神经网络训练样本；

识别单元，用于根据所述输出结果识别所述待检测网站是否为钓鱼网站；

其中，所述输入单元包括：

获取模块，用于获取所述网页图像中的网站登录区域的像素值，其中，所述预定区域的像素值包括所述网站登录区域的像素值，所述网站登录区域至少包括：账号输入框和密码输入框；

第二输入模块，用于将所述网站登录区域的像素值输入所述目标神经网络；

其中，所述识别单元包括：第一识别模块，用于在所述输出结果的取值大于预定阈值时，识别出所述待检测网站为钓鱼网站，第二识别模块，用于在所述输出结果的取值小于或等于所述预定阈值时，识别出所述待检测网站不为钓鱼网站，所述预定阈值为所述钓鱼网站训练样本集合中的神经网络训练样本对应的预期的输出第一值，与所述正常网站训练样本集合中的神经网络训练样本对应的预期的输出第二值的均值。

7.根据权利要求6所述的装置，其特征在于，还包括：

收集单元，用于在获取待检测网站上的网页图像之前，收集神经网络训练样本，其中，所述神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合，所述钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量，与所述钓鱼网站训练样本集合中的神经网络训练样本对应的预期的输出为第一值，所述正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量，与所述正常网站训练样本集合中的神经网络训练样本对应的预期的输出为第二值；

训练单元，用于根据所述神经网络训练样本对预先建立的多目标进化神经网络进行训练，得到所述目标神经网络。

8.根据权利要求7所述的装置，其特征在于，所述训练单元包括：

第一输入模块，用于将所述神经网络训练样本输入所述多目标进化神经网络进行N次迭代，其中，N为预定值；

选择模块，用于在进行完N次迭代之后，从第N次迭代所输出的非支配个体中选择一个非支配个体，将选择出的非支配个体所对应的神经网络作为所述目标神经网络。

9.根据权利要求8所述的装置，其特征在于，所述第一输入模块包括：

生成子模块，用于随机生成多个所述多目标进化神经网络，参数为