CN112507333A

CN112507333A - 网站检测及模型训练方法、装置及电子设备

Info

Publication number: CN112507333A
Application number: CN202011391768.8A
Authority: CN
Inventors: 潘季明; 贾蓉
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-16

Abstract

本申请提供一种网站检测及模型训练方法、装置及电子设备，包括：获取待检测网站的网址；根据所述网址向所述待检测网站发送注册请求；其中，所述注册请求中包括：在该待检测网站进行注册所需的用户信息；根据所述待检测网站是否基于所述用户信息返回响应结果，确定出表征所述待检测网站为钓鱼网站的可疑值；根据所述可疑值，利用预先训练好的检测模型准确地确定所述待检测网站是否为钓鱼网站。

Description

网站检测及模型训练方法、装置及电子设备

技术领域

本申请涉及网络安全技术领域，具体而言，涉及一种网站检测及模型训练方法、装置及电子设备。

背景技术

由于互联网的巨大发展，媒体、购物和银行等业务已转变为在线模式，然而这些在线模式的业务容易受到黑客攻击。网络钓鱼是一种网络工程攻击，用于通过欺骗用户的方式获取用户的个人信息，例如用户ID、密码、信用卡和借记卡等。网络钓鱼是一种网络犯罪，攻击者试图通过发送网络钓鱼网站网址来获取用户的个人信息。现实生活中，由于用户打字错误而误访问钓鱼网站的情况经常发生，这势必会造成用户的财产损失、身份被盗用，甚至可能由于用户个人信息的泄露，而影响用户的在线联系人的信息安全。因此，网络钓鱼网站的识别是网络安全中非常重要的问题。

传统方法利用网络黑名单来检测网络钓鱼，但是黑名单中并不能包含所有钓鱼网站，且钓鱼网站的存活周期较短，因此，利用该方式不能准确地确定待检测网站是否为钓鱼网站。

发明内容

鉴于此，本申请实施例的目的在于提供一种网站检测及模型训练方法、装置及电子设备，以准确地确定待检测的网站是否为钓鱼网站。

第一方面，本申请实施例提供一种网站检测方法，所述方法包括：获取待检测网站的网址；根据所述网址向所述待检测网站发送注册请求；其中，所述注册请求中包括：在该待检测网站进行注册所需的用户信息；根据所述待检测网站是否基于所述用户信息返回响应结果，确定出表征所述待检测网站为钓鱼网站的可疑值；根据所述可疑值，利用预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

由于合法网站会对在该网站上进行注册的用户信息进行验证，因此，基于正确的用户信息可以成功注册，即该合法网站会返回一个表征注册成功的响应结果；反之，基于错误的用户信息是无法成功完成注册，即该合法网站会返回一个表征注册失败的响应结果；而钓鱼网站的目的是想要获取用户信息，通常不会对用户信息进行验证，因此，无论用户信息是否正确，在一般情况下，该钓鱼网站均不会返回响应结果，基于合法网站与钓鱼网站两者的区别，在上述实现过程中，根据所述待检测网站是否基于所述用户信息返回响应结果，能够准确地确定出表征所述待检测网站为钓鱼网站的可疑值；继而根据所述可疑值，利用预先训练好的检测模型准确地确定所述待检测网站是否为钓鱼网站。

基于第一方面，在一种可能的设计中，所述方法还包括：从所述网址中提取出网页域名；根据所述网页域名，确定出所述网页域名的关联信息；其中，所述关联信息中包括：所述网页域名的注册时长，以及表征所述网页域名是否属于预先确定的白名单的判断结果中的至少一种；对应的，所述根据所述可疑值，利用预先训练好的检测模型确定所述待检测网站是否为钓鱼网站，包括：根据所述关联信息以及所述可疑值，利用所述预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

由于钓鱼网站的网址中的网页域名更改的频率比较高，因此，钓鱼网站中的网页域名的注册时长一般不会太久，然而，合法网站中的网页域名则不会经常更改，因此，合法网站中的网页域名的注册时长相对会比较长；其次，在通常情况下，若待检测网站的网址中的网页域名不属于预先确定的白名单中的域名，则该网页域名为钓鱼网站的可能性比较大，反之，该网页域名为钓鱼网站的可能性比较小；因此，在上述实现过程中，由于所述关联信息中包括：所述网页域名的注册时长，以及表征所述网页域名是否属于预先确定的白名单的判断结果中的至少一种，因此，根据所述网页域名的关联信息以及所述可疑值，利用所述预先训练好的检测模型能够更为准确地确定所述待检测网站是否为钓鱼网站。

基于第一方面，在一种可能的设计中，所述方法还包括：根据所述网址，确定出所述待检测网站的特征信息；其中，所述特征信息包括：网页类别、表征所述网址与预先确定的白名单网址的最大相似度、Favicon图标是否从外部域加载的第一判断结果、所述网址中的服务表单处理程序(Server Form Handler，SFH)的域名和网页域名是否相同的第二判断结果、是否使用了网址缩短服务的第三判断结果，以及所述网址中的子域的数量中的至少一种；对应的，所述根据所述可疑值，利用预先训练好的检测模型确定所述待检测网站是否为钓鱼网站，包括：根据所述特征信息和所述可疑值，利用所述预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

由于钓鱼网站属于金融网站、抽奖、相亲类型的网站的可能性比较大，属于农业、学习类网站的可能性比较小；在待检测网站的网址不属于预先确定的白名单网址的情况下，待检测网站的网址与预先确定的白名单网址的相似度越高，则该待检测网站为钓鱼网站的可能性越大，反之，越小；若待检测网站的Favicon图标从外部域加载，则该待检测网站为钓鱼网站的可能性越大，反之，越小；若待检测网站的网址中的SFH的域名和网页域名是相同，则该检测网站为钓鱼网站的可能性越大，反之，越小；若该检测网站使用了网址缩短服务，则该检测网站为钓鱼网站的可能性越大，反之，越小；若所述网址中的子域的数量小于等于预设值，其中，所述预设值为2，则该检测网站为钓鱼网站的可能性比较小，反之，可能性比较大；在上述实现过程中，由于所述特征信息包括：网页类别、表征所述网址与预先确定的白名单网址的最大相似度、Favicon图标是否从外部域加载的第一判断结果、所述网址中的SFH的域名和网页域名是否相同的第二判断结果、是否使用了网址缩短服务的第三判断结果，以及所述网址中的子域的数量中的至少一种；因此，根据所述网址的特征信息和所述可疑值，利用所述预先训练好的检测模型能够更为准确地确定所述待检测网站是否为钓鱼网站。

基于第一方面，在一种可能的设计中，所述方法还包括：构建待训练的检测模型；获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，M和N均为大于等于1的正整数；根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型。

在上述实现过程中，利用训练样本对各个基分类器进行训练，以得到训练好的检测模型，以使训练好的检测模型能根据待检测网站的可疑值，准确地确定待检测网站是否为钓鱼网站。

基于第一方面，在一种可能的设计中，若M和N均为大于等于2的正整数，所述待训练的检测模型中包括：多个第一基分类器、多个第二基分类器和多个第三基分类器；所述根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型，包括：针对每个第一基分类器，利用所述训练样本训练该第一基分类器；针对每个第二基分类器，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本；其中，L和K比值与M和N的比值相同；L为大于等于1，且小于M的正整数；K为大于等于1，且小于N的正整数；利用所述L个钓鱼网站的样本和所述K个合法网站的样本训练该第二基分类器；针对每个所述第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本；H为大于等于1，且小于M和N的正整数；利用所述H个钓鱼网站的样本和所述H个合法网站的样本训练该第三基分类器，得到所述训练好的检测模型。

在上述实现过程中，针对每个第二基分类器，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本进行训练，充分考虑了样本选取的随机性，继而使得训练出的多个第二基分类器具有随机性，其次，针对每个第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本来进行训练，保证了训练出的第三分类器之间的随机性和共性，针对每个第一基分类器，利用全部训练样本进行训练，保证了各个第一基分类器之间的共性，继而使得训练好的检测模型能够准确地判断待检测网站是否为钓鱼网站。

第二方面，本申请实施例提供一种模型训练方法，其特征在于，所述方法包括：构建待训练的检测模型；获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，该钓鱼网站对应的可疑值为利用该钓鱼网站未基于注册请求中的用户信息返回响应结果确定的；该合法鱼网站对应的可疑值为利用该合法网站基于所述用户信息所返回的响应结果确定的；其中，M和N均为大于等于1的正整数；根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型。

由于合法网站会对在该网站上进行注册的用户信息进行验证，因此，基于正确的用户信息可以成功注册，即该合法网站会返回一个表征注册成功的响应结果；反之，基于错误的用户信息是无法成功完成注册，即该合法网站会返回一个表征注册失败的响应结果；而钓鱼网站的目的是想要获取用户信息，通常不会对用户信息进行验证，因此，在用户信息为错误的用户信息时，基于该用户信息也能在该钓鱼网站上成功注册，即该钓鱼网站会返回一个表征成功注册的响应结果，基于合法网站与钓鱼网站两者的区别，因此，在上述实现过程中，利用训练样本中的各个钓鱼网站和合法网站所对应的可疑值和标签，对待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型，以使训练好的检测模型能够根据待检测网站的可疑值，准确地判断待检测网站是否为钓鱼网站。

基于第二方面，在一种可能的设计中，若M和N均为大于等于2的正整数，所述待训练的检测模型中包括：多个第一基分类器、多个第二基分类器和多个第三基分类器；所述根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型，包括：针对每个第一基分类器，利用所述训练样本训练该第一基分类器；针对每个第二基分类器，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本；其中，L和K比值与M和N的比值相同；L为大于等于1，且小于M的正整数；K为大于等于1，且小于N的正整数；利用所述L个钓鱼网站的样本和所述K个合法网站的样本训练该第二基分类器；针对每个第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本；H为大于等于1，且小于M和N的正整数；利用所述H个钓鱼网站的样本和所述H个合法网站的样本训练该第三基分类器，得到所述训练好的检测模型。

第三方面，本申请实施例提供一种网站检测装置，所述装置包括：网址获取单元，用于获取待检测网站的网址；请求发送单元，用于根据所述网址向所述待检测网站发送注册请求；其中，所述注册请求中包括：在该待检测网站进行注册所需的用户信息；可疑值确定单元，用于根据所述待检测网站是否基于所述用户信息返回响应结果，确定出表征所述待检测网站为钓鱼网站的可疑值；确定单元，用于根据所述可疑值，利用预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

基于第三方面，在一种可能的设计中，所述装置还包括：网页域名获取单元，用于从所述网址中提取出网页域名；关联信息确定单元，用于根据所述网页域名，确定出所述网页域名的关联信息；其中，所述关联信息中包括：所述网页域名的注册时长，以及表征所述网页域名是否属于预先确定的白名单的判断结果中的至少一种；对应的，所述确定单元，还用于根据所述关联信息以及所述可疑值，利用所述预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

基于第三方面，在一种可能的设计中，所述装置还包括：特征性信息确定单元，用于根据所述网址，确定出所述待检测网站的特征信息；其中，所述特征信息包括：网页类别、表征所述网址与预先确定的白名单网址的最大相似度、Favicon图标是否从外部域加载的第一判断结果、所述网址中的SFH的域名和网页域名是否相同的第二判断结果、是否使用了网址缩短服务的第三判断结果，以及所述网址中的子域的数量中的至少一种；对应的，所述确定单元，还用于根据所述特征信息和所述可疑值，利用所述预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

基于第三方面，在一种可能的设计中，所述装置还包括：模型构建单元，用于构建待训练的检测模型；训练样本获取单元，用于获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，M和N均为大于等于1的正整数；模型训练单元，用于根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型。

基于第三方面，在一种可能的设计中，若M和N均为大于等于2的正整数，所述待训练的检测模型中包括：多个第一基分类器、多个第二基分类器和多个第三基分类器；所述模型训练单元，具体用于针对每个第一基分类器，利用所述训练样本训练该第一基分类器；以及针对每个第二基分类器，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本；其中，L和K比值与M和N的比值相同；L为大于等于1，且小于M的正整数；K为大于等于1，且小于N的正整数；利用所述L个钓鱼网站的样本和所述K个合法网站的样本训练该第二基分类器；针对每个所述第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本；H为大于等于1，且小于M和N的正整数；利用所述H个钓鱼网站的样本和所述H个合法网站的样本训练该第三基分类器，得到所述训练好的检测模型。

第四方面，本申请实施例提供一种模型训练装置，所述装置包括：构建单元，用于构建待训练的检测模型；样本获取单元，用于获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，该钓鱼网站对应的可疑值为利用该钓鱼网站未基于注册请求中的用户信息返回响应结果确定的；该合法鱼网站对应的可疑值为该合法网站基于所述用户信息所返回的响应结果确定的；其中，M和N均为大于等于1的正整数；训练单元，用于根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型。

基于第四方面，在一种可能的设计中，若M和N均为大于等于2的正整数，所述待训练的检测模型中包括：多个第一基分类器、多个第二基分类器和多个第三基分类器；所述训练单元，具体用于针对每个第一基分类器，利用所述训练样本训练该第一基分类器；以及针对每个第二基分类器，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本；其中，L和K比值与M和N的比值相同；L为大于等于1，且小于M的正整数；K为大于等于1，且小于N的正整数；利用所述L个钓鱼网站的样本和所述K个合法网站的样本训练该第二基分类器；针对每个第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本；H为大于等于1，且小于M和N的正整数；利用所述H个钓鱼网站的样本和所述H个合法网站的样本训练该第三基分类器，得到所述训练好的检测模型。

第五方面，本申请实施例提供一种电子设备，包括处理器以及与所述处理器连接的存储器，所述存储器内存储计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行第一方面或第二方面所述的方法。

第六方面，本申请实施例提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行第一方面或第二方面所述的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的网站检测方法的流程示意图。

图2为本申请实施例提供的模型训练方法的流程示意图。

图3为本申请实施例提供的网站检测装置的结构示意图。

图4为本申请实施例提供的模型训练装置的结构示意图。

图5为本申请实施例提供的电子设备的结构示意图。

图标：300-网站检测装置；310-网址获取单元；320-请求发送单元；330-可疑值确定单元；340-确定单元；400-模型训练装置；410-构建单元；420-样本获取单元；430-训练单元；500-电子设备；501-处理器；502-存储器；503-通信接口。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1为本申实施例提供的一种网站检测方法的流程图，下面将对图1所示的流程进行详细阐述，所述方法包括步骤：S11、S12、S13及S14。

S11：获取待检测网站的网址。

S12：根据所述网址向所述待检测网站发送注册请求；其中，所述注册请求中包括：在该待检测网站进行注册所需的用户信息。

S13：根据所述待检测网站是否基于所述用户信息返回响应结果，确定出表征所述待检测网站为钓鱼网站的可疑值。

S14：根据所述可疑值，利用预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

下面对上述方法进行详细介绍。

S11：获取待检测网站的网址。

在获取到所述网址之后，执行步骤S12。

在实际实施过程中，S12可以按照如下方式实施，为了对所述待检测网站是否为钓鱼网站进行初步判断，因此，根据所述网址，向所述待检测网站发送请求，接收所述检测网站基于所述请求返回的注册页面，根据所述注册页面中需要输入的信息的种类，在该待检测网站的注册页面中输入注册所需的用户信息，在用户信息输入完成时，根据所述用户信息，生成并发送注册请求至所述待检测网站。

其中，用户信息可以包括：邮箱、手机号码、密码等访问该网站所需要的信息种类。

其中，所述用户信息可以为正确的用户信息，即邮箱正确、手机号码正确、密码的长度正确、密码的格式正确；

所述用户信息可以为错误的用户信息，即邮箱不正确、手机号码不正确、密码的格式不正确。

在向所述待检测网站发送注册请求之后，执行步骤S13。

由于合法网站会对在该网站上进行注册的用户信息进行验证，因此，基于正确的用户信息可以成功注册，即该合法网站会返回一个表征注册成功的响应结果；反之，基于错误的用户信息是无法成功完成注册，即该合法网站会返回一个表征注册失败的响应结果；而由于钓鱼网站的目的是想要获取用户信息，因此，在一般情况下，钓鱼网站不会对用户信息进行验证，可以理解的是，无论该用户信息为错误的用户信息，还是正确的用户信息，通常情况下，该钓鱼网站均不会返回响应结果；因此，在实际实施过程中，S13可以按照如下方式实施，在确定发送所述注册请求之后的预设时长内，未接收到所述待检测网站基于所述用户信息所返回的响应结果时，根据预先确定的可疑值定义准则，确定出表征所述待检测网站为钓鱼网站的可疑值。

在确定发送所述注册请求之后的预设时长内，接收到所述待检测网站基于所述用户信息所返回的响应结果时，根据所述可疑值定义准则，确定出表征所述待检测网站为钓鱼网站的可疑值。

其中，所述预设时长可以根据用户需求设定，在此不作限制。

其中，可疑值定义准则根据用户需求设定，值的一提的是，在所述待检测网站未基于所述用户信息返回响应结果的情况下所确定的可疑值，大于所述待检测网站基于所述用户信息返回响应结果的情况下所确定的可疑值。

在得到所述可疑值之后，执行步骤S14。

S14包括：根据所述可疑值，利用预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

将所述可疑值输入至所述预先训练好的检测模型中，得到表征所述待检测网站是否为钓鱼网站的检测结果。

其中，训练好的检测模型是利用钓鱼网站和合法网站所对应的可疑值进行训练得到的。

由于钓鱼网站的网址中的网页域名更改的频率比较高，因此，钓鱼网站中的网页域名的注册时长一般不会太久，然而，合法网站中的网页域名则不会经常更改，因此，合法网站中的网页域名的注册时长相对会比较长；其次，在通常情况下，若待检测网站的网址中的网页域名不属于预先确定的白名单中的域名，则该网页域名为钓鱼网站的可能性比较大，反之，该网页域名为钓鱼网站的可能性比较小；因此，作为一种实施方式，所述方法还包括步骤：E1和E2。

E1：从所述网址中提取出网页域名。

在实际实施过程中，E1可以按照如下方式实施，在获取到所述待检测网站的网址之后，对所述网址进行解析，得到所述网页域名。

在获取到所述网页域名之后，执行步骤E2。

E2：根据所述网页域名，确定出所述网页域名的关联信息；其中，所述关联信息中包括：所述网页域名的注册时长，以及表征所述网页域名是否属于预先确定的白名单的判断结果中的至少一种。

在实施实施过程中，E2可以按照如下方式实施，由于每个网页域名在注册时，均会对该网页域名的注册时间进行记录，因此，根据所述网页域名，从预先存储的域名和注册时间的对应关系中，查找出与所述网页域名对应的注册时间，继而确定所述对应的注册时间和当前时刻的差值为所述网页域名的注册时长；和/或

根据所述网页域名，将所述网页域名与所述预先确定的白名单中的各个域名进行比较，在确定所述白名单中存在与所述网页域名相同的域名时，则得到表征所述网页域名属于所述白名单的判断结果，反之，则得到表征所述网页域名不属于所述白名单的判断结果。

作为一种实施方式，E2可以按照如下方式实施，根据所述网页域名，从预先存储的网页域名和关联信息的对应关系中，查找出与所述网页域名对应的关联信息。

对应的，S14包括：根据所述关联信息以及所述可疑值，利用所述预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

通过将所述关联信息和所述可疑值输入至所述预先训练好的检测模型中，得到表征所述待检测网站是否为钓鱼网站的检测结果。

由于钓鱼网站属于金融网站、抽奖、相亲类型的网站的可能性比较大，属于农业、学习类网站的可能性比较小；在待检测网站的网址不属于预先确定的白名单网址时，待检测网站的网址与预先确定的白名单网址的相似度越高，该待检测网站为钓鱼网站的可能性越大，反之，越小；若待检测网站的Favicon图标从外部域加载，则该待检测网站为钓鱼网站的可能性越大，反之，越小；若待检测网站的网址中的服务表单处理程序(Server FormHandler，SFH)的域名和网页域名是相同，则该检测网站为钓鱼网站的可能性越大，反之，越小；若该检测网站使用了网址缩短服务，则该检测网站为钓鱼网站的可能性越大，反之，越小；作为一种实施方式，所述方法还包括步骤：F1。

F1：根据所述网址，确定出所述待检测网站的特征信息；其中，所述特征信息包括：网页类别、表征所述网址与预先确定的白名单网址的最大相似度、Favicon图标是否从外部域加载的第一判断结果、所述网址中的SFH的域名和网页域名是否相同的第二判断结果、是否使用了网址缩短服务的第三判断结果，以及所述网址中的子域的数量中的至少一种。

在实际实施过程中，F1可以按照如下方式实施，在获取到所述网址之后，根据所述网址，将所述网址输入到预先训练好的网站类别识别模型中得到所述待检测网站的网页类别；其中，所述训练好的网站类别识别模型是利用各种网页类别的网站的网址进行训练得到的。

针对所述白名单网址中的每个网址，确定出该网址与所述待检测网站的网址的相似度，继而从多个相似度中确定出最大相似度。

根据所述网址，从所述网址中提取出网页域名，继而根据所述网页域名，确定出所述待检测网站中的Favicon图标是否从外部域加载的第一判断结果；其中，根据所述网页域名，确定出所述待检测网站中的Favicon图标是否从外部域加载的具体实施方式为本领域熟知技术，因此，在此不再赘述。

从所述网址中提取出网页域名和SFH的域名，确定所述网页域名和所述SFH域名是否相同，继而得到表征所述SFH的域名和网页域名是否相同的第二判断结果。

从所述网址中提取出网页域名，继而确定所述网页域名与预先存储的表征使用了网址缩短服务中的域名进行比较，在确定预先存储的表征使用了网址缩短服务中的域名中包括所述网页域名时，得到表征所述待检测网站使用了网址缩短服务的第三判断结果。

根据所述网址，确定出所述网址中包括的子域的数量。

作为一种实施方式，F1可以按照如下方式实施，根据所述网址，从预先存储的网址和特征信息的对应关系中，查找出与所述待检测网站对应的特征信息。

对应的，S14包括：根据所述特征信息和所述可疑值，利用所述预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

将所述特征信息和所述可疑值输入至所述预先训练好的检测模型中，得到表征所述待检测网站是否为钓鱼网站的检测结果。

作为一种实施方式，在S12之前，所述方法还包括：确定所述待检测网站的网址不属于预先确定的白名单中的网址。

作为一种实施方式，所述方法还包括步骤：J1、J2和J3。

J1：构建待训练的检测模型。

其中，在本实施例中，所述待训练的检测模型为极限树，所述待训练的模型中包括多个基分类器。

J2：获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，M和N均为大于等于1的正整数；

其中，第一标签为表征网站为钓鱼网站的标识；第二标签为表征网站为合法网站的标识。

作为一种实施方式，所述训练样本还包括：所述M个钓鱼网站中的各个钓鱼网站所对应的关联信息，以及所述N个合法网站中的各个合法网站所对应的关联信息；

作为一种实施方式，所述训练样本还可以包括：所述M个钓鱼网站中的各个钓鱼网站所对应的特征信息，以及所述N个合法网站中的各个合法网站所对应的特征信息。

其中，获取网站的可疑值、特征信息和关联信息的方式可以参照前述步骤，因此，在此不再赘述。

J3：根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型。

在实际实施过程中，J3可以按照如下方式实施，针对所述待训练的检测模型中的各个基分类器，利用所述训练样本对该基分类器进行训练，其中，得到训练好的检测模型。其中，利用训练样本对各个基分类器进行训练的具体实施方式为本领熟知技术，因此，在此不再赘述。

其中，各个基分类器的输入为所述训练样本中的可疑值，特征信息，关联信息；各个基分类器的输出为表征网站是否为钓鱼网站的结果。

若M和N均为大于等于2的正整数，所述待训练的检测模型中包括：多个第一基分类器、多个第二基分类器和多个第三基分类器；作为一种实施方式，J3包括步骤：J31、J32、J33、J34和J35。

J31：针对每个第一基分类器，利用所述训练样本训练该第一基分类器。

J32：针对每个第二基分类器，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本；其中，L和K比值与M和N的比值相同；L为大于等于1，且小于M的正整数；K为大于等于1，且小于N的正整数。

可以理解的是，针对每个第二基分类器，采用分层抽样的分层定比方法、奈曼法或非比例分配法，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本。

可以理解的是，针对每个第二基分类器，从训练样本中抽取到的样本可能部分相同，不会完全相同。

J33：利用所述L个钓鱼网站的样本和所述K个合法网站的样本训练该第二基分类器。

J34：针对每个所述第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本；H为大于等于1，且小于M和N的正整数。

可以理解的是，针对每个第三基分类器，从所述训练样本中随机地抽取一个钓鱼样本和一个合法样本之后，将该钓鱼样本和合法样本放回所述训练样本中，然后再从所述训练样本中随机地抽取下一个钓鱼样本和合法网站的样本，直到抽取完H个钓鱼网站的样本和H个合法网站的样本。

可以理解的是，针对每个第三基分类器，从训练样本中抽取到的样本可能部分相同，不会完全相同。

J35：利用所述H个钓鱼网站的样本和所述H个合法网站的样本训练该第三基分类器，得到所述训练好的检测模型。

其中，第一基分类器、第二基分类器和第三基分类器的数量根据检测模型的检测效果来确定，在此不做限制，在本实施例中，第一基分类器的数量为60，第二基分类器的数量为25，第三基分类器的数量为15。

例如，训练样本包括10000个钓鱼网站的样本、30000个合法网站的样本时，假设检测模型中的基分类器的数量为100个，其中，第一基分类器的数量为60个；第二基分类器的数量为25个，针对每个第二基分类器，利用400个钓鱼网站的样本和1200个合法网站样本进行训练；第三基分类器的数量为15个，针对每个第三基分类器，利用1000个钓鱼网站的样本和1000合法网站的样本进行训练。

请参照图2，图2为本申实施例提供的一种模型训练方法的流程图，下面将对图2所示的流程进行详细阐述，所述方法包括步骤：S21、S22和S23。

S21：构建待训练的检测模型。

S22：获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，该钓鱼网站对应的可疑值为利用该钓鱼网站未基于注册请求中的用户信息返回响应结果确定的；该合法鱼网站对应的可疑值为利用该合法网站基于所述用户信息所返回的响应结果确定的；其中，M和N均为大于等于1的正整数。

S23：根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型。

若M和N均为大于等于2的正整数，所述待训练的检测模型中包括：多个第一基分类器、多个第二基分类器和多个第三基分类器；S23包括步骤：F1、F2、F3、F4和F5。

F1：针对每个第一基分类器，利用所述训练样本训练该第一基分类器。

F2：针对每个第二基分类器，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本；其中，L和K比值与M和N的比值相同；L为大于等于1，且小于M的正整数；K为大于等于1，且小于N的正整数。

F3：利用所述L个钓鱼网站的样本和所述K个合法网站的样本训练该第二基分类器。

F4：针对每个第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本；H为大于等于1，且小于M和N的正整数。

F5：利用所述H个钓鱼网站的样本和所述H个合法网站的样本训练该第三基分类器，得到所述训练好的检测模型。

其中，S21-S23的具体实施方式请参照步骤J1-J3，因此，在此不再赘述。

请参照图3，图3是本申请实施例提供的一种网站检测装置300的结构框图。下面将对图3所示的结构框图进行阐述，所示装置包括：

网址获取单元310，用于获取待检测网站的网址。

请求发送单元320，用于根据所述网址向所述待检测网站发送注册请求；其中，所述注册请求中包括：在该待检测网站进行注册所需的用户信息。

可疑值确定单元330，用于根据所述待检测网站是否基于所述用户信息返回响应结果，确定出表征所述待检测网站为钓鱼网站的可疑值。

确定单元340，用于根据所述可疑值，利用预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

作为一种实施方式，所述装置还包括：网页域名获取单元，用于从所述网址中提取出网页域名；关联信息确定单元，用于根据所述网页域名，确定出所述网页域名的关联信息；其中，所述关联信息中包括：所述网页域名的注册时长，以及表征所述网页域名是否属于预先确定的白名单的判断结果中的至少一种；对应的，所述确定单元340，还用于根据所述关联信息以及所述可疑值，利用所述预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

作为一种实施方式，所述装置还包括：特征性信息确定单元，用于根据所述网址，确定出所述待检测网站的特征信息；其中，所述特征信息包括：网页类别、表征所述网址与预先确定的白名单网址的最大相似度、Favicon图标是否从外部域加载的第一判断结果、所述网址中的SFH的域名和网页域名是否相同的第二判断结果、是否使用了网址缩短服务的第三判断结果，以及所述网址中的子域的数量中的至少一种；对应的，所述确定单元340，还用于根据所述特征信息和所述可疑值，利用所述预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

作为一种实施方式，所述装置还包括：模型构建单元，用于构建待训练的检测模型；训练样本获取单元，用于获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，M和N均为大于等于1的正整数；模型训练单元，用于根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型。

作为一种实施方式，若M和N均为大于等于2的正整数，所述待训练的检测模型中包括：多个第一基分类器、多个第二基分类器和多个第三基分类器；所述模型训练单元，具体用于针对每个第一基分类器，利用所述训练样本训练该第一基分类器；以及针对每个第二基分类器，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本；其中，L和K比值与M和N的比值相同；L为大于等于1，且小于M的正整数；K为大于等于1，且小于N的正整数；利用所述L个钓鱼网站的样本和所述K个合法网站的样本训练该第二基分类器；针对每个所述第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本；H为大于等于1，且小于M和N的正整数；利用所述H个钓鱼网站的样本和所述H个合法网站的样本训练该第三基分类器，得到所述训练好的检测模型。

请参照图4，图4是本申请实施例提供的一种模型训练装置400的结构框图。下面将对图4所示的结构框图进行阐述，所示装置包括：

构建单元410，用于构建待训练的检测模型。

样本获取单元420，用于获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，该钓鱼网站对应的可疑值为利用该钓鱼网站未基于注册请求中的用户信息返回响应结果确定的；该合法鱼网站对应的可疑值为该合法网站基于所述用户信息所返回的响应结果确定的；其中，M和N均为大于等于1的正整数。

训练单元430，用于根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型。

作为一种实施方式，若M和N均为大于等于2的正整数，所述待训练的检测模型中包括：多个第一基分类器、多个第二基分类器和多个第三基分类器；所述训练单元430，具体用于针对每个第一基分类器，利用所述训练样本训练该第一基分类器；以及针对每个第二基分类器，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本；其中，L和K比值与M和N的比值相同；L为大于等于1，且小于M的正整数；K为大于等于1，且小于N的正整数；利用所述L个钓鱼网站的样本和所述K个合法网站的样本训练该第二基分类器；针对每个第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本；H为大于等于1，且小于M和N的正整数；利用所述H个钓鱼网站的样本和所述H个合法网站的样本训练该第三基分类器，得到所述训练好的检测模型。

本实施例对的各功能单元实现各自功能的过程，请参见上述图1-2所示实施例中描述的内容，此处不再赘述。

此外，本申请实施例还提供了一种存储介质，在该存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行本申请任一项实施方式所提供的方法。

请参照图5，图5为本申请实施例提供的一种电子设备500的结构示意图，电子设备500可以是个人电脑(personal computer，PC)、平板电脑、智能手机、个人数字助理(personal digital assistant，PDA)等。

电子设备500可以包括：存储器502、处理501、通信接口505和通信总线，通信总线用于实现这些组件的连接通信。

所述存储器502用于存储本申请实施例提供的网站检测方法、模型训练方法和装置对应的计算程序指令等各种数据，其中，存储器502可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable ProgrammableRead-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory，EEPROM)等。

处理器501用于读取并运行存储于存储器中的网站检测方法、模型训练方法和装置对应的计算机程序指令，以获得待检测网站是否为钓鱼网站的检测结果。

其中，处理器501可能是一种集成电路芯片，具有信号的处理能力。上述的处理器501可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

通信接口505，用于接收或者发送数据。

由于合法网站会对在该网站上进行注册的用户信息进行验证，因此，基于正确的用户信息可以成功注册，即该合法网站会返回一个表征注册成功的响应结果；反之，基于错误的用户信息是无法成功完成注册，即该合法网站会返回一个表征注册失败的响应结果；而钓鱼网站的目的是想要获取用户信息，通常不会对用户信息进行验证，因此，无论用户信息是否正确，在一般情况下，该钓鱼网站均不会返回响应结果，综上所述，本申请各实施例提出的网站检测及模型训练方法、装置及电子设备，基于合法网站与钓鱼网站两者的区别，根据所述待检测网站是否基于所述用户信息返回响应结果，能够准确地确定出表征所述待检测网站为钓鱼网站的可疑值；继而根据所述可疑值，利用预先训练好的检测模型准确地确定所述待检测网站是否为钓鱼网站。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

Claims

1.一种网站检测方法，其特征在于，所述方法包括：

获取待检测网站的网址；

根据所述网址向所述待检测网站发送注册请求；其中，所述注册请求中包括：在该待检测网站进行注册所需的用户信息；

根据所述待检测网站是否基于所述用户信息返回响应结果，确定出表征所述待检测网站为钓鱼网站的可疑值；

根据所述可疑值，利用预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述网址中提取出网页域名；

根据所述网页域名，确定出所述网页域名的关联信息；其中，所述关联信息中包括：所述网页域名的注册时长，以及表征所述网页域名是否属于预先确定的白名单的判断结果中的至少一种；

对应的，所述根据所述可疑值，利用预先训练好的检测模型确定所述待检测网站是否为钓鱼网站，包括：

根据所述关联信息以及所述可疑值，利用所述预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述网址，确定出所述待检测网站的特征信息；其中，所述特征信息包括：网页类别、表征所述网址与预先确定的白名单网址的最大相似度、Favicon图标是否从外部域加载的第一判断结果、所述网址中的SFH的域名和网页域名是否相同的第二判断结果、是否使用了网址缩短服务的第三判断结果，以及所述网址中的子域的数量中的至少一种；

根据所述特征信息和所述可疑值，利用所述预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

构建待训练的检测模型；

获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，M和N均为大于等于1的正整数；

根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型。

5.根据权利要求4所述的方法，其特征在于，若M和N均为大于等于2的正整数，所述待训练的检测模型中包括：多个第一基分类器、多个第二基分类器和多个第三基分类器；所述根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型，包括：

针对每个第一基分类器，利用所述训练样本训练该第一基分类器；

针对每个第二基分类器，从所述训练样本中随机地抽取L个钓鱼网站的样本和K个合法网站的样本；其中，L和K比值与M和N的比值相同；L为大于等于1，且小于M的正整数；K为大于等于1，且小于N的正整数；

利用所述L个钓鱼网站的样本和所述K个合法网站的样本训练该第二基分类器；

针对每个所述第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本；H为大于等于1，且小于M和N的正整数；

利用所述H个钓鱼网站的样本和所述H个合法网站的样本训练该第三基分类器，得到所述训练好的检测模型。

6.一种模型训练方法，其特征在于，所述方法包括：

构建待训练的检测模型；

获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，该钓鱼网站对应的第一可疑值为利用该钓鱼网站未基于注册请求中的用户信息返回响应结果确定的；该合法鱼网站对应的可疑值为利用该合法网站基于所述用户信息所返回的响应结果确定的；其中，M和N均为大于等于1的正整数；

7.根据权利要求6所述的方法，其特征在于，若M和N均为大于等于2的正整数，所述待训练的检测模型中包括：多个第一基分类器、多个第二基分类器和多个第三基分类器；所述根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型，包括：

针对每个第三基分类器，有放回地，且随机地从所述训练样本中随机地抽取H个钓鱼网站的样本和H个合法网站的样本；H为大于等于1，且小于M和N的正整数；

8.一种网站检测装置，其特征在于，所述装置包括：

网址获取单元，用于获取待检测网站的网址；

请求发送单元，用于根据所述网址向所述待检测网站发送注册请求；其中，所述注册请求中包括：在该待检测网站进行注册所需的用户信息；

可疑值确定单元，用于根据所述待检测网站是否基于所述用户信息返回响应结果，确定出表征所述待检测网站为钓鱼网站的可疑值；

确定单元，用于根据所述可疑值，利用预先训练好的检测模型确定所述待检测网站是否为钓鱼网站。

9.一种模型训练装置，其特征在于，所述装置包括：

构建单元，用于构建待训练的检测模型；

样本获取单元，用于获取训练样本；其中，所述训练样本中包括：M个钓鱼网站中的各个钓鱼网站所对应的可疑值和第一标签，以及N个合法网站中的各个合法网站所对应的可疑值和第二标签；其中，该钓鱼网站对应的可疑值为利用该钓鱼网站未基于注册请求中的用户信息返回响应结果确定的；该合法网站对应的可疑值为利用该合法网站基于所述用户信息所返回的响应结果确定的；其中，M和N均为大于等于1的正整数；

训练单元，用于根据所述训练样本，对所述待训练的检测模型中的各个基分类器进行训练，得到训练好的检测模型。

10.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器读取并运行时，执行如权利要求1-7中任一项所述的方法。