CN113992390A

CN113992390A - 一种钓鱼网站的检测方法及装置、存储介质

Info

Publication number: CN113992390A
Application number: CN202111245483.8A
Authority: CN
Inventors: 徐钟豪; 王彦磊; 刘伟; 谢忱
Original assignee: Shanghai Douxiang Information Technology Co ltd
Current assignee: Shanghai Douxiang Information Technology Co ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-28

Abstract

本申请提供一种钓鱼网站的检测方法及装置、存储介质。钓鱼网站的检测方法，包括：获取待检测网站的信息；根据待检测网站的信息和预设的白名单和白名单规则确定待检测网站是否为非钓鱼网站；若确定待检测网站不是非钓鱼网站，根据预设的黑名单规则确定待检测网站是否为钓鱼网站；或者，基于待检测网站的信息获取域名特征；根据域名特征和预先训练好的第一检测模型，确定第一待检测特征；基于待检测网站的信息获取第二待检测特征；第二待检测特征和所述域名特征不相同；根据第一待检测特征、第二待检测特征和预先训练好的第二检测模型，确定待检测网站是否为钓鱼网站。该检测方法用以实现钓鱼网站的有效、快速以及准确的检测。

Description

一种钓鱼网站的检测方法及装置、存储介质

技术领域

本申请涉及网络安全技术领域，具体而言，涉及一种钓鱼网站的检测方法及装置、存储介质。

背景技术

钓鱼网站是指欺骗用户的虚假网站，钓鱼网站的页面与真实网站界面基本一致，欺骗消费者或者窃取访问者提交的账号和密码信息。钓鱼网站一般只有一个或几个页面，和真实网站差别细微。钓鱼网站通常伪装成银行及电子商务、窃取用户提交的银行账号、密码等私密信息的网站，对互联网安全造成了威胁。

因此，需要对钓鱼网站进行有效的检测，以提高互联网的安全性。

现有技术中，一些传统的检测方式为：通过google浏览器检测、通过社交软件的举报检测等，这些检测方式并不能实现钓鱼网站的有效、快速以及准确的检测。

发明内容

本申请实施例的目的在于提供一种钓鱼网站的检测方法及装置、存储介质，用以实现钓鱼网站的有效、快速以及准确的检测。

第一方面，本申请实施例提供一种钓鱼网站的检测方法，包括：获取待检测网站的信息；根据所述待检测网站的信息和预设的白名单和白名单规则确定所述待检测网站是否为非钓鱼网站；所述预设的白名单中包括多个非钓鱼网站的信息；若确定所述待检测网站不是非钓鱼网站，根据预设的黑名单规则确定所述待检测网站是否为钓鱼网站；或者，基于所述待检测网站的信息获取域名特征；根据所述域名特征和预先训练好的第一检测模型，确定第一待检测特征；基于所述待检测网站的信息获取第二待检测特征；所述第二待检测特征和所述域名特征不相同；根据所述第一待检测特征、所述第二待检测特征和预先训练好的第二检测模型，确定所述待检测网站是否为钓鱼网站。

在本申请实施例中，与现有技术相比，先利用预设的白名单和白名单规则对钓鱼网站进行初步的检测，如果预设的白名单和白名单规则对应的检测结果不是非钓鱼网站，则，利用预设的黑名单规则，或者预先训练好的第一检测模型和第二检测模型进行进一步的检测。通过这样的检测方式，一方面，基于多方面的条件进行检测，可以提高检测的准确度。另一方面，整个检测过程也比较简单，能够实现钓鱼网站的有效且快速的检测。

作为一种可能的实现方式，所述待检测网站的信息包括：待检测网站的域名、待检测网站的备案号、待检测网站对应的国家、待检测网站的图标对应的字符串；所述多个非钓鱼网站的信息包括：非钓鱼网站的域名、非钓鱼网站的备案号、非钓鱼网站的图标对应的字符串；所述根据所述待检测网站的信息和预设的白名单和白名单规则确定所述待检测网站是否为钓鱼网站，包括：判断所述白名单中是否存在所述待检测网站的域名的匹配域名，若存在，则确定所述待检测网站为非钓鱼网站；或者，判断所述白名单中是否存在所述待检测网站的图标对应的字符串的匹配字符串，若存在，且所述待检测网站的域名与第一目标非钓鱼网站的域名相同，则确定所述待检测网站为非钓鱼网站；所述第一目标非钓鱼网站为所述匹配字符串对应的非钓鱼网站；或者，判断所述白名单中是否存在所述待检测网站的备案号的匹配备案号，若存在，且所述待检测网站的域名与第二目标非钓鱼网站的域名相同，则确定所述待检测网站为非钓鱼网站；所述第二目标非钓鱼网站为所述匹配备案号对应的非钓鱼网站；或者，判断所述待检测网站对应的国家是否为预设国家，若是，则所述待检测网站为非钓鱼网站。

在本申请实施例中，白名单中包括非钓鱼网站的相关信息，基于这些相关信息，与待检测网站的各项信息进行比对，能够有效、快速且准确的获得检测结果。

作为一种可能的实现方式，所述预设的黑名单规则用于指示钓鱼网站的多项特征；所述根据预设的黑名单规则确定所述待检测网站是否为钓鱼网站，包括：若基于所述待检测网站的信息确定所述待检测网站满足所述多项钓鱼网站的特征中的任意一项特征，确定所述待检测网站为钓鱼网站；其中，所述钓鱼网站的多项特征包括：钓鱼网站的源码中包括的指定字段、钓鱼网站的域名的代码解码后包含的网站的名字、钓鱼网站的预设链接指向的网站、钓鱼网站的源码中包括的备案号、钓鱼网站的源码的编码字段的长度。

在本申请实施例中，通过预设的黑名单规则指示的钓鱼网站的多项特征，可以实现待检测网站的进一步的有效、准确且快速的检测。

作为一种可能的实现方式，所述域名特征包括：域名长度、重复字母的占比、元音字母的占比、数字占比、熵、连贯数字占比、可读性概率、在正常域名中的出现次数和钓鱼域名中的出现次数之比、转移概率平均值和方差。

在本申请实施例中，通过提取上述的域名特征，结合第一检测模型，实现第一待检测特征的有效确定。

作为一种可能的实现方式，所述根据所述域名特征和预先训练好的第一检测模型，确定第一待检测特征，包括：将所述域名特征输入所述预先训练好的第一检测模型中，获得所述预先训练好的第一检测模型输出的恶意域名概率；所述恶意域名概率为所述第一待检测特征。

在本申请实施例中，通过将域名特征输入到预先训练好的第一检测模型中，获得恶意域名概率，将其作为第一待检测特征，实现第一待检测特征的有效且准确的确定。

作为一种可能的实现方式，所述第二待检测特征包括：url的长度；host的长度；html长度；cookie key-value对的数目；html源码中16进制或者unicode代码长度；js中最长字符串长度；css中样式命名是否有异常；url中是否包含IP、或者ip采用8进制、16进制；url是否采用tiny url；url中是否包含@符号；是否使用"//"进行重定向；域名层级；域名的过期时间；域名注册的月数；favicon是否与本域名是否一致；url中是否包含两个http/htpps；请求url中外链占比；锚链接数；<Meta>、<Script>、<Link>链接标签数；提交表单地址与域名不一致的数量；是否提交信息到email；IFrame重定向数量；在指定网站中查询到的所述待检测网站的域名的相关信息的条数；自定义状态栏；是否包含禁用右键；是否使用弹窗；与所述待检测网站的域名不相关的预设标签的个数。

在本申请实施例中，通过上述的第二待检测特征，结合第一待检测特征和第二检测模型，实现检测结果的有效且准确的确定。

作为一种可能的实现方式，所述根据所述第一待检测特征、所述第二待检测特征和预先训练好的第二检测模型，确定所述待检测网站是否为钓鱼网站，包括：将所述第一待检测特征和所述第二待检测特征输入所述预先训练好的第二检测模型中，获得所述预先训练好的第二检测模型输出的钓鱼网站概率；根据所述钓鱼网站概率确定所述待检测网站是否为钓鱼网站。

在本申请实施例中，通过将第一待检测特征和第二待检测特征输入到第二检测模型中，获得钓鱼网站概率，基于钓鱼网站概率，实现检测结果的有效且准确的确定。

作为一种可能的实现方式，所述检测方法还包括：获取训练样本集；所述训练样本集中包括：正常域名样本和恶意域名样本；基于所述训练样本集提取样本域名特征，并为所述样本域名特征设置对应的标签；将设置好标签的样本域名特征输入到初始的第一检测模型中进行训练，获得训练好的第一检测模型。

在本申请实施例中，基于训练样本集，提取样本域名特征，以及设置对应的标签，实现第一检测模型的有效训练。

第二方面，本申请实施例提供一种钓鱼网站的检测装置，包括：用于实现第一方面以及第一方面的任意一种可能的实现方式中所述的钓鱼网站的检测方法的各个功能模块。

第三方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机运行时，执行如第一方面以及第一方面的任意一种可能的实现方式中所述的钓鱼网站的检测方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的钓鱼网站的检测方法的第一种实施方式的流程图；

图2为本申请实施例提供的钓鱼网站的检测方法的第二种实施方式的流程图；

图3为本申请实施例提供的钓鱼网站的检测装置的结构示意图；

图标：300-钓鱼网站的检测装置；310-获取模块；320-处理模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请实施例提供的技术方案可以应用于各个需要对钓鱼网站进行检测的应用场景中，例如：应用程序对钓鱼网站进行检测、浏览器对钓鱼网站进行检测等。

基于上述的应用场景，本申请实施例提供的技术方案对应的硬件运行环境，可以是应用程序对应的服务器，可以是浏览器，或者其他需要进行钓鱼网站检测的平台，在本申请实施例中不作限定。

接下来请参照图1，为本申请实施例提供的钓鱼网站的检测方法的第一种实施方式的流程图，在这种实施方式中，该检测方法包括：

步骤110：获取待检测网站的信息。

步骤120：根据待检测网站的信息和预设的白名单和白名单规则确定待检测网站是否为非钓鱼网站。预设的白名单中包括多个非钓鱼网站的信息。

步骤130：若确定待检测网站不是非钓鱼网站，根据预设的黑名单规则确定待检测网站是否为钓鱼网站。

请参照图2，为本申请实施例提供的钓鱼网站的检测方法的第二种实施方式的流程图，在这种实施方式中，该检测方法包括：

步骤210：获取待检测网站的信息。

步骤220：根据待检测网站的信息和预设的白名单和白名单规则确定待检测网站是否为非钓鱼网站。预设的白名单中包括多个非钓鱼网站的信息。

步骤230：若确定待检测网站不是非钓鱼网站，基于待检测网站的信息获取域名特征。

步骤240：根据域名特征和预先训练好的第一检测模型，确定第一待检测特征。

步骤250：基于待检测网站的信息获取第二待检测特征。第二待检测特征和域名特征不相同。

步骤260：根据第一待检测特征、第二待检测特征和预先训练好的第二检测模型，确定待检测网站是否为钓鱼网站。

比较上述两种实施方式，步骤110-步骤120与步骤210-步骤220是一致的；步骤130为确定待检测网站不是非钓鱼网站之后，进一步检测待检测网站是否为钓鱼网站的第一种实施方式；步骤230-260为确定待检测网站不是非钓鱼网站之后，进一步检测待检测网站是否为钓鱼网站的第二种实施方式。

在上述两种实施方式中，第一种实施方式采用白名单及白名单规则+黑名单规则实现钓鱼网站的检测，第二种实施方式采用白名单及白名单规则+检测模型实现钓鱼网站的检测。在实际应用时，还可以采用白名单及白名单规则+黑名单规则+检测模型的方式实现钓鱼网站的检测。

例如，作为一种可选的实施方式，在第一种实施方式执行之后，若根据预设的黑名单规则确定待检测网站不是非钓鱼网站，还可以紧接着按照第二种实施方式中的步骤230-步骤260的实施方式进一步检测待检测网站是否为钓鱼网站。即，先通过白名单及白名单规则检测，若检测不是非钓鱼网站，再通过黑名单规则检测是否为钓鱼网站，若检测不是钓鱼网站，最后再通过检测模型检测，检测模型所确定的检测结果为最终的检测结果。

当然，还可以采用白名单及白名单规则+检测模型+黑名单规则的检测方式，即，先通过白名单及白名单规则检测，若检测不是非钓鱼网站，再通过检测模型检测，若检测不是钓鱼网站，最后再通过黑名单规则检测，黑名单规则对应的检测结果为最终的检测结果。

接下来对上述两种实施方式中涉及到的各个检测步骤的实施方式进行介绍。

由于步骤110-步骤120与步骤210-步骤220是一致的，在本申请实施例中，仅对步骤110和步骤120的实施方式进行介绍，步骤210和步骤220的实施方式参照步骤110和步骤120的实施方式。

在步骤110中，获取待检测网站的信息，此处的待检测网站的信息用于进行后续的白名单及白名单规则的比对。作为一种可选的实施方式，待检测网站的信息包括：待检测网站的域名、待检测网站的备案号、待检测网站对应的国家、待检测网站的图标对应的字符串。

可以理解，待检测网站对应有URL(Uniform Resource Locator，统一资源定位器)地址，通过待检测网站的URL，便可以提取待检测网站的域名，例如：“baidu.com”。

基于待检测网站的域名，在域名数据库中进行查询，便可以获得待检测网站的备案号；如果未检测到对应的备案号，则可以向具有域名信息的网站请求备案号查询，例如：站长之家，其是一个较为全面的网站信息源，提供各个网站的信息。

待检测网站的图标，是可以直接获取到的信息，为了便于信息的比对，可以将其转换为字符串，如：pHash字符串。

基于待检测网站的域名，还可以查询待检测网站的whois(域名查询协议)信息，whois信息可以查询域名的ip(Internet Protocol，网络互连协议)以及所有者信息，基于whois信息，可以确定待检测网站的域名ip。由于不同的国家的ip地址不同，即ip地址与国家之间具有对应关系。因此，基于ip地址，可以确定待检测网站对应的国家。

为了实现基于白名单及白名单规则的检测，在白名单中，所包括的非钓鱼网站的信息对应的包括：非钓鱼网站的域名、非钓鱼网站的备案号、非钓鱼网站的图标对应的字符串。

在白名单中，还可以包括非钓鱼网站的注册时间，以及更多的非钓鱼网站的信息，在本申请实施例中不作限定。通常来说，注册时间超过10年，可确定为非钓鱼网站。

作为一种可选的实施方式，白名单中的非钓鱼网站可以为来自Alexa(一个互联网公司)和站长之家的网站。对应的，在预设白名单时，可以爬取Alexa的网站的域名，以及爬取站长之家的网站的域名。基于这些爬取到的域名，分别按照相应的数据获取方式获取域名对应的备案号、图标，然后将图标转换为字符串。最后，再将这些信息与域名进行对应存储，便可实现白名单的预设。

此外，在白名单中的网站，可以均为中文网站，因此，白名单中的非钓鱼网站对应的国家均可以为中国。

通过白名单的实施方式的介绍可以看出，白名单中的非钓鱼网站均为正常网站，因此，通过白名单及白名单规则对待检测网站进行检测，可初步判断待检测网站是否为非钓鱼网站(正常网站)，如果是非钓鱼网站，则无需进行后续的检测；如果不是非钓鱼网站，则需进一步判断是否为钓鱼网站。

在本申请实施例中，白名单规则可以理解为基于白名单中的信息确定对应的检测结果的规则。

结合白名单及白名单规则和待检测网站的信息的介绍，作为一种可选的实施方式，步骤120包括：判断白名单中是否存在待检测网站的域名的匹配域名，若存在，则确定待检测网站为非钓鱼网站；或者，判断白名单中是否存在待检测网站的图标对应的字符串的匹配字符串，若存在，且待检测网站的域名与第一目标非钓鱼网站的域名相同，则确定待检测网站为非钓鱼网站；第一目标非钓鱼网站为匹配字符串对应的非钓鱼网站；或者，判断白名单中是否存在待检测网站的备案号的匹配备案号，若存在，且待检测网站的域名与第二目标非钓鱼网站的域名相同，则确定待检测网站为非钓鱼网站；第二目标非钓鱼网站为匹配备案号对应的非钓鱼网站；或者，判断待检测网站对应的国家是否为预设国家，若是，则待检测网站为非钓鱼网站。

上述的实施方式，可以理解为基于白名单中的信息，所采用的白名单检测方式，即白名单规则的具体应用方式。

在这种实施方式中，将待检测网站的域名与白名单中的各个域名进行比对，如果某个域名与待检测网站的域名相同，则该域名为匹配域名，此时，可确定待检测网站为非钓鱼网站。如果不存在匹配域名，则可以继续后续的判断过程，或者直接将待检测网站判定为不是非钓鱼网站。

除了判断域名，还可以判断图标对应的字符串。将待检测网站的图标对应的字符串与白名单中的各个字符串进行比对，如果某个字符串与待检测网站对应的字符串的相似度大于阈值(例如大于百分之95)，则该字符串为匹配字符串。基于该匹配字符串，将待检测网站的域名与该匹配字符串对应的非钓鱼网站(即第一目标非钓鱼网站)进行比对，待检测网站的域名与第一目标非钓鱼网站的域名相同，则说明待检测网站为非钓鱼网站。如果不存在匹配字符串，或者存在匹配字符串，但是待检测网站的域名和第一目标非钓鱼网站的域名不相同，则说明待检测网站可能不是非钓鱼网站，可以继续后续的判断过程，或者直接将待检测网站判定为不是非钓鱼网站。

除了判断域名和字符串，还可以对备案号进行判断。将待检测网站的备案号与白名单中的备案号进行比对，如果某个备案号与待检测网站的备案号相同，则该备案号便为匹配备案号。基于该匹配备案号，将待检测网站的域名与该匹配备案号对应的非钓鱼网站(即第二目标非钓鱼网站)进行比对，待检测网站的域名与第二目标非钓鱼网站的域名相同，则说明待检测网站为非钓鱼网站。如果不存在匹配备案号，或者存在匹配备案号，但是待检测网站的域名和第二目标非钓鱼网站的域名不相同，则说明待检测网站可能不是非钓鱼网站，可以继续后续的判断过程，或者直接将待检测网站判定为不是非钓鱼网站。

除了前述的判断，还可以对待检测网站的国家进行判断。其中，预设国家可以是中国。因此，在判断时，判断待检测网站对应的国家是否为中国，若是，则待检测网站为非钓鱼网站；若不是，则待检测网站不是非钓鱼网站。

可以理解，上述的几个判断方式，可以采用结合判断的方式，也可以采用单一判断的方式，具体采用哪种判断方式，可结合不同的应用场景进行灵活地选择，在本申请实施例中不作限定。

在步骤120中获得是否为非钓鱼网站的检测结果之后，若待检测网站是非钓鱼网站，则直接输出为非钓鱼网站的检测结果。若待检测网站不是非钓鱼网站，则继续后续的检测过程，接下来先对第一种检测方式，即基于黑名单规则的检测方式进行介绍。

作为一种可选的实施方式，预设的黑名单规则用于指示钓鱼网站的多项特征。对应的，步骤130包括：若基于待检测网站的信息确定待检测网站满足多项钓鱼网站的特征中的任意一项特征，确定待检测网站为钓鱼网站。

黑名单规则的预设方式可以为：先搜集大量的钓鱼网站样本，例如：通过国际网站(phishtank.com)搜集钓鱼网站。基于搜集的钓鱼网站，分析这些钓鱼网站的特征，以确定出用于指示钓鱼网站的多项特征，形成黑名单规则。

作为一种可选的实施方式，钓鱼网站的多项特征包括：钓鱼网站的源码中包括的指定字段、钓鱼网站的域名的代码解码后包含的网站的名字、钓鱼网站的预设链接指向的网站、钓鱼网站的源码中包括的备案号、钓鱼网站的源码的编码字段的长度。

其中，钓鱼网站的源码中包括的指定字段，例如：“This link has been flaggedas phishing，We suggest you avoid it”、欺诈网站(“您要访问的是诈骗网站”)等。此外，此处的源码指的是HTML(Hyper Text Markup Language，超文本标记语言)源码。

在判断该特征时，可以判读待检测网站的HTML源码中是否包括该项特征所限定的指定字段，若包括，则代表待检测网站满足该项特征；若不包括，则代表待检测网站不满足该项特征。

钓鱼网站的域名的代码解码后，所包含网站名字，通常为一些知名网站，知名网站为站长之家上所记录的网站。此处的钓鱼网站的域名的代码，指的是，以xn开头的punycode码。

在判断该特征时，可以判断待检测网站的域名的代码解码后，是否包含该特征所限定的网站的名字，若包括，则代表待检测网站满足该项特征；若不满足，则代表待检测网站不满足该项特征。

钓鱼网站的预设链接指向的网站，此处的预设链接为a链接。一般来说，钓鱼网站的“首页”、“网站首页”、“主页”、“登录”、“注册”、“关于我们”、“关于”的链接指向的是要模仿的网站，这些网站一般都是知名网站，域名一般较短，而钓鱼网站一般较长。

在判断该特征时，可以将待检测网站的HTML源码的模糊哈希与钓鱼网站的a链接指向的网站的模糊哈希进行比对，若有相同部分，则代表待检测网站满足该项特征，若没有相同部分，则代表待检测网站不满足该项特征。

钓鱼网站的源码中包括的备案号，通常为知名网站的备案号。在判断该特征时，可以判断待检测网站的源码中包括的备案号是否与该项特征所限定的备案号相同，若相同，且该限定的备案号对应的域名与待检测网站的备案号对应的域名相同，则代表待检测网站满足该项特征。若不相同，或者，在备案号相同的情况下，该限定的备案号对应的域名与待检测网站的备案号对应的域名不相同，则代表待检测网站不满足该项特征。

钓鱼网站的源码的编码字段的长度，通常来说，钓鱼网站的源码的编码字段的长度较长，会加入一些为了避免用户看到页面真正的源代码的编码字段。因此，钓鱼网站的源码的编码字段的长度应当大于预设长度。

在判断该项特征时，将待检测网站的源码的编码字段的长度与该项特征限定的长度进行比较，若符合该项特征限定的长度，则待检测网站满足该项特征；若不符合该项特征限定的长度，则待检测网站不满足该项特征。

基于预设的黑名单规则，在待检测网站的信息中，也应当包括上述对应的信息。可以理解，在上述各个特征中，基本都是钓鱼网站的源码的一些特征，因此，在待检测网站的信息中，还包括：待检测网站的HTML源代码，其获取方式可以是：在程序中通过启动浏览器，来获取HTML源代码。或者，也可以采取其他获取方式，在此不作限定。

接下来对第二种检测方式，即基于检测模型的检测方式进行介绍。

在步骤230中，基于待检测网站的信息获取域名特征。作为一种可选的实施方式，域名特征包括：域名长度、重复字母的占比、元音字母的占比、数字占比、熵、连贯数字占比、可读性概率、在正常域名中的出现次数和钓鱼域名中的出现次数之比、转移概率平均值和方差。

域名长度，可以理解为域名的长度，例如：包括7个字符，则，域名的长度为7。

重复字母的占比，可理解为重复字母的数量与域名长度的比值。重复字母，为域名中出现多次的字母。

元音字母的占比，可理解为元音字母的数量与域名长度的比值。元音字母，包括：A，E，I，O，U。

熵，为域名中的每个字母出现的频率与域名长度的比值。

连贯数字占比，为域名中不间断数字块的数量与域名长度的比值。其中，不间断数据块指的是大于1的数据块。

可读性概率，可以为利用马尔科夫链所检测出的可读性概率。

转移概率平均值和方差，可以分为三种，包括：根据历史数据生成基于1-gram的hmm转移概率矩阵，根据移概率矩阵获知域名在1-gram切片下的转移概率平均值、和方差。根据历史数据生成基于2-gram的hmm转移概率矩阵，根据移概率矩阵获知域名在2-gram切片下的转移概率平均值、和方差。根据历史数据生成基于3-gram的hmm转移概率矩阵，根据移概率矩阵获知域名在3-gram切片下的转移概率平均值、和方差。

在步骤240中，根据域名特征和预先训练好的第一检测模型，确定第一待检测特征。

对于第一检测模型，其对应的训练过程可以包括：获取训练样本集；训练样本集中包括：正常域名样本和恶意域名样本；基于训练样本集提取样本域名特征，并为样本域名特征设置对应的标签；将设置好标签的样本域名特征输入到初始的第一检测模型中进行训练，获得训练好的第一检测模型。

其中，正常域名样本可以是从前述实施例中介绍的alexa和站长之家处获得的域名；恶意域名样本，可以是从前述实施例中介绍的钓鱼网站处获得的域名。

基于正常域名样本和异常域名样本，提取前述实施例中介绍的域名特征，并基于其对应的域名的类型为其设置标签。例如：假设当前的域名特征为从正常域名样本中提取出的特征，则其对应的标签为正常域名(可通过1表示)；假设当前的域名特征为从异常域名样本中提取出的特征，则其对应的标签为恶意域名(可通过0表示)。

在完成特征的提取和标签的设置之后，将设置好标签的样本域名特征输入到初始的第一检测模型中进行训练，便可获得训练好的第一检测模型。

其中，第一检测模型可以是随机森林模型，或者其他模型。此外，在上述的样本域名特征中，可以将一部分(例如80％的样本)作为训练数据集，另一部分(例如20％的样本)作为测试数据集，在训练的过程中，利用测试数据集对第一检测模型的准确度进行调整，以提高最终训练好的第一检测模型的精度。

进而，作为一种可选的实施方式，步骤240包括：将域名特征输入所述预先训练好的第一检测模型中，获得预先训练好的第一检测模型输出的恶意域名概率；恶意域名概率为第一待检测特征。

在这种实施方式中，将域名特征输入到预先训练好的第一检测模型中，第一检测模型可输出域名特征对应的特征为恶意域名的概率，该概率可作为第一待检测特征。

在步骤250中，基于待检测网站的信息获取第二待检测特征，第二待检测和域名特征不相同。

作为一种可选的实施方式，第二待检测特征包括：url的长度；host的长度；html长度；cookie key-value对的数目；html源码中16进制或者unicode代码长度；js中最长字符串长度；css中样式命名是否有异常；url中是否包含IP、或者ip采用8进制、16进制；url是否采用tiny url；url中是否包含@符号；是否使用"//"进行重定向；域名层级；域名的过期时间；域名注册的月数；favicon(网站图标)是否与本域名是否一致；url中是否包含两个http/htpps；请求url中外链占比；锚链接数；<Meta>、<Script>、<Link>链接标签数；提交表单地址与域名不一致的数量；是否提交信息到email；IFrame重定向数量；在指定网站中查询到的待检测网站的域名的相关信息的条数；自定义状态栏；是否包含禁用右键；是否使用弹窗；与待检测网站的域名不相关的预设标签的个数。

在步骤260中，根据第一待检测特征、第二待检测特征和预先训练好的第二检测模型，确定待检测网站是否为钓鱼网站。

对于预先训练好的第二检测模型，其对应的训练过程可以包括：基于前述的第一检测模型对应的正常域名样本和异常域名样本，获取正常域名样本和异常域名样本分别对应的正常网站样本和异常网站样本；然后对正常网站样本和异常网站样本按照上述的特征进行特征提取；然后将提取的特征与基于正常域名样本和异常域名样本所确定的恶意概率进行组合，获得组合后的特征。然后对组合后的特征设置相应的标签，包括：正常网站标签(例如通过1表示)和异常网站标签(例如通过0表示)。最后，再将设置好标签的组合后的特征输入到初始的第二检测模型中进行训练，获得训练好的第二检测模型。

其中，第二检测模型可以是随机森林模型，或者其他模型。此外，在上述的组合的特征中，可以将一部分(例如80％的样本)作为训练数据集，另一部分(例如20％的样本)作为测试数据集，在训练的过程中，利用测试数据集对第二检测模型的准确度进行调整，以提高最终训练好的第二检测模型的精度。

结合第二检测模型的训练过程的介绍，作为一种可选的实施方式，步骤260包括：将第一待检测特征和第二待检测特征输入预先训练好的第二检测模型中，获得预先训练好的第二检测模型输出的钓鱼网站概率；根据钓鱼网站概率确定待检测网站是否为钓鱼网站。

在这种实施方式中，若钓鱼网站概率符合预设的钓鱼网站的概率标准，则确定待检测网站为钓鱼网站；若钓鱼网站概率不符合预设的钓鱼网站的概率标准，则确定待检测网站不是钓鱼网站。

结合前述实施例中各种实施方式的介绍，在实际应用时，还可以分别按照上述的两种检测方式(黑名单规则和检测模型)进行检测，然后综合两种检测方式的检测结果确定最终的检测结果。例如：如果两者的检测结果一致，则将一致的检测结果确定为最终的检测结果。如果两者的检测结果不一致，将基于检测模型所确定的检测结果确定为最终的检测结果。

基于同一发明构思，请参照图3，本申请实施例中还提供一种钓鱼网站的检测装置300，包括：获取模块310和处理模块320。

获取模块310用于：获取待检测网站的信息。处理模块320用于：根据所述待检测网站的信息和预设的白名单和白名单规则确定所述待检测网站是否为非钓鱼网站；所述预设的白名单中包括多个非钓鱼网站的信息；若确定所述待检测网站不是非钓鱼网站，根据预设的黑名单规则确定所述待检测网站是否为钓鱼网站；或者，基于所述待检测网站的信息获取域名特征；根据所述域名特征和预先训练好的第一检测模型，确定第一待检测特征；基于所述待检测网站的信息获取第二待检测特征；所述第二待检测特征和所述域名特征不相同；根据所述第一待检测特征、所述第二待检测特征和预先训练好的第二检测模型，确定所述待检测网站是否为钓鱼网站。

在本申请实施例中，处理模块320具体用于：判断所述白名单中是否存在所述待检测网站的域名的匹配域名，若存在，则确定所述待检测网站为非钓鱼网站；或者，判断所述白名单中是否存在所述待检测网站的图标对应的字符串的匹配字符串，若存在，且所述待检测网站的域名与第一目标非钓鱼网站的域名相同，则确定所述待检测网站为非钓鱼网站；所述第一目标非钓鱼网站为所述匹配字符串对应的非钓鱼网站；或者，判断所述白名单中是否存在所述待检测网站的备案号的匹配备案号，若存在，且所述待检测网站的域名与第二目标非钓鱼网站的域名相同，则确定所述待检测网站为非钓鱼网站；所述第二目标非钓鱼网站为所述匹配备案号对应的非钓鱼网站；或者，判断所述待检测网站对应的国家是否为预设国家，若是，则所述待检测网站为非钓鱼网站。

在本申请实施例中，处理模块320具体用于：若基于所述待检测网站的信息确定所述待检测网站满足所述多项钓鱼网站的特征中的任意一项特征，确定所述待检测网站为钓鱼网站；其中，所述钓鱼网站的多项特征包括：钓鱼网站的源码中包括的指定字段、钓鱼网站的域名的代码解码后包含的网站的名字、钓鱼网站的预设链接指向的网站、钓鱼网站的源码中包括的备案号、钓鱼网站的源码的编码字段的长度。

在本申请实施例中，处理模块320具体用于：将所述域名特征输入所述预先训练好的第一检测模型中，获得所述预先训练好的第一检测模型输出的恶意域名概率；所述恶意域名概率为所述第一待检测特征。

在本申请实施例中，处理模块320具体用于：将所述第一待检测特征和所述第二待检测特征输入所述预先训练好的第二检测模型中，获得所述预先训练好的第二检测模型输出的钓鱼网站概率；根据所述钓鱼网站概率确定所述待检测网站是否为钓鱼网站。

在本申请实施例中，获取模块310还用于：获取训练样本集；所述训练样本集中包括：正常域名样本和恶意域名样本；处理模块320还用于：基于所述训练样本集提取样本域名特征，并为所述样本域名特征设置对应的标签；将设置好标签的样本域名特征输入到初始的第一检测模型中进行训练，获得训练好的第一检测模型。

钓鱼网站的检测装置300与钓鱼网站的检测方法对应，因此，各个模块与各个步骤一一对应，各个模块的实施方式参照各个前述实施例中各个步骤的实施方式，在此不再重复介绍。

基于同一发明构思，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机运行时，执行前述实施例中所述的钓鱼网站的检测方法。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种钓鱼网站的检测方法，其特征在于，包括：

获取待检测网站的信息；

根据所述待检测网站的信息和预设的白名单和白名单规则确定所述待检测网站是否为非钓鱼网站；所述预设的白名单中包括多个非钓鱼网站的信息；

若确定所述待检测网站不是非钓鱼网站，根据预设的黑名单规则确定所述待检测网站是否为钓鱼网站；或者，

基于所述待检测网站的信息获取域名特征；根据所述域名特征和预先训练好的第一检测模型，确定第一待检测特征；基于所述待检测网站的信息获取第二待检测特征；所述第二待检测特征和所述域名特征不相同；根据所述第一待检测特征、所述第二待检测特征和预先训练好的第二检测模型，确定所述待检测网站是否为钓鱼网站。

2.根据权利要求1所述的检测方法，其特征在于，所述待检测网站的信息包括：待检测网站的域名、待检测网站的备案号、待检测网站对应的国家、待检测网站的图标对应的字符串；所述多个非钓鱼网站的信息包括：非钓鱼网站的域名、非钓鱼网站的备案号、非钓鱼网站的图标对应的字符串；所述根据所述待检测网站的信息和预设的白名单和白名单规则确定所述待检测网站是否为钓鱼网站，包括：

判断所述白名单中是否存在所述待检测网站的域名的匹配域名，若存在，则确定所述待检测网站为非钓鱼网站；或者，

判断所述白名单中是否存在所述待检测网站的图标对应的字符串的匹配字符串，若存在，且所述待检测网站的域名与第一目标非钓鱼网站的域名相同，则确定所述待检测网站为非钓鱼网站；所述第一目标非钓鱼网站为所述匹配字符串对应的非钓鱼网站；或者，

判断所述白名单中是否存在所述待检测网站的备案号的匹配备案号，若存在，且所述待检测网站的域名与第二目标非钓鱼网站的域名相同，则确定所述待检测网站为非钓鱼网站；所述第二目标非钓鱼网站为所述匹配备案号对应的非钓鱼网站；或者，

判断所述待检测网站对应的国家是否为预设国家，若是，则所述待检测网站为非钓鱼网站。

3.根据权利要求1所述的检测方法，其特征在于，所述预设的黑名单规则用于指示钓鱼网站的多项特征；所述根据预设的黑名单规则确定所述待检测网站是否为钓鱼网站，包括：

若基于所述待检测网站的信息确定所述待检测网站满足所述钓鱼网站的多项特征中的任意一项特征，确定所述待检测网站为钓鱼网站；

其中，所述钓鱼网站的多项特征包括：钓鱼网站的源码中包括的指定字段、钓鱼网站的域名的代码解码后包含的网站的名字、钓鱼网站的预设链接指向的网站、钓鱼网站的源码中包括的备案号、钓鱼网站的源码的编码字段的长度。

4.根据权利要求1所述的检测方法，其特征在于，所述域名特征包括：

域名长度、重复字母的占比、元音字母的占比、数字占比、熵、连贯数字占比、可读性概率、在正常域名中的出现次数和钓鱼域名中的出现次数之比、转移概率平均值和方差。

5.根据权利要求1所述的检测方法，其特征在于，所述根据所述域名特征和预先训练好的第一检测模型，确定第一待检测特征，包括：

将所述域名特征输入所述预先训练好的第一检测模型中，获得所述预先训练好的第一检测模型输出的恶意域名概率；所述恶意域名概率为所述第一待检测特征。

6.根据权利要求1所述的检测方法，其特征在于，所述第二待检测特征包括：

url的长度；host的长度；html长度；cookie key-value对的数目；html源码中16进制或者unicode代码长度；js中最长字符串长度；css中样式命名是否有异常；url中是否包含IP、或者ip采用8进制、16进制；url是否采用tiny url；url中是否包含@符号；是否使用"//"进行重定向；域名层级；域名的过期时间；域名注册的月数；favicon是否与本域名是否一致；url中是否包含两个http/htpps；请求url中外链占比；锚链接数；<Meta>、<Script>、<Link>链接标签数；提交表单地址与域名不一致的数量；是否提交信息到email；IFrame重定向数量；在指定网站中查询到的所述待检测网站的域名的相关信息的条数；自定义状态栏；是否包含禁用右键；是否使用弹窗；与所述待检测网站的域名不相关的预设标签的个数。

7.根据权利要求1所述的检测方法，其特征在于，所述根据所述第一待检测特征、所述第二待检测特征和预先训练好的第二检测模型，确定所述待检测网站是否为钓鱼网站，包括：

将所述第一待检测特征和所述第二待检测特征输入所述预先训练好的第二检测模型中，获得所述预先训练好的第二检测模型输出的钓鱼网站概率；

根据所述钓鱼网站概率确定所述待检测网站是否为钓鱼网站。

8.根据权利要求1所述的检测方法，其特征在于，所述检测方法还包括：

获取训练样本集；所述训练样本集中包括：正常域名样本和恶意域名样本；

基于所述训练样本集提取样本域名特征，并为所述样本域名特征设置对应的标签；

将设置好标签的样本域名特征输入到初始的第一检测模型中进行训练，获得训练好的第一检测模型。

9.一种钓鱼网站的检测装置，其特征在于，包括：

获取模块，用于获取待检测网站的信息；

处理模块，用于：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机运行时，执行如权利要求1-8任一项所述的钓鱼网站的检测方法。