CN109246074A

CN109246074A - 识别可疑域名的方法、装置、服务器及可读存储介质

Info

Publication number: CN109246074A
Application number: CN201810812479.7A
Authority: CN
Inventors: 彭力扬; 李丽平
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2019-01-18

Abstract

本发明公开了一种识别可疑域名的方法、装置、服务器及可读存储介质，从访问日志中提取出访问的目标域名的域名内容；对所述域名内容进行混乱度分析，得到所述目标域名的混乱度；判断所述目标域名的混乱度是否大于预设混乱度；若所述目标域名的混乱度大于所述预设混乱度，则将所述目标域名作为可疑域名。本发明公开的识别可疑域名的方法、装置、服务器及可读存储介质，能够提高识别可疑域名的准确性，实现提前进行预警处理的效果。

Description

识别可疑域名的方法、装置、服务器及可读存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种识别可疑域名的方法、装置、服务器及可读存储介质。

背景技术

随着互联网技术的飞速发展，在互联网中出现的钓鱼程序也越来越多，现有技术中，通常是目标域名向终端发送包含钓鱼程序的链接，当终端点打开所述链接之后，会将钓鱼程序植入所述终端中，然后通过钓鱼程序来盗取qq、微信账号密码、银行或信用卡账号密码等用户信息的网络欺诈行为。

现有技术中在识别目标域名是否为钓鱼域名时，通常是以通过人工方式来识别，例如通过采集多个终端用户的反馈信息来识别出钓鱼域名，只能在事后进行识别，而不能提前进行预警处理。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种识别可疑域名的方法、装置、服务器及可读存储介质。

依据本发明的第一方面，提供了一种识别可疑域名的方法，所述方法包括：

从访问日志中提取出访问的目标域名的域名内容；

对所述域名内容进行混乱度分析，得到所述目标域名的混乱度；

判断所述目标域名的混乱度是否大于预设混乱度；

若所述目标域名的混乱度大于所述预设混乱度，则将所述目标域名作为可疑域名。

可选地，所述对所述域名内容进行混乱度分析，得到所述目标域名的混乱度，具体包括：

利用创建的转移概率词表对所述域名内容进行分析，得到所述目标域名的转移概率，所述转移概率词表是根据多个非可疑域名包含的特征词集来确定；

根据所述转移概率，得到所述目标域名的混乱度。

可选地，所述根据所述转移概率，得到所述目标域名的混乱度，具体包括：

获取所述目标域名的域名长度；

根据所述域名长度和所述转移概率，得到所述目标域名的混乱度。

可选地，所述转移概率词表的创建方法，包括：

获取多个非可疑域名包含的特征词集；

利用所述特征词集中每个特征词的出现次数，得到每个特征词的转移概率；

根据每个特征词的转移概率，创建出所述转移概率词表。

可选地，在将所述目标域名作为可疑域名之后，所述方法还包括：

获取所述可疑域名的相关信息，其中，所述相关信息包括所述可疑域名的出现时间和注册信息；

通过所述相关信息，确定出所述可疑域名是否为钓鱼域名。

检测所述可疑域名中是否携带有用户信息；

若检测到所述可疑域名中携带有所述用户信息，则判定所述可疑域名为钓鱼域名。

检测所述可疑域名对应的站点是否对应多个备用域名；

若检测到所述可疑域名对应的站点对应多个备用域名，则判定所述可疑域名为钓鱼域名。

检测所述可疑域名对应的服务器是否对应多个备用域名；

若检测到所述可疑域名对应的服务器对应多个备用域名，则判定所述可疑域名为钓鱼域名。

依据本发明的第二方面，提供了一种识别可疑域名的装置，包括：

域名内容获取单元，用于从访问日志中提取出访问的目标域名的域名内容；

混乱度获取单元，用于对所述域名内容进行混乱度分析，得到所述目标域名的混乱度；

判断单元，用于判断所述目标域名的混乱度是否大于预设混乱度；

识别单元，用于在判断出所述目标域名的混乱度大于所述预设混乱度时，将所述目标域名作为可疑域名。

可选地，所述混乱度获取单元，具体用于利用创建的转移概率词表对所述域名内容进行分析，得到所述目标域名的转移概率，所述转移概率词表是根据多个非可疑域名包含的特征词集来确定；根据所述转移概率，得到所述目标域名的混乱度。

可选地，所述混乱度获取单元还用于获取所述目标域名的域名长度；根据所述域名长度和所述转移概率，得到所述目标域名的混乱度。

可选地，还包括：

转移概率词表创建单元，用于获取多个非可疑域名包含的特征词集；利用所述特征词集中每个特征词的出现次数，得到每个特征词的转移概率；根据每个特征词的转移概率，创建出所述转移概率词表。

可选地，还包括：

相关信息获取单元，用于在将所述目标域名作为可疑域名之后，获取所述可疑域名的相关信息，其中，所述相关信息包括所述可疑域名的出现时间和注册信息；

钓鱼域名确定单元，用于通过所述相关信息，确定出所述可疑域名是否为钓鱼域名。

可选地，还包括：

用户信息检测单元，用于在将所述目标域名作为可疑域名之后，检测所述可疑域名中是否携带有用户信息；

第一钓鱼域名判定单元，用于在检测到所述可疑域名中携带有所述用户信息时，判定所述可疑域名为钓鱼域名。

可选地，还包括：

第一备用域名检测单元，用于在将所述目标域名作为可疑域名之后，检测所述可疑域名对应的站点是否对应多个备用域名；

第二钓鱼域名判定单元，用于在检测到所述可疑域名对应的站点对应多个备用域名时，判定所述可疑域名为钓鱼域名。

可选地，还包括：

第二备用域名检测单元，用于在将所述目标域名作为可疑域名之后，检测所述可疑域名对应的服务器是否对应多个备用域名；

第三钓鱼域名判定单元，用于在检测到所述可疑域名对应的服务器对应多个备用域名时，判定所述可疑域名为钓鱼域名。

依据本发明第三方面，提供了一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述识别可疑域名的方法的步骤。

依据本发明第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述识别可疑域名的方法的步骤。

根据本发明实施例通过获取目标域名的混乱度，在判断出混乱度大于预设混乱度时，将目标域名作为可疑域名，由于混乱度越高域名越不容易记忆，而域名通常是方便记忆的，而越不容易记忆的域名是可疑域名的概率越高，如此，通过预设混乱度来识别域名，使得识别出的可疑域名是钓鱼域名的概率提高，从而能够提前对目标域名是否为钓鱼域名进行预警。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文可选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出可选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例中识别可疑域名的方法的方法流程图；

图2为本发明实施例中转移概率词表的创建方法的方法流程图；

图3为本说明书实施例中识别可疑域名的装置的结构示意图；

图4为本说明书实施例中服务器的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参见图1，根据本发明第一方面供了一种识别可疑域名的方法，具体可以包括如下步骤：

S101、从访问日志中提取出访问的目标域名的域名内容；

S102、对所述域名内容进行混乱度分析，得到所述目标域名的混乱度；

S103、判断所述目标域名的混乱度是否大于预设混乱度；

S104、若所述目标域名的混乱度大于所述预设混乱度，则将所述目标域名作为可疑域名。

其中，在步骤S101中，由于在对所述目标域名进行访问时，会自动生成访问日志，生成的所述访问日志可以存储在网络日志和/或云端日志中，如此，可以从云端日志或网络日志中提取出访问所述目标域名的域名内容，当然，也可以从云端日志和网络日志中提取出所述目标域名的域名内容。下面具体以云端日志为例。

本说明书实施例中，由于所述访问日志中存在有一个或多个域名，可以将所述访日日志中存在的任意一个域名作为所述目标域名，然后在确定所述目标域名之后，从所述访问日志中提取所述目标域名的域名内容。

例如，所述访问日志中存在域名A1、A2、A3和A4，则可以将A1、A2、A3和A4中的任意一个域名作为目标域名，例如可以将A1作为目标域名，或者将A3作为目标域名等。若目标域名为A1，则从所述访问日志提取A1的域名内容www.xxyy175.com；若目标域名为A2，则从所述访问日志提取A2的域名内容为www.xxkk5679.cn。

在通过步骤S101获取到所述域名之后，执行步骤S102，在该步骤中，可以提取出所述域名内容中的所有特征词，计算所述所有特征词在域名系统中的使用频率，根据所述使用频率，确定所述目标域名的混乱度。其中，所述使用频率越高，所述目标域名的混乱度越低；反之，所述使用频率越低，所述目标域名的混乱度越高。

本说明书实施例中，在根据所述使用频率，确定所述目标域名的混乱度时，可以通过函数来计算所述目标域名的混乱度，若所述目标域名的混乱度用h表示，所述使用频率用k表示，则确定h＝f(k)，其中，k值越大，h值越小；反之，k值越小，h值越大，例如f(k)＝1/k，即将所述使用频率的倒数作为所述目标域名的混乱度，例如A1的使用频率为0.2，则将1/0.2＝5作为A1的混乱度；还可以将所述使用频率的对数的倒数作为所述目标域名的混乱度等，本申请不作具体限制。

具体来讲，在计算所述使用频率时，可以根据多个非可疑域名包含的特征词，统计出每个特征词的使用频率；然后利用统计出的每个特征词的使用频率，生成所述域名系统对应的特征词使用频率模型；然后将所述域名内容中的所有特征词输入所述特征词使用频率模型中，得到所述所有特征词在域名系统中的使用频率。当所述所有特征词中存在某个特征词不在所述多个非可疑域名包含的特征词中时，该特征词的使用频率在所述特征词使用频率模型中可以对应一个常数α，其中，α通常在0-0.01之间取值。

本说明书实施例中，所述非可疑域名可以是当前正常使用的域名，所述非可疑域名例如可以是www.360.com、www.sina.com等正常使用的域名。

本说明书实施例中，在提取所述域名内容的特征词时，会将所述域名内容中包含的前缀和后缀去掉后的内容中提取，所述前缀例如为www等，所述后缀例如可以com、cn等。

例如，A1的域名内容为www.xxyy175.com，提取出所述域名内容的特征词为xx、yy和175，若所述特征词使用频率模型中xx和175对应的使用频率依次为0.01和0.02，而yy不在所述多个非可疑域名包含的特征词中，则确定yy的使用频率为α，此时，A1的使用频率可以为0.01+0.02+α，若α＝0.002，则确定A1的使用频率为0.01+0.02+0.002＝0.032，若所述目标域名的混乱度为所述使用频率的倒数，则可以确定A1的混乱度为1/0.032＝31.25。

在本说明书的另一实施方式中，在得到所述目标域名的混乱度的过程中，还可以利用创建的转移概率词表对所述域名内容进行分析，得到所述目标域名的转移概率，所述转移概率词表是根据多个非可疑域名包含的特征词集来确定；根据所述转移概率，得到所述目标域名的混乱度。

在该实施方式中，在执行步骤S102之前，还需创建所述转移概率词表，所述转移概率词表的创建方法，如图2所示，具体包括以下步骤：

S201、获取多个非可疑域名包含的特征词集；

具体来讲，首先获取多个非可疑域名，然后将所述多个非可疑域名中每个域名包含的特征词提取出来，将提取出来的所有特征词组成所述特征词集。

例如，所述多个非可疑域名为A1和A2，则从A1对应的域名内容www.xxyy175.com中提取的特征词为xx、yy和175，以及从A2对应的域名内容www.xxkk5679.cn中提取的特征词为xx、kk和5679，则将xx、yy、kk、175和5679组成所述特征词集。

S202、利用所述特征词集中每个特征词的出现次数，得到每个特征词的转移概率；

本说明书实施例中，若所述特征词集中某个特征词的出现次数越多，该特征词的转移概率越高；若所述特征词集中某个特征词的出现次数越少，该特征词的转移概率越低。

具体来讲，可以通过函数来计算每个特征词的转移概率，例如以某个特征词的出现次数用x1表示，则该特征词的转移概率为y＝f(x1)；如此，通过每个特征词的出现次数，可以计算得到每个特征词的转移概率。

具体地，可以获取所述特征词集中所有特征词出现的总次数，然后将所述特征词集中每个特征词的出现次数除以总次数作为该特征词的转移概率。例如，所述总次数为100且某个特征词的出现次数为5，则确定该特征词的转移概率为5/100＝5％。

例如，以所述多个非可疑域名为A1和A2为例，所述特征词集中包含的特征词为xx、yy、kk、175和5679，其中，xx出现了2次，其它特征词均只出现一次，则可以确定xx的转移概率为2/6＝33.33％，yy、kk、175和5679的转移概率均为1/6＝16.67％。

S203、根据每个特征词的转移概率，创建出所述转移概率词表。

具体来讲，在通过步骤S202得到每个特征词的转移概率之后，利用每个特征词的转移概率，创建出所述转移概率词表，所述转移概率词表中存储有每个特征词及其对应的转移概率。

例如，以所述多个非可疑域名A1和A2为例，其中，xx的转移概率为2/6＝33.33％，yy、kk、175和5679的转移概率均为1/6＝16.66％，如此，创建的所述转移概率词表，具体如下表1所示：

特征词	转移概率
		xx	33.33％
yy	16.66％
		kk	16.66％
175	16.66％
		5679	16.66％

表1

本说明书实施例中，采集的多个非可疑域名的域名数量越多，其包含的特征词集中的特征词的数量也会越多；在所述特征词包含的特征词越多的基础上，其得到的每个特征词的转移概率的准确度也会随之提高，使得创建出的所述转移概率词表识别出特征词的转移概率的准确度也会提高。

在创建所述转移概率词表之后，执行步骤S102，此时，可以对所述域名内容进行分词处理，得到所述域名内容包含的特征词；然后利用所述域名内容包含的特征词与所述转移概率词表中的特征词的对应关系，获取到所述域名内容包含的每个特征词的转移概率；然后利用所述域名内容包含的每个特征词的转移概率，得到所述目标域名的转移概率；再根据所述目标域名的转移概率，得到所述目标域名的混乱度。所述目标域名的转移概率可以为所述域名内容包含的每个特征词的转移概率之和或乘积等，本申请不作具体限制。下面具体以所述目标域名的转移概率为所述域名内容包含的每个特征词的转移概率之和为例。

具体地，在利用所述域名内容包含的特征词与所述转移概率词表中的特征词的对应关系，获取到所述域名内容包含的每个特征词的转移概率过程中，若所述域名内容包含的第一特征词能在所述转移概率词表中查找到，则将在所述转移概率词表中查找到的特征词对应的转移概率作为所述第一特征词的转移概率；若所述第一特征词在所述转移概率词表中未查找到，则可以人工或系统设置的一个常数β作为所述第一特征词的转移概率；其中，β通常在0-0.01之间取值，所述第一特征词为所述域名内容包括的特征词中的任意一个特征词。

例如，以目标域名为A3为例，若A3的域名内容为www.zz175cc.com，对www.zz175cc.com进行分词处理，得到A3的域名内容包含的特征词为zz、175和cc，从表1中查找到zz的转移概率为16.66％，以及从表1中查找到175的转移概率为16.66％，由于cc未在表1中未查找到，则确定cc的转移概率为β，则A3的转移概率为16.66％+16.66％+β。

具体地，在获取到所述目标域名的转移概率之后，在根据所述目标域名的转移概率，得到所述目标域名的混乱度过程中，所述转移概率越高，所述目标域名的混乱度越低；反之，所述转移概率越低，所述目标域名的混乱度越高。

本说明书实施例中，在根据所述目标域名的转移概率，得到所述目标域名的混乱度时，可以通过函数来计算所述目标域名的混乱度，若所述目标域名的混乱度用h表示，所述目标域名的转移概率用g表示，则确定h＝f(g)，其中，g值越大，h值越小；反之，g值越小，h值越大，例如f(g)＝10/g，A1的转移概率为0.4，则将10/0.4＝25作为A1的混乱度。

例如，以目标域名为A3为例，利用表1对A3的域名内容进行分析，得到A3的转移概率为16.66％+16.66％+β，若β＝0.08％，则确定A3的转移概率为33.4％，若h＝f(g)＝10/g，此时g＝33.4％，则计算出10/33.4％＝22.94为A3的混乱度。

在本说明书的另一实施方式中，在根据所述目标域名的转移概率，得到所述目标域名的混乱度时，还可以获取所述目标域名的域名长度；根据所述域名长度和所述转移概率，得到所述目标域名的混乱度。

在实际应用过程中，由于域名通常是方便记忆的，而域名的域名长度越长，其越不方便记忆，导致域名的混乱度越高，因此，在获取所述转移概率之后，通过获取的所述目标域名的域名长度和所述转移概率，得到所述目标域名的混乱度的精确度更高。

在具体实施过程中，在根据所述域名长度和所述转移概率，得到所述目标域名的混乱度时，可以获取与所述域名长度对应的混乱系数，然后根据所述混乱系数和所述转移概率，得到所述目标域名的混乱度；例如所述目标域名的混乱度可以为所述混乱系数和所述转移概率之和，或，所述混乱系数和所述转移概率的乘积，或，所述混乱系数和所述转移概率的乘积的倒数等，本申请不作具体限制。下面具体以所述目标域名的混乱度以所述混乱系数和所述转移概率的乘积为例。

具体来讲，在获取所述域名长度对应的混乱系数时，可以判断所述域名长度是否大于预设域名长度，在判断所述域名长度大于所述预设域名长度时，确定所述域名长度对应的混乱系数为第一混乱系数；在判断出所述域名长度不大于所述预设域名长度时，确定所述域名长度对应的混乱系数为第二混乱系数，其中，所述第一混乱系数大于所述第二混乱系数，例如所述第一混乱系数为10，所述第二混乱系数为5。

其中，所述预设域名长度根据实际情况来设定，也可以通过设备或人工进行设定；在所述预设域名长度根据实际情况来设定时，可以根据多个非可疑域名的域名长度来设定，例如可以为多个非可疑域名的平均域名长度等。

当然，还可以设置多个所述预设域名长度，且每个所述预设域名长度的值均不同，以2个所述预设域名长度为例，其中一个所述预设域名长度为20，另外一个所述预设域名长度为50，以目标域名为A4为例，若A4的域名长度为S；若S≦20，则A4对应的混乱系数为2；若20＜S≦50，则A4对应的混乱系数为5；若S>50，则A4对应的混乱系数为10。

例如，以目标域名为A3为例，利用表1对A3的域名内容进行分析，得到A3的转移概率为16.66％+16.66％+β为33.4％，在得到A3的转移概率之前或之后或同时，由于A3的域名内容为www.zz175cc.com共13个字符组成，如此，A3的域名长度为13，若所述预设域名长度为20，由于13<20，则确定A3的混乱系数为所述第二混乱系数，若所述第二混乱系数为5，则确定A3的混乱度为5×33.4％＝1.67。

当然，在确定A3的域名长度时，A3的域名长度为A3的域名内容中除掉前缀和后缀后的内容的长度，此时，A3的域名长度为zz175cc的长度，即A的域名长度为7。

本说明书实施例中，在获取所述域名长度对应的混乱系数时，还可以根据函数来确定所述域名长度对应的混乱系数，其中，所述混乱系数用n表示，所述域名长度用m表示，则所述函数为n＝f(m)，其中，m的值越大，n的值越大；反之，m的值越小，n的值越小。下面具体以n＝2m为例。

例如，以目标域名为A3为例，利用表1对A3的域名内容进行分析，得到A3的转移概率为16.66％+16.66％+β为33.4％，在得到A3的转移概率之前或之后或同时，获取A3的域名长度为13，即m＝13，此时n＝2×13＝26；在确定n＝26之后，则可以获取A3的混乱度为26×33.4％＝8.684。

接下来执行步骤S103，在该步骤中，由于步骤S102能够通过多种实施方式来获取所述目标域名的混乱度，每一种方式获取的所述目标域名的混乱度的取值范围会不同，因此，在采用不同的方式获取所述目标域名的混乱度时，所述预设混乱度的取值也不相同，以使得通过所述预设混乱度判断出的所述目标域名是可疑域名的准确度提高。以及在通过步骤S103判断出所述目标域名的混乱度大于所述预设混乱度时，执行步骤S104；以及在通过步骤S103判断出所述目标域名的混乱度不大于所述预设混乱度时，则判定所述目标域名不是所述可疑域名。

本说明书实施例中，可以通过步骤S101-步骤S102任意一种实施方式获取到多个非可疑域名中每个域名对应的混乱度，然后从中找出最高混乱度，然后根据所述最高混乱度来确定所述预设混乱度的值，其中，所述预设混乱度大于所述最低混乱度，例如所述预设混乱度为所述最高混乱度的p倍，p为不小于2的数，如此，能够在采用任意一种实施方式获取混乱度时，均能对所述预设混乱度的值进行精确设置，以使得通过所述预设混乱度判断出的所述目标域名是可疑域名的准确度提高。下面具体以p＝3为例。

例如，多个非可疑域名包括域名b1、b2、b3和b4，通过步骤S101-S102的第一种实施方式获取到b1对应的混乱为12、b2对应的混乱度9，b3对应的混乱度为15，b4对应的混乱度为20，则从中查找到的最高混乱度为20，则确定所述预设混乱度为20×(p＝3)＝60；针对每一种实施方式进行上述操作，可以对所述预设混乱度的值进行精确设置。

例如，以目标域名为A3为例，获取到A3的混乱度为26×33.4％＝8.684，若所述预设混乱度为70，由于8.684<70，则判定A3不是可疑域名。

若以目标域名为A4为例，A4的域名内容为www.yy1234ttt.com，从表1中查找到yy的转移概率为16.66％，由于1234和ttt未在表1中未查找到，则确定1234和ttt的转移概率均为β，则A3的转移概率为16.66％+β+β，若β＝0.02％，则确定A4的转移概率为16.7％，若h＝f(g)＝15/g，此时g＝16.7％，则计算出10/16.7％＝89.82为A4的混乱度，若所述预设混乱度为70，由于70<89.82，则将A4作为可疑域名。

由此可知，通过所述转移概率词表获取所述目标域名的转移概率，再将所述目标域名的域名长度与所述转移概率结合，计算得到的所述目标域名的混乱度的准确度较高，而所述预设混乱度的值根据获取混乱度的方式不同进行精确设定，进而使得通过所述预设混乱度对所述目标域名的混乱度进行判断的准确性也会较高，如此，使得识别出的可疑域名的准确度也会较高，而域名通常是方便记忆的，而越不容易记忆的域名是可疑域名的概率越高，如此，通过预设混乱度来识别域名，使得识别出的可疑域名是钓鱼域名的概率提高，从而能够提前对目标域名是否为钓鱼域名进行预警。

本说明书的另一实施例中，在将所述目标域名作为可疑域名之后，所述方法还包括：

S301、获取所述可疑域名的相关信息，其中，所述相关信息包括所述可疑域名的出现时间和注册信息；

本说明书实施例中，所述相关信息还可以包括所述可疑域名的访问频率的变化信息等信息；若一个域名访问频率突然极具增大，该域名为钓鱼域名的概率很大；如此，根据所述访问频率的变化信息，获取所述目标域名对应的访问频率的增长度；若所述增长度大于预设增长度，则判定该域名为钓鱼域名；若不大于，则通过所述相关信息中的其他信息继续进行判定。其中，所述预设增长度可以根据设备或人工进行设定。

S302、通过所述相关信息，确定出所述可疑域名是否为钓鱼域名。

具体来讲，只要所述相关信息中的任意一个信息满足判定所述可疑域名为钓鱼域名的判定条件，则确定所述可疑域名为钓鱼域名；否则，仅在所述相关信息中的所有信息都不满足判定该所述可疑域名的判定条件，才确定所述可疑域名不为钓鱼域名。下面具体以所述相关信息包括所述可疑域名的出现时间、注册信息和访问频率的变化信息为例。

具体地，可以首先根据所述出现时间，判断所述可疑域名是否为新出现的域名，若是，则确定所述可疑域名为钓鱼域名；若不是，则利用注册信息和最近出现的频率继续进行判定；接着，可以根据所述注册信息，判断出所述可疑域名是否已注册，若未注册，则确定所述可疑域名为钓鱼域名；若已注册，则利用最近出现的频率继续进行判定；接着，可以根据所述访问频率的变化信息，获取所述目标域名对应的访问频率的增长度；若所述增长度大于预设增长度，则确定所述可疑域名为钓鱼域名；若不大于，则确定所述可疑域名不为钓鱼域名。

具体地，在通过所述出现时间，判断所述可疑域名是否为新出现的域名时，可以获取所述出现时间与所述当前时间之间的时间间隔，判定所述时间间隔是否大于预设时间间隔，若不大于，则判断出所述可疑域名为新出现的域名；若大于，则判断出所述可疑域名不为新出现的域名。所述预设时间间隔可以由设备或人工进行设定，所述预设时间间隔通常设置为不大于3个月的时间，当然，也可以设置大于3个月的时间，本申请不作具体限制。下面具体以所述预设时间间隔为3个月为例。

例如，以目标域名A4为例，由于A4的混乱度89.82大于所述预设混乱度的值70，则将A4作为可疑域名，此时，获取A4的相关信息，其中，A4的相关信息包括A4的出现时间为2018年7月2日和注册信息为未注册；由于出现时间为2018年7月2日与当前时间2018年7月17之间的时间间隔为15天，此时所述预设时间间隔为3个月，由于15天小于3个月，则判定A4为新出现的域名，则确定A4为钓鱼域名。

若A4的出现时间为2017年6月2日和注册信息为未注册，由于出现时间为2017年7月17日与当前时间2018年7月17之间的时间间隔为1年，由于1年大于3个月，则继续通过注册信息进行判定，由于所述注册信息为未注册，则判定A4为钓鱼域名。

如此，在确定出所述可疑域名之后，还通过所述可疑域名的相关信息，确定出所述可疑域名是否为钓鱼域名，而且在确定是否为钓鱼域名过程中，通过所述相关信息中的任意一个信息满足判定所述可疑域名为钓鱼域名的判定条件，通过所述判定条件能够使得确定出所述目标域名是否为钓鱼域名的准确度进一步提高，使得识别钓鱼域名的准确度也随之提高。

本说明书的另一实施例中，在将所述目标域名作为可疑域名之后，所述方法还包括：检测所述可疑域名中是否携带有用户信息；若检测到所述可疑域名中携带有所述用户信息，则判定所述可疑域名为钓鱼域名；若未检测到所述可疑域名中携带有所述用户信息，则继续利用所述相关信息是否满足判定条件、所述可疑域名对应的站点是否对应多个备用域名、所述可疑域名对应的服务器是否对应的多个备用域名等判定条件来判定所述可疑域名是否为钓鱼域名。

在具体实施过程中，由于现有技术中存在一些盗取用户信息的病毒，将用户信息加密编码到完整域名中，利用DNS隧道偷偷回传；如此，在检测所述可疑域名是否携带有用户信息时，可以对所述可疑域名进行解密，从而检测到所述可疑域名中是否携带有用户信息。

本说明书实施例中，所述用户信息包括用户的qq、微信、游戏等各种账号密码、银行账号密码和信用卡账号密码等，本申请不作具体限制。

例如，以目标域名A4为例，若确定出A4为可疑域名，然后对A4的域名www.yy1234ttt.com进行解密，若解密出A4的域名中存在用户的QQ账号密码，则判定A4为钓鱼域名。

本说明书的另一实施例中，在将所述目标域名作为可疑域名之后，所述方法还包括：检测所述可疑域名对应的站点是否对应多个备用域名；若检测到所述可疑域名对应的站点对应多个备用域名，则判定所述可疑域名为钓鱼域名；若检测到所述可疑域名对应的站点未对应多个备用域名，则继续利用所述相关信息是否满足判定条件、所述可疑域名是否携带有用户信息、所述可疑域名对应的服务器是否对应的多个备用域名等判定条件来判定所述可疑域名是否为钓鱼域名。

在具体实施过程中，由于现有技术中一些捆绑下载站点，为躲避安全产品的拦截，会随机生成多个备用域名；如此，通过检测所述可疑域名的站点是否对应多个备用域名，则能够检测出所述可疑域名的站点是否为捆绑下载站点；若检测到所述可疑域名的站点对应多个备用域名，则可以判定所述可疑域名为捆绑下载站点，即判定所述可疑域名为钓鱼域名。

本说明书的另一实施例中，在将所述目标域名作为可疑域名之后，所述方法还包括：检测所述可疑域名对应的服务器是否对应多个备用域名；若检测到所述可疑域名对应的服务器对应多个备用域名，则判定所述可疑域名为钓鱼域名；若所述可疑域名对应的服务器未对应多个备用域名，则继续利用所述相关信息是否满足判定条件、所述可疑域名是否携带有用户信息、所述可疑域名对应的站点是否对应的多个备用域名等判定条件来判定所述可疑域名是否为钓鱼域名。

在具体实施过程中，由于现有技术中僵尸网络(botnet)的C&C服务器，为躲避安全产品的拦截，也会随机生成大量域名，以保持与“肉鸡”(中毒的终端)的通信；如此，通过检测所述可疑域名对应的服务器是否对应多个备用域名，则能够检测出所述可疑域名对应的服务器为所述僵尸网络的C&C服务器；若检测到所述可疑域名的服务器对应多个备用域名，则可以判定所述可疑域名为所述僵尸网络的C&C服务器，即判定所述可疑域名为钓鱼域名。

本说明书任意实施例中，在判定所述可疑域名是否为钓鱼域名的过程中，依次利用每一个判定条件来判定所述可疑域名是否为钓鱼域名，在所有的判定条件均判定所述可疑域名不为钓鱼域名时，则确定所述可疑域名不为钓鱼域名；若存在任何一个判定条件判定出所述可疑域名为钓鱼域名，则确定所述可疑域名为钓鱼域名。

基于与上述方法相同的技术构思，本发明第二方面提供了一种识别可疑域名的装置，如图3所示，包括：

域名内容获取单元301，用于从访问日志中提取出访问的目标域名的域名内容；

混乱度获取单元302，用于对所述域名内容进行混乱度分析，得到所述目标域名的混乱度；

判断单元303，用于判断所述目标域名的混乱度是否大于预设混乱度；

识别单元304，用于在判断出所述目标域名的混乱度大于所述预设混乱度时，将所述目标域名作为可疑域名。

本说明书实施例的一种可选方式中，混乱度获取单元302，具体用于利用创建的转移概率词表对所述域名内容进行分析，得到所述目标域名的转移概率，所述转移概率词表是根据多个非可疑域名包含的特征词集来确定；根据所述转移概率，得到所述目标域名的混乱度。

本说明书实施例的一种可选方式中，混乱度获取单元302还用于获取所述目标域名的域名长度；根据所述域名长度和所述转移概率，得到所述目标域名的混乱度。

本说明书实施例的一种可选方式中，所述装置还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例的一种可选方式中，所述装置还包括：

依据本发明第三方面，提供了一种服务器，如图4所示，包括存储器404、处理器402及存储在存储器404上并可在处理器402上运行的计算机程序，所述处理器402执行所述程序时实现前文所述识别可疑域名的方法的任一方法的步骤。

其中，在图4中，总线架构(用总线400来代表)，总线400可以包括任意数量的互联的总线和桥，总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口405在总线400和接收器401和发送器403之间提供接口。接收器401和发送器403可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器402负责管理总线400和通常的处理，而存储器404可以被用于存储处理器402在执行操作时所使用的数据。

依据本发明第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文所述识别可疑域名的方法的任一方法的步骤。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的进程清理的方法和装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网平台上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包括”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开A1、一种识别可疑域名的方法，其特征在于，所述方法包括：

从访问日志中提取出访问的目标域名的域名内容；

判断所述目标域名的混乱度是否大于预设混乱度；

A2、如权利要求A1所述的方法，其特征在于，所述对所述域名内容进行混乱度分析，得到所述目标域名的混乱度，具体包括：

根据所述转移概率，得到所述目标域名的混乱度。

A3、如权利要求A2所述的方法，其特征在于，所述根据所述转移概率，得到所述目标域名的混乱度，具体包括：

获取所述目标域名的域名长度；

A4、如权利要求A1所述的方法，其特征在于，所述转移概率词表的创建方法，包括：

获取多个非可疑域名包含的特征词集；

根据每个特征词的转移概率，创建出所述转移概率词表。

A5、如权利要求A1-A4任一项所述的方法，其特征在于，在将所述目标域名作为可疑域名之后，所述方法还包括：

通过所述相关信息，确定出所述可疑域名是否为钓鱼域名。

A6、如权利要求A1-A4任一项所述的方法，其特征在于，在将所述目标域名作为可疑域名之后，所述方法还包括：

检测所述可疑域名中是否携带有用户信息；

A7、如权利要求A1-A4任一项所述的方法，其特征在于，在将所述目标域名作为可疑域名之后，所述方法还包括：

检测所述可疑域名对应的站点是否对应多个备用域名；

A8、如权利要求A1-A4任一项所述的方法，其特征在于，在将所述目标域名作为可疑域名之后，所述方法还包括：

检测所述可疑域名对应的服务器是否对应多个备用域名；

B1、一种识别可疑域名的装置，其特征在于，包括：

B2、如权利要求B1所述的装置，其特征在于，所述混乱度获取单元，具体用于利用创建的转移概率词表对所述域名内容进行分析，得到所述目标域名的转移概率，所述转移概率词表是根据多个非可疑域名包含的特征词集来确定；根据所述转移概率，得到所述目标域名的混乱度。

B3、如权利要求B2所述的装置，其特征在于，所述混乱度获取单元，还用于获取所述目标域名的域名长度；根据所述域名长度和所述转移概率，得到所述目标域名的混乱度。

B4、如权利要求B1所述的装置，其特征在于，还包括：

B5、如权利要求B1-B4任一项所述的装置，其特征在于，还包括：

B6、如权利要求B1-B4任一项所述的装置，其特征在于，还包括：

B7、如权利要求B1-B4任一项所述的装置，其特征在于，还包括：

B8、如权利要求B1-B4任一项所述的装置，其特征在于，还包括：

C1、一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求A1-A8任一项所述方法的步骤。

D1、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求A1-A8任一项所述方法的步骤。

Claims

1.一种识别可疑域名的方法，其特征在于，所述方法包括：

从访问日志中提取出访问的目标域名的域名内容；

判断所述目标域名的混乱度是否大于预设混乱度；

2.如权利要求1所述的方法，其特征在于，所述对所述域名内容进行混乱度分析，得到所述目标域名的混乱度，具体包括：

根据所述转移概率，得到所述目标域名的混乱度。

3.如权利要求2所述的方法，其特征在于，所述根据所述转移概率，得到所述目标域名的混乱度，具体包括：

获取所述目标域名的域名长度；

4.如权利要求1所述的方法，其特征在于，所述转移概率词表的创建方法，包括：

获取多个非可疑域名包含的特征词集；

根据每个特征词的转移概率，创建出所述转移概率词表。

5.一种识别可疑域名的装置，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，所述混乱度获取单元，具体用于利用创建的转移概率词表对所述域名内容进行分析，得到所述目标域名的转移概率，所述转移概率词表是根据多个非可疑域名包含的特征词集来确定；根据所述转移概率，得到所述目标域名的混乱度。

7.如权利要求6所述的装置，其特征在于，所述混乱度获取单元，还用于获取所述目标域名的域名长度；根据所述域名长度和所述转移概率，得到所述目标域名的混乱度。

8.如权利要求5所述的装置，其特征在于，还包括：

9.一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-4任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-4任一项所述方法的步骤。