CN102523311B

CN102523311B - 非法域名识别方法及装置

Info

Publication number: CN102523311B
Application number: CN201110382578.4A
Authority: CN
Inventors: 尉迟学彪; 金键; 李晓东; 黄向阳
Original assignee: Computer Network Information Center of CAS
Current assignee: China Internet Network Information Center
Priority date: 2011-11-25
Filing date: 2011-11-25
Publication date: 2014-08-06
Anticipated expiration: 2031-11-25
Also published as: CN102523311A

Abstract

本发明提供一种非法域名识别方法及装置，该非法域名识别方法包括：获取域名访问行为信息，根据所述域名访问行为信息生成共现矩阵，所述共现矩阵中的元素用以指示所述元素所在的行对应的用户对所述元素所在的列对应的域名的访问次数；根据聚类算法对所述共现矩阵进行聚类分析，将所述共现矩阵中各列对应的域名划分为多个域名子集；根据非法域名列表确定各所述域名子集中域名的合法性。该非法域名识别装置包括共现矩阵生成模块、域名子集划分模块和合法性确定模块。本发明提供的非法域名识别方法及装置，针对了非法域名的特殊性，对域名间潜在的关联进行分析，以将非法域名和合法域名区分开，提高了非法网站的识别效率。

Description

非法域名识别方法及装置

技术领域

本发明涉及信息技术，尤其涉及一种非法域名识别方法及装置。

背景技术

域名是互联网的基础资源，相当于互联网上的门牌号码，是用于标识互联网上的计算机，是网站、电子邮箱等各种互联网应用的载体。非法域名是指以从事反动、涉黄、赌博网站等不良应用为目的或者其他非正常应用而存在的域名。

目前，针对非法域名的识别主要有两种方法。一是相关域名管理机构通过对域名相关注册信息、所辖网站内容等进行审核，人工判断该域名是否涉嫌非法。二是利用网页抽取、文本挖掘等技术手段对相关网站内容的语义分析来达到非法域名自动识别的目的。

上述两种方式非法域名识别的方法，在实际应用中都存在一定程度的弊端。第一种人工识别方式通常需要耗费大量的人力物力，效率低下，面对千万计的域名注册量，这种方法显然不能对非法域名实现及时有效的识别。第二种自动识别方式，虽然在一定程度上弥补了上述方式的不足，然而海量域名下网站内容的抽取入库过程依然繁琐，不仅需要耗费大量的存储资源，还要考虑该库的实时更新问题。另外，通过相关文本挖掘算法对入库后的内容进行分析的过程同样复杂且存在效率低下的问题。

发明内容

本发明提供一种非法域名识别方法及装置，以提高非法域名的识别效率。

本发明提供一种非法域名识别方法，包括：

获取域名访问行为信息，根据所述域名访问行为信息生成共现矩阵，所述共现矩阵中的元素用以指示所述元素所在的行对应的用户对所述元素所在的列对应的域名的访问次数；

根据聚类算法对所述共现矩阵进行聚类分析，将所述共现矩阵中各列对应的域名划分为多个域名子集；

根据非法域名列表确定各所述域名子集中域名的合法性。

本发明提供一种非法域名识别装置，包括：

共现矩阵生成模块，用于获取域名访问行为信息，根据所述域名访问行为信息生成共现矩阵，所述共现矩阵中的元素用以指示所述元素所在的行对应的用户对所述元素所在的列对应的域名的访问次数；

域名子集划分模块，用于根据聚类算法对所述共现矩阵进行聚类分析，将所述共现矩阵中各列对应的域名划分为多个域名子集；

合法性确定模块，用于根据非法域名列表确定各所述域名子集中域名的合法性。

由上述技术方案可知，本发明提供的非法域名识别方法及装置，通过对根据域名访问行为信息生成共现矩阵，根据聚类算法对共现矩阵进行聚类分析，将共现矩阵中各列对应的域名划分为多个域名子集，根据非法域名列表确定各域名子集中域名的合法性。针对了非法域名的特殊性，其面向的互联网用户群体与正常域名所面向的用户群体会表现出较大的差异的特点，对域名间潜在的关联进行分析，以将非法域名和合法域名区分开，提高了非法网站的识别效率。

附图说明

图1为本发明实施例提供的非法域名识别方法流程图；

图2为本发明实施例提供的非法域名识别装置结构示意图。

具体实施方式

图1为本发明实施例提供的非法域名识别方法流程图。如图1所示，本实施例提供的非法域名识别方法具体可以应用于对域名合法性的识别分析，可以通过非法域名识别装置来执行，该非法域名识别装置可以为服务器。

本实施例提供的非法域名识别方法具体包括：

步骤10、获取域名访问行为信息，根据域名访问行为信息生成共现矩阵，共现矩阵中的元素用以指示元素所在的行对应的用户对元素所在的列对应的域名的访问次数；

域名访问行为信息具体可以为预设时间段内的用户访问域名行为的信息，该域名访问行为信息可以从递归服务器或者权威服务器中获取。对域名访问行为信息中的域名访问数据进行数据抽取，假设经过抽取后的用户集合为U＝{u₁，u₂，...，u_M}，域名集合为D＝{d₁，d₂，...，d_N}，将用户的域名访问行为抽象为集合U与集合D之间交互关系，如图2所示。这种交互关系进一步表示为用户与域名之间的M×N阶共现矩阵UD：

UD＝[w(u_m，d_n)]M×N；

其中，w(u_m，d_n)为该段时间内用户u_m与域名d_n的共现次数，即用户u_m对域名d_n的访问次数。

步骤20、根据聚类算法对共现矩阵进行聚类分析，将共现矩阵中各列对应的域名划分为多个域名子集；

聚类算法具体可以为潜在语义分析(Latent Semantic Analysis，简称LSA)算法或概率潜在语义分析(Probability Latent Semantic Analysis，简称PLSA)算法等。根据聚类算法对共现矩阵进行聚类分析，将共现矩阵中各列对应的域名划分为多个域名子集，每个域名子集至少包含了一个域名，域名子集中的各域名的访问行为具有相似性。

步骤30、根据非法域名列表确定各域名子集中域名的合法性。

非法域名列表中包含了已经确定的非法域名，这些已经确定的非法域名可以为从网络中公开信息中获取的，也可以为相关部门提供的，还可以为通过网页抽取和文本挖掘技术获取到的。将划分后的各域名子集，分别与已知的非法域名列表进行比较，如果某一域名子集中含有一部分或者全部已知非法域名列表中的域名，则该子集中的域名可被视为非法的域名集合，该域名集合中的域名为非法域名。

由于非法域名的特殊性，其面向的互联网用户群体往往会相对独立和集中，并且与正常域名所面向的用户群体会表现出较大的差异。对非法域名有特殊兴趣的互联网用户，其域名查询行为，必定有别于与其兴趣不同的互联网用户群体。换句话说，非法域名间潜在的关联关系会更强，非法域名比合法域名间的独立性会更高。因此，根据互联网用户与域名间的共现关系来对域名集合进行划分，可以有效的将非法域名和合法域名区分开来。

本实施例提供的非法域名识别方法，通过对根据域名访问行为信息生成共现矩阵，根据聚类算法对共现矩阵进行聚类分析，将共现矩阵中各列对应的域名划分为多个域名子集，根据非法域名列表确定各域名子集中域名的合法性。针对了非法域名的特殊性，其面向的互联网用户群体与正常域名所面向的用户群体会表现出较大的差异的特点，对域名间潜在的关联进行分析，以将非法域名和合法域名区分开，提高了非法网站的识别效率。

在本实施例中，步骤30，根据非法域名列表确定各域名子集中域名的合法性，具体可以包括如下步骤：

步骤301、将域名子集中的域名与非法域名列表中的域名进行比较，若域名子集与非法域名列表中相同的域名的数量大于预设阈值，则确定域名子集中的域名为非法域名。

预设阈值具体可以根据实际的非法域名识别准确度需要来设置。

进一步地，确定域名子集中的域名为涉嫌非法域名之后，具体还可以包括如下步骤：

步骤302、将非法域名作为一级非法域名，对一级非法域名中与非法域名列表中的域名不同的域名对应的网站进行文本挖掘，若判断获知一级非法域名对应的网站中包含非法信息，则将一级非法域名确定为二级非法域名。

可以设置非法域名的等级，将大量的域名经过上述步骤的分析处理后，获得小范围的非法域名的集合，将这些非法域名作为一级非法域名。再对一级非法域名进行进一步地的处理，可以采用文本挖掘的方法获取域名对应网站内容，并对网站内容中非法信息进行判断，若判断获知一级非法域名对应的网站中包含非法信息，则将一级非法域名确定为二级非法域名。通过对一级非法域名进行进一步的识别，可以提高非法域名识别的准确性。

在本实施例中，优选地，聚类算法为概率潜在语义分析(PLSA)算法。根据概率潜在语义分析算法对共现矩阵进行聚类分析，将共现矩阵中各列对应的域名划分为多个域名子集的实现方式具体如下：

定义类别的集合Z＝{z₁，z₂，...，z_c}，类别的数量c可以根据用户集合U和域名集合D的大小情况来设置，并可以根据分类的质量来选择一个最佳值。具体的，高质量的类别划分应使相同类别内的域名访问行为相似性最高，而不同类别间的域名访问行为相似性最低。为了对类别划分的质量进行量化评估，对于每个类别k，计算该类别的独立程度C_k：

C_k＝C_ki/C_ko；

其中C_ki表示类别k内部的域名集合和用户集合间的交互程度，C_ko表示类别k与其他类别间的交互程度。

C_{ki} = \frac{1}{| U_{k} | | D_{k} |} Σ_{i &Element; U_{k}, j &Element; D_{k}} w (u_{i}, d_{j});

C_{ko} = Σ_{k^{'} = 1, k^{'} &NotEqual; k}^{c} \frac{1}{| U_{k} | | D_{k^{'}} | + | U_{k^{'}} | | D_{k} |} Σ_{k^{'} = 1, k^{'} &NotEqual; k}^{c} (Σ_{i &Element; U_{k}, j &Element; D_{k^{'}}} w (u_{i}, d_{j}) + Σ_{i &Element; U_{k^{'}}, j &Element; D_{k}} w (u_{i}, d_{j}));

其中，U_k和D_k分别代表类别k中的用户集合和域名集合。

则对于一个被划分为类别总数为c的对象集合，其总体分类质量C_C可以表示为：

C_{C} = \frac{1}{c} Σ_{k = 1}^{c} C_{k};

由此，对于不同的列别数量c，可以选择一个能够使C_C值达到最优的作为类别的最终数量。

从用户集合U中选择一个用户u_i，概率为Pr(u_i)，为用户u_i分配一个类别z_k，概率为Pr(z_k|u_i)，从域名集合D中选取一个域名d_j，概率为Pr(d_j|z_k)。

则用户u_i与域名d_j间存在访问行为的联合概率Pr(u_i，d_j)为：

Pr(u_i，d_j)＝Pr(u_i)Pr(d_j|u_i)；

其中，

\Pr (d_{j} | u_{i}) = Σ_{k = 1}^{C} \Pr (d_{j} | z_{k}) \Pr (z_{k} | u_{i});

根据贝叶斯定理，该联合概率Pr(u_i，d_j)可以转化为：

\Pr (u_{i}, d_{j}) = Σ_{k = 1}^{C} \Pr (z_{k}) \Pr (u_{i} | z_{k}) \Pr (d_{j} | z_{k});

定义用于描述联合概率期望的似然函数L(U，D)：

L (U, D) = Σ_{i = 1}^{M} Σ_{j = 1}^{N} w (u_{i}, d_{j}) \log \Pr (u_{i}, d_{j});

则为使该似然函数L(U，D)的值达到最大，需要对Pr(z_k)，Pr(u_i|z_k)和Pr(d_j|z_k)三类参数进行估计。

首先设定上述三类参数的初始值，然后，可以通过E-M算法(Expectation-Maximization)对该三类参数进行极大似然估计。该过程迭代执行以下两个步骤：

计算条件概率Pr(z_k|u_j，d_j)：

\Pr (z_{k} | u_{i}, d_{j}) = \frac{\Pr (z_{k}) \Pr (u_{i} | z_{k}) \Pr (d_{j} | z_{k})}{Σ_{k^{'} = 1}^{C} \Pr (z_{k^{'}}) \Pr (u_{i} | z_{k^{'}}) \Pr (d_{j} | z_{k^{'}})};

将条件概率Pr(z_k|u_i，d_j)代入完全似然期望E(L^C)，初始值设为0：

则

E (LC) = Σ_{i = 1}^{M} Σ_{i = 1}^{N} w (u_{i}, d_{j}) Σ_{k = 1}^{C} \Pr (z_{k} | u_{i}, d_{j}) \log \Pr (u_{i}, d_{j});

判断当前E(L^C)是否大于旧值，若是，继续执行以下步骤；否则终止该迭代过程。

利用上述公式求得的Pr(z_k|u_i，d_j)，分别求得上述三类参数的更新值：

\Pr (z_{k}) = \frac{Σ_{i = 1}^{M} Σ_{j = 1}^{N} w (u_{i}, d_{j}) \Pr (z_{k} | u_{i}, d_{j})}{Σ_{i = 1}^{M} Σ_{j = 1}^{N} Σ_{k^{'} = 1}^{C} w (u_{i}, d_{j}) \Pr (z_{k^{'}} | u_{i}, d_{j})} = \frac{Σ_{i = 1}^{M} Σ_{j = 1}^{N} w (u_{i}, d_{j}) \Pr (z_{k} | u_{i}, d_{j})}{Σ_{i = 1}^{M} Σ_{j = 1}^{N} w (u_{i}, d_{j})};

\Pr (u_{i} | z_{k}) = \frac{Σ_{j = 1}^{N} w (u_{i}, d_{j}) \Pr (z_{k} | u_{i}, d_{j})}{Σ_{i^{'} = 1}^{M} Σ_{j = 1}^{N} w (u_{i}, d_{j}) \Pr (z_{k} | u_{i^{'}}, d_{j})};

\Pr (d_{j} | z_{k}) = \frac{Σ_{i = 1}^{N} w (u_{i}, d_{j}) \Pr (z_{k} | u_{i}, d_{j})}{Σ_{i^{'} = 1}^{M} Σ_{j^{'} = 1}^{N} w (u_{i}, d_{j^{'}}) \Pr (z_{k} | u_{i^{'}}, d_{j^{'}})};

将上述求得的三类参数代入计算条件概率的公式中，迭代执行上述步骤，直至终止。迭代过程结束以后，根据所求得的Pr(z_k)和Pr(u_i|z_k)可以求得某一个用户u_i属于类别z_k概率：

\Pr (z_{k} | u_{i}) = \frac{\Pr (u_{i} | z_{k}) \Pr (z_{k})}{Σ_{k^{'} = 1}^{C} \Pr (u_{i} | z_{k^{'}}) \Pr (z_{k^{'}})};

对所有的z_k，1≤k≤C，计算概率Pr(z_k|u_i)的值，其中的最大值所对应的k即是用户u_i所属的类别。依此对所有的互联网用户进行计算，就可以得到所有用户的类别属性，由此达到对互联网用户进行类别划分的目的。

图2为本发明实施例提供的非法域名识别装置结构示意图。如图2所示，本实施例提供非法域名识别装置具体可以实现本发明任意实施例提供的非法域名识别方法的各个步骤，此不再赘述。

本实施例提供的非法域名识别装置具体包括共现矩阵生成模块11、域名子集划分模块12和合法性确定模块13。共现矩阵生成模块11用于获取域名访问行为信息，根据域名访问行为信息生成共现矩阵，共现矩阵中的元素用以指示元素所在的行对应的用户对元素所在的列对应的域名的访问次数。域名子集划分模块12用于根据聚类算法对共现矩阵进行聚类分析，将共现矩阵中各列对应的域名划分为多个域名子集。合法性确定模块13用于根据非法域名列表确定各域名子集中域名的合法性。

本实施例提供的非法域名识别装置，通过共现矩阵生成模块11的设置对根据域名访问行为信息生成共现矩阵，域名子集划分模块12根据聚类算法对共现矩阵进行聚类分析，将共现矩阵中各列对应的域名划分为多个域名子集，合法性确定模块13根据非法域名列表确定各域名子集中域名的合法性。针对了非法域名的特殊性，其面向的互联网用户群体与正常域名所面向的用户群体会表现出较大的差异的特点，对域名间潜在的关联进行分析，以将非法域名和合法域名区分开，提高了非法网站的识别效率。

在本实施例中，合法性确定模块13还用于将域名子集中的域名与非法域名列表中的域名进行比较，若域名子集与非法域名列表中相同的域名的数量大于预设阈值，则确定域名子集中的域名为非法域名。

在本实施例中，合法性确定模块13还用于将非法域名作为一级非法域名，对一级非法域名中与非法域名列表中的域名不同的域名对应的网站进行文本挖掘，若判断获知一级非法域名对应的网站中包含非法信息，则将一级非法域名确定为二级非法域名。

在本实施例中，域名子集划分模块12还用于根据概率潜在语义分析算法对共现矩阵进行聚类分析，将共现矩阵中各列对应的域名划分为多个域名子集。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种非法域名识别方法，其特征在于，包括：

根据聚类算法对所述共现矩阵进行聚类分析，将所述共现矩阵中各列对应的域名划分为多个域名子集，其中每个所述域名子集中的各域名的访问行为具有相似性；

根据非法域名列表确定各所述域名子集中域名的合法性。

2.根据权利要求1所述的非法域名识别方法，其特征在于，所述根据非法域名列表确定各所述域名子集中域名的合法性，包括：

将所述域名子集中的域名与所述非法域名列表中的域名进行比较，若所述域名子集与所述非法域名列表中相同的域名的数量大于预设阈值，则确定所述域名子集中的域名为非法域名。

3.根据权利要求2所述的非法域名识别方法，其特征在于，所述确定所述域名子集中的域名为涉嫌非法域名之后，还包括：

将所述非法域名作为一级非法域名，对所述一级非法域名中与所述非法域名列表中的域名不同的域名对应的网站进行文本挖掘，若判断获知所述一级非法域名对应的网站中包含非法信息，则将所述一级非法域名确定为二级非法域名。

4.根据权利要求1所述的非法域名识别方法，其特征在于：所述聚类算法为概率潜在语义分析算法。

5.一种非法域名识别装置，其特征在于，包括：

域名子集划分模块，用于根据聚类算法对所述共现矩阵进行聚类分析，将所述共现矩阵中各列对应的域名划分为多个域名子集，其中每个所述域名子集中的各域名的访问行为具有相似性；

6.根据权利要求5所述的非法域名识别装置，其特征在于：所述合法性确定模块还用于将所述域名子集中的域名与所述非法域名列表中的域名进行比较，若所述域名子集与所述非法域名列表中相同的域名的数量大于预设阈值，则确定所述域名子集中的域名为非法域名。

7.根据权利要求6所述的非法域名识别装置，其特征在于：所述合法性确定模块还用于将所述非法域名作为一级非法域名，对所述一级非法域名中与所述非法域名列表中的域名不同的域名对应的网站进行文本挖掘，若判断获知所述一级非法域名对应的网站中包含非法信息，则将所述一级非法域名确定为二级非法域名。

8.根据权利要求5所述的非法域名识别装置，其特征在于：所述域名子集划分模块还用于根据概率潜在语义分析算法对所述共现矩阵进行聚类分析，将所述共现矩阵中各列对应的域名划分为多个域名子集。