CN108200034B

CN108200034B - 一种识别域名的方法及装置

Info

Publication number: CN108200034B
Application number: CN201711448436.7A
Authority: CN
Inventors: 孙松儿; 张力
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2021-01-29
Anticipated expiration: 2037-12-27
Also published as: CN108200034A

Abstract

本发明实施例提供了一种识别域名的方法及装置，属于通信技术领域。所述方法包括：接收终端发送的域名解析请求，所述域名解析请求中携带有待解析的域名；根据预设的转移概率算法，确定所述域名的转移概率，并根据预设的语义特征识别算法，确定所述域名对应的语义特征信息；根据预设的分类模型、以及所述域名对应的转移概率和语义特征信息，判断所述域名是否为合法域名，如果是，则向所述终端发送响应消息，所述响应消息中携带有所述域名对应的IP地址。采用本发明实施例，可以提高识别域名的准确度。

Description

一种识别域名的方法及装置

技术领域

本申请涉及通信技术领域，特别是涉及一种识别域名的方法及装置。

背景技术

互联网中的终端在访问网络的过程中，会根据需要访问的网络设备的(可称为目标接收设备)网际协议(英文：Internet Protocol，简称：IP)地址，向目标接收设备发送数据报文。具体过程为：终端向域名系统(英文：Domain Name System，简称：DNS)服务器发送携带有该目标接收设备的域名的域名解析请求，DNS服务器根据预先存储的域名和IP地址的对应关系，确定该域名对应的IP地址，然后向该终端发送携带有该IP地址的响应消息，以使该终端可以通过该IP地址向目标接收设备发送数据报文。

在实际中，终端可能会被病毒程序感染，被感染的终端会与恶意服务器进行数据传输，给终端带来了很大安全风险。为了阻止被感染的电子设备与恶意服务器之间的数据传输，技术人员会收集非法域名，然后在DNS服务器中设置域名黑名单。DNS服务器接收到域名解析请求后，会判断该域名解析请求中携带的域名是否为域名黑名单中的域名，如果是，则不会向该终端发送响应消息，以避免该终端向恶意服务器发送数据报文，如果不是，则发送响应消息。

然而，非法域名的数量巨大且更新周期很短，通过人工难以及时、全面的收集非法域名，这样，DNS服务器将无法识别出域名黑名单以外的非法域名，导致识别域名的准确度较低。

发明内容

本发明实施例的目的在于提供一种识别域名的方法及装置，以实现提高识别域名的准确度的技术效果。具体技术方案如下：

第一方面，提供了一种识别域名的方法，所述方法包括：

接收终端发送的域名解析请求，所述域名解析请求中携带有待解析的域名；

根据预设的转移概率算法，确定所述域名的转移概率，并根据预设的语义特征识别算法，确定所述域名对应的语义特征信息；

根据预设的分类模型、以及所述域名对应的转移概率和语义特征信息，判断所述域名是否为合法域名；

如果所述域名是合法域名，则向所述终端发送响应消息，所述响应消息中携带有所述域名对应的IP地址。

可选的，所述根据预设的转移概率算法，确定所述域名的转移概率，包括：

根据预设的特征提取规则，从所述域名中提取特征字符组合，得到所述域名对应的第一特征集合；

根据预先存储的特征字符组合与转移概率的对应关系，分别确定所述第一特征集合包含的各特征字符组合对应的转移概率；

根据所述第一特征集合包含的各特征字符组合对应的转移概率，确定所述域名对应的转移概率。

可选的，所述根据所述第一特征集合包含的各特征字符组合对应的转移概率，确定所述域名对应的转移概率，包括：

根据所述第一特征集合包含的各特征字符组合对应的转移概率的乘积，确定所述域名对应的转移概率。

可选的，所述根据预设的特征提取规则，从所述域名中提取特征字符组合，包括：

在所述域名中，确定除预设前缀和预设后缀以外的字符串；

在确定出的字符串中，提取包含预设数目个连续字符的字符组合。

可选的，所述方法还包括：

获取目标样本集合，所述目标样本集合包括多个样本合法域名；

根据预设的特征提取规则，分别从各样本合法域名中提取特征字符组合，得到所述目标样本集合对应的样本特征集合；

针对预设的任一字符和/或字符组合，在所述样本特征集合中确定以该字符和/或字符组合作为起始字符的特征字符组合，得到每个字符和/或字符组合对应的第二特征集合；

针对确定出的任一特征字符组合，根据该特征字符组合在所述多个样本合法域名中的出现次数，与该特征字符组合所属的第二特征集合中各特征字符组合在所述多个样本合法域名中的出现总次数的比值，确定该特征字符组合对应的转移概率；

根据所述样本特征集合中各特征字符组合对应的转移概率，建立所述特征字符组合与转移概率的对应关系。

可选的，所述方法还包括：

获取预先存储的训练样本集合，所述训练样本集合包括多个训练正样本和多个训练负样本，所述训练正样本包括所述目标样本集合中的样本合法域名、所述样本合法域名对应的转移概率和所述样本合法域名对应的语义特征信息；所述训练负样本包括样本非法域名、所述样本非法域名对应的转移概率和所述样本非法域名对应的语义特征信息；

基于所述训练样本集合和预设的分类模型训练算法，确定所述分类模型。

第二方面，提供了一种识别域名的装置，所述装置包括：

接收模块，用于接收终端发送的域名解析请求，所述域名解析请求中携带有待解析的域名；

第一确定模块，用于根据预设的转移概率算法，确定所述域名的转移概率，并根据预设的语义特征识别算法，确定所述域名对应的语义特征信息；

处理模块，用于根据预设的分类模型、以及所述域名对应的转移概率和语义特征信息，判断所述域名是否为合法域名；

发送模块，用于如果所述域名是合法域名，则向所述终端发送响应消息，所述响应消息中携带有所述域名对应的IP地址。

可选的，所述第一确定模块，具体用于：

在所述域名中，确定除预设前缀和预设后缀以外的字符串；

可选的，所述装置还包括：

第一获取模块，用于获取目标样本集合，所述目标样本集合包括多个样本合法域名；

提取模块，用于根据预设的特征提取规则，确定所述目标样本集合对应的样本特征集合；

第二确定模块，用于针对预设的任一字符和/或字符组合，在所述样本特征集合中确定以该字符和/或字符组合作为起始字符的特征字符组合，得到每个字符和/或字符组合对应的第二特征集合；

第三确定模块，用于针对确定出的任一特征字符组合，根据该特征字符组合在所述多个样本合法域名中的出现次数，与该特征字符组合所属的第二特征集合中各特征字符组合在所述多个样本合法域名中的出现总次数的比值，确定该特征字符组合对应的转移概率；

建立模块，用于根据所述样本特征集合中各特征字符组合对应的转移概率，建立所述特征字符组合与转移概率的对应关系。

可选的，所述装置还包括：

第二获取模块，用于获取预先存储的训练样本集合，所述训练样本集合包括多个训练正样本和多个训练负样本，所述训练正样本包括所述目标样本集合中的样本合法域名、所述样本合法域名对应的转移概率和所述样本合法域名对应的语义特征信息；所述训练负样本包括样本非法域名、所述样本非法域名对应的转移概率和所述样本非法域名对应的语义特征信息；

第四确定模块，用于基于所述训练样本集合和预设的分类模型训练算法，确定所述分类模型。

本发明实施例提供的识别域名的方法，服务器在接收到终端发送的域名解析请求后，会根据预设的转移概率算法，确定域名的转移概率。根据预设的语义特征识别算法，服务器确定域名对应的语义特征信息，进而根据预设的分类模型、以及域名对应的转移概率和语义特征信息，判断域名是否为合法域名。如果域名是合法域名，则服务器向终端发送携带域名对应的IP地址的响应消息。这样，服务器可以根据域名的转移概率和语义特征信息来识别该域名是否是非法域名，无需在服务器中设备域名黑名单，提高了识别域名的准确度。当然，实施本申请的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种识别域名的方法流程图；

图2为本发明实施例提供的一种识别域名的方法流程图；

图3为本发明实施例提供的一种识别域名的方法流程图；

图4为本发明实施例提供的一种识别域名的装置的结构示意图；

图5为本发明实施例提供的一种识别域名的装置的结构示意图；

图6为本发明实施例提供的一种识别域名的装置的结构示意图；

图7为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1

本发明实施例提供了一种识别域名的方法，该方法可以应用于具有域名解析功能的服务器。比如，DNS服务器。当某终端(可称为源终端)需要向某网络设备(可称为目标接收设备)发送数据时，源终端先获取目标接收设备的域名，比如用户需要访问某网站时，需要先输入该网站的域名。源终端会向该服务器发送携带有该域名的域名解析请求，服务器则会根据预先存储的域名和IP地址的对应关系，确定该域名对应的IP地址。然后，服务器将该IP地址发送给源终端，以使源终端可以通过该IP地址向目标接收设备发送数据报文。

本发明实施例中，服务器接收待处理的数据报文后，可以确定该数据报文中的域名的转移概率和语义特征信息，进而将该域名的转移概率和语义特征信息输入到预先训练的分类模型中，输出该域名对应的分类结果。通过本发明实施例提供的识别域名的方法，可以提高识别域名的准确度，从而提高用户数据的安全性。如图1所示，该方法的处理过程可以如下：

步骤101，接收终端发送的域名解析请求。

其中，域名解析请求中携带有待解析的域名。

在本发明实施例中，当源终端需要向目标接收设备发送的数据报文时，会先向该服务器发送域名解析请求，该域名解析请求中携带有目标接收设备的域名(即待解析的域名)。服务器接收到该数据报文后，对该数据报文进行解析，获取该数据报文中携带的待解析的域名。其中，目标接收设备是具有域名的网络设备，可以是主机、服务器或虚拟机等。

步骤102，根据预设的转移概率算法，确定域名的转移概率，并根据预设的语义特征识别算法，确定域名对应的语义特征信息。

在本发明实施例中，服务器中预先存储转移概率算法和语义特征识别算法。转移概率算法可以为马尔科夫链概率值算法或现有技术中的其他转移概率算法；语义特征识别算法可以是用于识别域名的语义特征的算法。

语义特征可以包括香农熵、元音占比、数字占比、重复字符占比、特殊字符占比、连续数字占比、连续元音占比中的一种或多种的组合，或者，还可以包括现有技术中的其他语义特征，本实施例不做限定。

其中，香农熵可以反映域名所包含的字符串含信息量的大小；元音占比是域名所包含的字符串中，元音字符的数目在该域名的字符总数中所占比例；数字占比是域名所包含的字符串中，数字字符的数目在该域名的字符总数中所占比例；重复字符占比是域名所包含的字符串中，重复的字符的数目在该域名的字符总数中所占比例；特殊字符占比是域名所包含的字符串中，预设的特殊字符的数目在该域名的字符总数中所占比例；连续数字占比是域名所包含的字符串中，连续的数字字符的数目在该域名的字符总数中所占比例；连续元音占比是域名所包含的字符串中，连续的元音字符的数目在该域名的字符总数中所占比例。语义特征识别算法为现有技术，本发明实施例不再赘述。

当服务器获取到域名后，根据预设的转移概率算法，确定域名的转移概率，并根据预设的语义特征识别算法，确定域名对应的语义特征信息，以便判断该域名是否合法。

可选的，域名的转移概率的计算过程可以如下：根据预设的特征提取规则，从域名中提取特征字符组合，得到域名对应的第一特征集合；根据预先存储的特征字符组合与转移概率的对应关系，分别确定第一特征集合包含的各特征字符组合对应的转移概率；根据第一特征集合包含的各特征字符组合对应的转移概率，确定域名对应的转移概率。

在实施中，服务器中预先存储特征提取规则。例如，可以采用Ngram词组提取算法得到Ngram集合(即特征集合)。基于该特征提取规则，从某一个单词或字符串中，提取包含预设数目个连续字符的字符组合。

本发明实施例中，采用2gram、3gram和4gram中的一种或多种的组合。以单词google为例，基于2gram进行特征提取时，预设数目为2，提取得到特征字符组合为go、oo、og、gl和le；基于3gram进行特征提取时，预设数目为3，提取得到特征字符组合为goo、oog、ogl和gle；基于4gram进行特征提取时，预设数目为4，提取得到特征字符组合为goog、oogl和ogle。当服务器获取到域名后，服务器根据预设的特征提取规则，从该域名中提取特征字符组合，得到域名对应的特征集合(即第一特征集合)。

服务器中还预先存储特征字符组合与转移概率的对应关系，该对应关系可以由技术人员进行设置；或者，由服务器根据预设的目标样本集合计算得到，具体的计算过程后续会进行详细说明。本发明实施例中，该对应关系以转移矩阵的形式进行存储，以2gram为例，该转移矩阵可以如表一所示：

表一

	a	b	…	9	0	-	.
								a	0.001	0.05	0.05	0.006	0.012	0.035
b	0.05	0.09		0.007	0.008	0.045	0.089
								…
9	0.04			0.09	0.03	0.008	0.007
								0	0.05		0.004	0.04	0.004	0.003
-	0.001			0.006	0.008	0.018	0.015
								.	0.03		0.005	0.003	0.035	0.046

其中，行中的字符为起始字符，列中的字符为与起始字符进行组合的组合字符。

针对第一特征集合中的每个特征字符组合，服务器从该对应关系中获取该特征字符组合对应的转移概率。然后，根据该第一特征集合包含的各特征字符组合对应的转移概率，服务器计算域名对应的转移概率。

本实施例中，服务器获取到该第一特征集合包含的各特征字符组合对应的转移概率后，可以计算这些转移概率的乘积，得到该域名对应的转移概率。

例如，以google为例，基于2gram进行特征提取时，提取得到特征字符组合为go、oo、og、gl和le。服务器分别查找go对应的转移概率(可记为P_go)、oo对应的转移概率(可记为Poo)、og对应的转移概率(可记为Po_g)、gl对应的转移概率(可记为P_gl)和le对应的转移概率(可记为P_le)。然后，服务器计算出该域名在该特征提取规则下对应的转移概率P_2gram＝P_go*Poo*Po_g*P_gl*P_le。或者，该转移矩阵中存储的转移概率为未进行Log计算的概率。相应的，服务器在计算出乘积后，需要对该乘积进行Log计算的，得到该域名的转移概率。

需要说明的是，如果采用多种特征提取规则分别对该域名进行特征提取，则得到多个第一特征集合。服务器针对每个第一特征集合，分别计算该域名在不同特征提取规则下的转移概率，得到该域名对应的多个转移概率。例如，以google为例，基于3gram进行特征提取时，提取得到特征字符组合为goo、oog、ogl和gle，服务器分别查找goo对应的转移概率(可记为P_goo)、oog对应的转移概率(可记为Poo_g)、ogl对应的转移概率(可记为Po_gl)、gle对应的转移概率(可记为P_gle)。然后，服务器计算出该域名在该特征提取规则下对应的转移概率P_3gram＝P_goo*Poo_g*Po_gl*P_gle。

可选的，在提取第一特征集合时，可以先在域名中，确定除预设前缀和预设后缀以外的字符串，然后在确定出的字符串中，提取包含预设数目个连续字符的字符组合。

在本发明实施例中，为了提高处理效率，服务器在提取第一特征集合时，可以先从域名中提取具有标识性含义的字符串。

具体的，服务器中存储域名中常用的预设前缀和预设后缀。其中，预设前缀可以为网络名，比如www.、“ftp.”和“smtp.”等；预设后缀可以为顶级域名，比如“.com”、“.net”、“.edu”和“.gov”等”。服务器识别域名中包含的预设前缀和预设后缀，然后提取出除预设前缀和预设后缀以外的字符串。例如，对于www.google.com，提前除www.和.com以外的字符串，得到google。服务器在确定出的字符串中，提取包含预设数目个连续字符的字符组合。

步骤103，根据预设的分类模型、以及域名对应的转移概率和语义特征信息，判断域名是否为合法域名。在本发明实施例中，服务器中存储有分类模型，该分类模型是预先训练得到的，具体的训练过程后续会进行详细说明。服务器确定出该域名对应的转移概率和语义特征信息后，将该域名对应的转移概率和语义特征信息输入到该分类模型中，进而输出该域名所属的分类类别，即非法域名或合法域名。

步骤104，如果域名是合法域名，则向终端发送响应消息，响应消息中携带有域名对应的IP地址。

在本发明实施例中，如果该域名为合法域名，服务器则会根据预先存储的域名和IP地址的对应关系，确定该域名对应的IP地址，进而将确定出的IP地址发送给该终端，以使该终端通过该IP地址向目标接收设备发送数据报文。如果该域名为非法域名，服务器则不会向该终端发送响应消息，或者发送对应该域名的提示信息，该提示信息用于表示该终端请求解析的域名为非法域名。

采用本发明实施例提供的识别域名的方法，服务器在接收到终端发送的域名解析请求后，会根据预设的转移概率算法，确定域名的转移概率。根据预设的语义特征识别算法，服务器确定域名对应的语义特征信息，进而根据预设的分类模型、以及域名对应的转移概率和语义特征信息，判断域名是否为合法域名。如果域名是合法域名，则服务器向终端发送携带域名对应的IP地址的响应消息。这样，服务器可以根据域名的转移概率和语义特征信息来识别该域名是否是非法域名，无需在服务器中设备域名黑名单，提高了识别域名的准确度。技术人员对该方法进行了实验验证，最近实验结果运行在spark平台上，测试集包含30032个正样本和19928个负样本，效果为：正确率91.3％；识别率为87.7％；误报率为9.6％。

实施例2

在本发明实施例中，还提供了一种建立特征字符组合与转移概率的对应关系的方法，如图2所示，该方法的处理过程可以如下：

步骤201，获取目标样本集合。

在本发明实施例中，服务器获取技术人员输入的目标样本集合，或者，通过开源项目收集域名白名单库，得到目标样本集合。目标样本集合包括多个样本合法域名。

步骤202，根据预设的特征提取规则，分别从各样本合法域名中提取特征字符组合，得到目标样本集合对应的样本特征集合。

在本发明实施例中，针对每个样本合法域名，服务器通过预设的特征提取规则，从该样本合法域名中提取特征字符组合，得到该样本合法域名对应的特征集合，进而确定每个样本合法域名对应的特征集合的并集，得到目标样本集合对应的样本特征集合。

步骤203，针对预设的任一字符和/或字符组合，在样本特征集合中确定以该字符和/或字符组合作为起始字符的特征字符组合，得到每个字符和/或字符组合对应的第二特征集合。

在本发明实施例中，服务器中还存储预设的字符和/或字符组合，这些字符和/或字符组合是在域名中的出现概率大于预设阈值的字符和/或字符组合，这些字符和/或字符组合可以由技术人员进行设置。例如，表一中，行中的字符和列中的字符即为预设的字符。

针对预设的每一字符和/或字符组合，服务器在样本特征集合中，确定以该字符和/或字符组合作为起始字符的特征字符组合。需要说明的，特征提取规则为提取N个连续字符时，其对应的预设的字符和/或字符组合所包含的字符数目为N-1。

例如，特征提取规则为2gram，样本特征集合为{ab,ac,dc,go,de,mm}，预设的字符为a，则服务器可以在样本特征集合中，确定以a作为起始字符的特征字符组合为ab和ac。

又如，特征提取规则为3gram，样本特征集合为{abc,abe,dce,gol,deg,mmd}，预设的字符组合可以为ab，则服务器在样本特征集合中，确定以ab作为起始字符的特征字符组合为abc和abe。这样，针对预设的每个字符和字符组合，服务器确定对应的特征字符组合，得到每个字符和/或字符组合对应的第二特征集合。

步骤204，针对确定出的任一特征字符组合，根据该特征字符组合在多个样本合法域名中的出现次数，与该特征字符组合所属的第二特征集合中各特征字符组合在多个样本合法域名中的出现总次数的比值，确定该特征字符组合对应的转移概率。

在本发明实施例中，针对确定出的任一特征字符组合，服务器统计该特征字符组合在上述多个样本合法域名中的出现次数。服务器还统计该特征字符组合所属的第二特征集合中各特征字符组合在多个样本合法域名中的出现次数，进而计算该第二特征集合中，各特征字符组合在目标样本集合中的出现次数之和，得到出现总次数。

服务器计算该特征字符组合的出现次数，与该出现总次数的比值，进而根据该比值，确定该特征字符组合对应的转移概率。服务器将样本特征集合中各特征字符组合，与其对应的转移概率进行对应的存储，从而建立特征字符组合与转移概率的对应关系(即生成转移矩阵)。

例如，特征提取规则为2gram，样本特征集合为{ab,ac,dc,go,de,mm}，预设字符为a，则服务器在样本特征集合中，确定以a作为起始字符的特征字符组合为ab和ac。其中，ab在目标样本集合中的出现次数为10次，ac的出现次数为90次。服务器计算出ab对应的比值为10/(10+90)＝0.1，ac对应的比值为90/(10+90)＝0.9。

可选的，服务器将计算出的比值作为该特征字符组合对应的转移概率，或者，结合平滑与Log归一化优化技术，计算出各特征字符组合对应的转移概率，从而得到转移矩阵。

具体的，服务器中预先设置各字符组合的初始出现次数(比如都设置为100次)或初始出现概率(比如都设置为0.1％)，以避免转移矩阵中，某些字符组合的概率为0，并使得计算出的转移矩阵更为平滑。在计算时，服务器计算初始出现次数与统计出的某特征字符组合在目标样本集合中的出现次数的和值，然后用该和值除以对应的出现总次数，得到该特征字符组合对应的比值。

以设置字符组合的初始出现概率为例，初始出现概率为0.1％，在2gram中，以字符a作为起始字符的特征字符组合，在目标样本集合中的出现总次数为1000，假设特征字符组合ab在目标样本集合中的出现次数为99，则特征字符组合ab对应的比值为(1000*0.001+99)/1000。

服务器对计算出的比值进行Log计算，得到该特征字符组合对应的转移概率。例如，特征字符组合ab对应的比值为(1000*0.001+99)/1000＝100/1000，则ab的转移概率为log(100/1000)，也即，在2gram的转移矩阵中，a行b列的值为log(100/1000)。这样，通过对概率进行对数处理，可以使概率分布符合高斯分布、区分性更强。

实施例3

本发明实施例还提供了一种对分类模型的训练方法，如图3所示，该方法的处理过程可以如下：

步骤301，获取预先存储的训练样本集合。

其中，训练样本集合包括多个训练正样本和多个训练负样本，训练正样本包括目标样本集合中的样本合法域名、样本合法域名对应的转移概率和样本合法域名对应的语义特征信息；训练负样本包括样本非法域名、样本非法域名对应的转移概率和样本非法域名对应的语义特征信息。

在本发明实施例中，以特征提取规则采用2gram、3gram和4gram为例。基于上述处理，服务器分别计算出2gram的转移矩阵、3gram的转移矩阵和4gram的转移矩阵。针对任一样本合法域名，服务器计算该样本合法域名对应的转移概率。服务器分别根据2gram、3gram和4gram对该样本合法域名进行特征提取，得到该样本合法域名对应的多个特征集合，进而根据各特征集合中的特征字符组合对应的转移概率，分别计算该样本合法域名在2gram中的转移概率、在3gram中的转移概率、以及在4gram中的转移概率。

另外，服务器还根据预设的语义特征识别算法，分别确定每个样本合法域名对应的语义特征信息。这样，服务器可以生成多个训练正样本，每个训练正样本包括样本合法域名、该样本合法域名对应的转移概率和该样本合法域名对应的语义特征信息。

类似的，服务器还可以获取样本非法域名，样本非法域名可以是服务器从网络中爬取到的，或者，也可以是服务器通过域名生成算法(英文：Domain name generationalgorithm，简称：DGA)技术生成的。服务器通过上述基于样本合法域名生成的转移矩阵，分别计算每个样本非法域名对应的转移概率，服务器还会计算每个样本非法域名对应的语义特征信息，具体的计算过程与样本合法域名的计算过程类似，此处不再赘述。这样，服务器可以生成多个训练负样本，每个训练负样本包括样本非法域名、该样本非法域名对应的转移概率和该样本非法域名对应的语义特征信息。服务器对生成的多个训练正样本和训练负样本以集合的形式进行存储，得到训练样本集合。

步骤302，基于训练样本集合和预设的分类模型训练算法，确定分类模型。

在本发明实施例中，服务器根据训练样本集合和预设的分类模型训练算法，训练分类模型。其中，分类模型训练算法可以采用现有技术中的分类模型训练算法，比如梯度提升决策树(英文：Gradient Boosting Decision Tree，简称：GBDT)算法、支持向量机算法、随机森林算法或逻辑回归算法等，本发明实施例不做限定。

本发明实施例中，服务器在对分类模型进行训练时，利用分类模型训练算法以及训练样本集合中包括的多个训练正负样本，对模型进行训练，得到分类模型。由于在训练前期中，采用特征提取规则，从正负样本中提取字符组合；针对每个特征字符组合，获取其对应的转移概率，得到正负样本的转移概率；采用语义特征识别算法，确定正负样本对应的语义特征信息，使得服务器利用得到的正负样本对应的转移概率和正负样本对应的语义特征信息对模型进行训练，提高了训练速度。

基于相同的技术构思，本发明实施例还提供了一种识别域名的装置，如图4所述，所述装置包括：

接收模块410，用于接收终端发送的域名解析请求，所述域名解析请求中携带有待解析的域名；

第一确定模块420，用于根据预设的转移概率算法，确定所述域名的转移概率，并根据预设的语义特征识别算法，确定所述域名对应的语义特征信息；

处理模块430，用于根据预设的分类模型、以及所述域名对应的转移概率和语义特征信息，判断所述域名是否为合法域名；

发送模块440，用于如果域名是合法域名，则向所述终端发送响应消息，所述响应消息中携带有所述域名对应的IP地址。

可选的，所述第一确定模块420，具体用于：

在所述域名中，确定除预设前缀和预设后缀以外的字符串；

可选的，如图5所示，所述装置还包括：

第一获取模块450，用于获取目标样本集合，所述目标样本集合包括多个样本合法域名；

提取模块460，用于根据预设的特征提取规则，确定所述目标样本集合对应的样本特征集合；

第二确定模块470，用于针对预设的任一字符和/或字符组合，在所述样本特征集合中确定以该字符和/或字符组合作为起始字符的特征字符组合，得到每个字符和/或字符组合对应的第二特征集合；

第三确定模块480，用于针对确定出的任一特征字符组合，根据该特征字符组合在所述多个样本合法域名中的出现次数，与该特征字符组合所属的第二特征集合中各特征字符组合在所述多个样本合法域名中的出现总次数的比值，确定该特征字符组合对应的转移概率；

建立模块490，用于根据所述样本特征集合中各特征字符组合对应的转移概率，建立所述特征字符组合与转移概率的对应关系。

可选的，如图6所示，所述装置还包括：

第二获取模块4100，用于获取预先存储的训练样本集合，所述训练样本集合包括多个训练正样本和多个训练负样本，所述训练正样本包括所述目标样本集合中的样本合法域名、所述样本合法域名对应的转移概率和所述样本合法域名对应的语义特征信息；所述训练负样本包括样本非法域名、所述样本非法域名对应的转移概率和所述样本非法域名对应的语义特征信息；

第四确定模块4110，用于基于所述训练样本集合和预设的分类模型训练算法，确定所述分类模型。

本发明实施例中，服务器在接收到终端发送的域名解析请求后，会根据预设的转移概率算法，确定域名的转移概率。根据预设的语义特征识别算法，服务器确定域名对应的语义特征信息，进而根据预设的分类模型、以及域名对应的转移概率和语义特征信息，判断域名是否为合法域名。如果域名是合法域名，则服务器向终端发送携带域名对应的IP地址的响应消息。这样，服务器可以根据域名的转移概率和语义特征信息来识别该域名是否是非法域名，无需在服务器中设备域名黑名单，提高了识别域名的准确度。

本发明实施例还提供了一种服务器，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，以使该节点设备执行如下步骤，该步骤包括：

可选的，所述处理器701执行计算机程序包括的根据预设的转移概率算法，确定所述域名的转移概率指令具体为：

可选的，所述处理器701执行计算机程序包括的根据所述第一特征集合包含的各特征字符组合对应的转移概率，确定所述域名对应的转移概率指令具体为：

可选的，所述处理器701执行计算机程序包括的根据预设的特征提取规则，从所述域名中提取特征字符组合，包括：

在所述域名中，确定除预设前缀和预设后缀以外的字符串；

可选的，所述处理器701执行计算机程序还包括执行下述指令：

机器可读存储介质可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。另外，机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种识别域名的方法，其特征在于，所述方法包括：

如果所述域名是合法域名，则向所述终端发送响应消息，所述响应消息中携带有所述域名对应的IP地址；

所述根据预设的分类模型、以及所述域名对应的转移概率和语义特征信息，判断所述域名是否为合法域名，包括：将所述域名对应的转移概率和语义特征信息输入到预设的分类模型中，输出所述域名的分类结果，即非法域名或合法域名。

2.根据权利要求1所述的方法，其特征在于，所述根据预设的转移概率算法，确定所述域名的转移概率，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一特征集合包含的各特征字符组合对应的转移概率，确定所述域名对应的转移概率，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据预设的特征提取规则，从所述域名中提取特征字符组合，包括：

在所述域名中，确定除预设前缀和预设后缀以外的字符串；

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种识别域名的装置，其特征在于，所述装置包括：

发送模块，用于如果所述域名是合法域名，则向所述终端发送响应消息，所述响应消息中携带有所述域名对应的IP地址；

所述处理模块，具体用于将所述域名对应的转移概率和语义特征信息输入到预设的分类模型中，输出所述域名的分类结果，即非法域名或合法域名。

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述第一确定模块，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述第一确定模块，具体用于：

在所述域名中，确定除预设前缀和预设后缀以外的字符串；

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：