CN114285587B

CN114285587B - 域名鉴别方法和装置、域名分类模型的获取方法和装置

Info

Publication number: CN114285587B
Application number: CN202010982310.3A
Authority: CN
Inventors: 田金英; 马晨
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2023-10-10
Anticipated expiration: 2040-09-17
Also published as: CN114285587A

Abstract

本公开提出一种域名鉴别方法和装置、域名分类模型的获取方法和装置，涉及信息安全领域。域名鉴别方法包括：根据待鉴别域名的被访问数据，确定待鉴别域名的基于时间的行为；基于预设的时间窗对待鉴别域名的基于时间的行为进行统计，以获得待鉴别域名的基于时间窗的行为特征；根据待鉴别域名的基于时间窗的各个行为特征以及相应的权重，确定待鉴别域名的基于时间窗的行为特征向量表示；根据待鉴别域名的基于时间窗的行为特征向量表示，利用域名分类模型，确定待鉴别域名所属的域名类别，域名类别包括合法域名和非法域名，域名分类模型通过对时间循环神经网络进行机器学习获得。从而，实现对新域名的鉴别，并且，鉴别准确性高，鉴别效率高。

Description

域名鉴别方法和装置、域名分类模型的获取方法和装置

技术领域

本公开涉及信息安全领域，特别涉及一种域名鉴别方法和装置、域名分类模型的获取方法和装置。

背景技术

域名(Domain Name)，是由一串用点分隔的名字组成的互联网上某一台计算机或计算机组的名称，用于在数据传输时对计算机的定位标识。

鉴别域名是非法域名或合法域名，能够为网络信息安全提供支撑。黑白名单的域名鉴别方法，难以应付大量涌现的新域名。基于域名特征的域名鉴别方法，例如，大量非法域名的各个字符是随机的，没有相应的业务意义，由于部分合法域名的各个字符也可能是随机的，因此，误报率比较高，并且，通过改变非法域名的特征，使得非法域名非常容易躲避检测。

发明内容

本公开实施例通过机器学习获得的域名分类模型能够实现对新域名的鉴别，并且，基于域名的行为特征鉴别域名，即不容易误报，也不容易躲避检测，因此，鉴别准确性高，并且，对域名的基于时间窗的行为统计特征进行分析，分析数据量减小，有利于提高鉴别效率。

本公开一些实施例提出一种域名鉴别方法，包括：

根据待鉴别域名的被访问数据，确定所述待鉴别域名的基于时间的行为；

基于预设的时间窗对所述待鉴别域名的基于时间的行为进行统计，以获得所述待鉴别域名的基于时间窗的行为特征；

根据所述待鉴别域名的基于时间窗的各个行为特征以及相应的权重，确定所述待鉴别域名的基于时间窗的行为特征向量表示；

根据所述待鉴别域名的基于时间窗的行为特征向量表示，利用域名分类模型，确定所述待鉴别域名所属的域名类别，所述域名类别包括合法域名和非法域名，所述域名分类模型通过对时间循环神经网络进行机器学习获得。

在一些实施例中，根据待鉴别域名的被访问数据，确定所述待鉴别域名的基于时间的行为，包括：

根据待鉴别域名的被访问数据，利用行为判断模型，确定所述待鉴别域名的基于时间的行为，所述行为判断模型通过对多层感知器进行机器学习获得。

在一些实施例中，该方法还包括：

设置一个或多个时间窗，不同时间窗的时间长度不同；

其中，基于预设的每个时间窗对所述待鉴别域名的基于时间的行为进行统计，以获得所述待鉴别域名的基于每个时间窗的行为特征。

在一些实施例中，基于时间窗的行为特征的权重的确定方法包括：

根据多个域名的基于时间的历史行为的统计频率，确定基于时间窗的相应行为特征的权重，其中，统计频率越高，相应行为特征的权重越大。

在一些实施例中，根据所述待鉴别域名的基于时间窗的各个行为特征以及相应的权重，确定所述待鉴别域名的基于时间窗的行为特征向量表示，包括：

对所述待鉴别域名的基于时间窗的各个行为特征以及相应的权重进行线性加权处理，

对线性加权处理的结果进行向量化处理，得到所述待鉴别域名的基于时间窗的行为特征向量表示。

在一些实施例中，通过对时间循环神经网络进行机器学习获得域名分类模型，包括：

第一更新步骤：将训练用的域名的基于第i时间窗的行为特征向量表示和域名类别标注信息输入时间循环神经网络，根据域名类别标注信息和时间循环神经网络输出的基于第i时间窗的域名类别信息确定第i损失，根据所述第i损失更新所述时间循环神经网络的参数，i为自然数；

判断步骤：判断是否满足预设的终止条件；

第二更新步骤：如果不满足终止条件，时间窗后移，将输出的基于第i时间窗的域名类别信息以及训练用的域名的基于第i+1时间窗的行为特征向量表示和域名类别标注信息输入时间循环神经网络，根据域名类别标注信息和时间循环神经网络输出的基于第i+1时间窗的域名类别信息确定第i+1损失，根据所述第i+1损失更新所述时间循环神经网络的参数；

迭代地执行判断步骤和第二更新步骤，直至满足终止条件，并将最终的时间循环神经网络确定为域名分类模型；

其中，训练用的域名的基于时间窗的行为特征向量表示与待鉴别域名的基于时间窗的行为特征向量表示的生成方法相同。

在一些实施例中，通过对多层感知器进行机器学习获得行为判断模型包括：

将训练用的域名的被访问数据和基于时间的行为标注信息输入多层感知器；

根据基于时间的行为标注信息和多层感知器输出的基于时间的行为确定损失；

根据所述损失更新所述多层感知器的参数，

迭代地执行更新过程，直至满足预设的终止条件，并将最终的多层感知器确定为行为判断模型。

在一些实施例中，基于时间的行为包括：带有时间的域名访问请求、带有时间的域名IP地址、带有时间的域名查询业务、带有时间的域名主动行为、带有时间的域名流量中的一项或多项。

在一些实施例中，基于时间窗的行为特征包括：时间窗内的域名访问请求数量、时间窗内的域名IP地址数量、时间窗内的域名查询业务量、时间窗内的域名主动行为数量、时间窗内的域名流量中的一项或多项。

在一些实施例中，所述非法域名包括C&C域名。

在一些实施例中，所述训练用的域名包括训练用的合法域名和非法域名。

本公开一些实施例提出一种域名分类模型的获取方法，包括：

根据训练用的域名的被访问数据，确定所述训练用的域名的基于时间的行为；

基于预设的时间窗对所述训练用的域名的基于时间的行为进行统计，以获得所述训练用的域名的基于时间窗的行为特征；

根据所述训练用的域名的基于时间窗的各个行为特征以及相应的权重，确定所述训练用的域名的基于各个时间窗的行为特征向量表示；

判断步骤：判断是否满足预设的终止条件；

迭代地执行判断步骤和第二更新步骤，直至满足终止条件，并将最终的时间循环神经网络确定为域名分类模型。

本公开一些实施例提出一种域名鉴别装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行域名鉴别方法。

本公开一些实施例提出一种域名分类模型的获取装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行域名分类模型的获取方法。

本公开一些实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现域名鉴别方法或域名分类模型的获取方法。

附图说明

下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述，可以更加清楚地理解本公开。

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开一些实施例的域名鉴别方法的流程示意图。

图2示出本公开一些实施例的通过对多层感知器进行机器学习获得行为判断模型的流程示意图。

图3示出本公开一些实施例的通过对时间循环神经网络进行机器学习获得域名分类模型的流程示意图。

图4示出本公开一些实施例的域名鉴别装置的示意图。

图5示出本公开一些实施例的域名分类模型的获取装置的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

除非特别说明，否则，本公开中的“第一”“第二”等描述用来区分不同的对象，并不用来表示大小或时序等含义。

图1示出本公开一些实施例的域名鉴别方法的流程示意图。

如图1所示，该实施例的方法包括：110-150。

在步骤110，根据待鉴别域名的被访问数据，确定待鉴别域名的基于时间的行为。

待鉴别域名的被访问数据可以从待鉴别域名的被访问日志中获取。

在一些实施例中，确定待鉴别域名的基于时间的行为包括：预设相关的行为，利用特征提取的方法，从待鉴别域名的被访问数据中，提取待鉴别域名的基于时间的行为。

在另一些实施例中，确定待鉴别域名的基于时间的行为包括：根据待鉴别域名的被访问数据，利用行为判断模型，确定待鉴别域名的基于时间的行为，行为判断模型通过对多层感知器进行机器学习获得。其中，通过对多层感知器进行机器学习获得行为判断模型的方法后续会具体描述。通过多层感知器实现数据的降维和特征提取。

其中，基于时间的行为也即带有时间的行为，例如包括：带有时间的域名访问请求、带有时间的域名IP地址、带有时间的域名查询业务、带有时间的域名主动行为、带有时间的域名流量中的一项或多项，但不限于所举示例。其中，域名主动行为例如包括域名会将其IP地址指向一个静默IP地址，但不限于所举示例。

在步骤120，基于预设的时间窗对待鉴别域名的基于时间的行为进行统计，以获得待鉴别域名的基于时间窗的行为特征。

其中，可设置一个或多个时间窗，不同时间窗的时间长度不同。例如，时间窗1是1天，时间窗2是1周，时间窗3是1个月。

当设置了多个时间窗时，基于预设的每个时间窗对待鉴别域名的基于时间的行为进行统计，以获得待鉴别域名的基于每个时间窗的行为特征。从而，获得域名的不同时间窗的不同行为的特征信息。

与基于时间的行为相对应的，基于时间窗的行为特征例如包括：时间窗内的域名访问请求数量、时间窗内的域名IP地址数量、时间窗内的域名查询业务量、时间窗内的域名主动行为数量、时间窗内的域名流量中的一项或多项，但不限于所举示例。

在步骤130，确定基于时间窗的行为特征的权重。

例如，根据多个域名的基于时间的历史行为的统计频率，确定基于时间窗的相应行为特征的权重，其中，统计频率越高，相应行为特征的权重越大。

当多个域名的基于时间的历史行为的统计频率发生变化时，可以相应的调整基于时间窗的相应行为特征的权重。

在步骤140，根据待鉴别域名的基于时间窗的各个行为特征以及相应的权重，确定待鉴别域名的基于时间窗的行为特征向量表示。

确定待鉴别域名的基于时间窗的行为特征向量表示，包括：对待鉴别域名的基于时间窗的各个行为特征以及相应的权重进行线性加权处理，例如，采用一次线性函数进行线性加权处理，然后，对线性加权处理的结果进行向量化处理，得到待鉴别域名的基于时间窗的行为特征向量表示。向量化处理方法可以参考机器学习领域中的相关的向量化处理方法，这里不再赘述。

假如基于时间窗的行为特征包括：时间窗内的域名访问请求数量、时间窗内的域名IP地址数量、时间窗内的域名查询业务量、时间窗内的域名主动行为数量、时间窗内的域名流量，则该一次线性函数相当于从以下几个评价因素对待鉴别域名的基于时间窗的行为特征进行评价：1.访问请求每日相似度：相同时间窗内访问请求计数的增加或减少，相同时间窗内域名IP地址的变化频率；2.同一时间窗内的查询数量，同一时间窗内，域名查询的数量应该大致相同；3.域名的主动行为频率；4.同一时间窗内流量特性。

在步骤150，根据待鉴别域名的基于时间窗的行为特征向量表示，利用域名分类模型，确定待鉴别域名所属的域名类别，域名类别包括合法域名(即，正常域名)和非法域名(即，异常域名)。

也即，将待鉴别域名的基于时间窗的行为特征向量表示输入域名分类模型，域名分类模型分别输出待鉴别域名属于合法域名和非法域名的概率值，概率值更大的域名类别是待鉴别域名所属的域名类别。非法域名例如包括C&C域名(一种域名类型)，但不限于所举示例。C&C域名可以利用一种随机数域名生成算法(DGA算法)生成C&C域名。

此外，还可以将其他特征的向量表示一并输入域名分类模型，其他特征例如包括待鉴别域名指向的静默IP地址(如果待鉴别域名有该指向的主动行为的话)，域名对应的国家信息等。

域名分类模型通过对时间循环神经网络进行机器学习获得，由此获得的域名分类模型能够适应随时间不同变化的行为特征的域名鉴别。通过对时间循环神经网络进行机器学习获得域名分类模型的方法后续会具体描述。时间循环神经网络例如可以是长短期记忆网络(LSTM，Long Short-Term Memory)，但不限于所举示例。

通过机器学习获得的域名分类模型能够实现对新域名的鉴别，并且，基于域名的行为特征鉴别域名，即不容易误报，也不容易躲避检测，因此，鉴别准确性高，并且，对域名的基于时间窗的行为统计特征进行分析，分析数据量减小，有利于提高鉴别效率。

下面分别描述基于训练集(包括训练用的域名)对机器学习模型进行训，得到行为判断模型和域名分类模型的过程。训练用的域名例如包括训练用的合法域名(正样本)和非法域名(负样本)。

如图2所示，该实施例的方法包括：210-240。

在步骤210，将训练用的域名的被访问数据和基于时间的行为标注信息输入多层感知器(Multi-Layer Perceptron，MLP)，多层感知器输出基于时间的行为。

多层感知器也叫人工神经网络(Artificial Neural Network，ANN)。

被访问数据和基于时间的行为的相关解释可以参考前述，这里不再赘述。

在步骤220，根据基于时间的行为标注信息和多层感知器输出的基于时间的行为，确定损失。

在步骤230，根据损失更新多层感知器的参数。

多层感知器的参数也即神经网络参数，例如，神经网络的权重、偏置等，具体可以参考机器学习的相关技术，这里不再穷举。

在步骤240，迭代地执行更新过程，直至满足预设的终止条件，并将最终的多层感知器确定为行为判断模型。

终止条件例如包括：迭代次数，损失是否小于阈值，两次迭代的损失变化是否小于阈值等，但不限于所举示例。

在一些实施例中，除了训练集，还可以设置测试集。利用测试集，对训练后的模型进行测试，判断模型的输出是否符合要求。通过测试的模型确定为最终的业务模型。例如，利用测试集，对训练后的多层感知器进行测试，如果测试通过，将多层感知器确定为行为判断模型。

从而，通过对多层感知器进行机器学习获得行为判断模型。

如图3所示，该实施例的方法包括：310-370。

在步骤310，根据训练用的域名的被访问数据，确定训练用的域名的基于时间的行为。

训练用的域名的被访问数据可以从训练用的域名的被访问日志中获取。

在一些实施例中，确定训练用的域名的基于时间的行为包括：预设相关的行为，利用特征提取的方法，从训练用的域名的被访问数据中，提取训练用的域名的基于时间的行为。

在另一些实施例中，确定训练用的域名的基于时间的行为包括：根据训练用的域名的被访问数据，利用行为判断模型，确定训练用的域名的基于时间的行为。通过多层感知器实现数据的降维和特征提取。

在步骤320，基于预设的时间窗对训练用的域名的基于时间的行为进行统计，以获得训练用的域名的基于时间窗的行为特征。

时间窗、基于时间窗的行为特征以及获取方法参考前述，这里不再赘述。

在步骤330，根据训练用的域名的基于时间窗的各个行为特征以及相应的权重，确定训练用的域名的基于各个时间窗的行为特征向量表示。

在步骤340，第一更新步骤：将训练用的域名的基于第i时间窗的行为特征向量表示和域名类别标注信息输入时间循环神经网络，根据域名类别标注信息和时间循环神经网络输出的基于第i时间窗的域名类别信息确定第i损失，根据第i损失更新时间循环神经网络的参数，i为自然数。

时间循环神经网络的参数包括权重、偏置等，例如，LSTM网络的参数包括门的权重、偏置项等，具体可以参考机器学习的相关技术，这里不再穷举。

此外，还可以将其他特征的向量表示一并输入入时间循环神经网络，其他特征例如包括待鉴别域名指向的静默IP地址(如果待鉴别域名有该指向的主动行为的话)，域名对应的国家信息等。

在步骤350，判断步骤：判断是否满足预设的终止条件。

在步骤360，第二更新步骤：如果不满足终止条件，时间窗后移，将输出的基于第i时间窗的域名类别信息以及训练用的域名的基于第i+1时间窗的行为特征向量表示和域名类别标注信息输入时间循环神经网络，根据域名类别标注信息和时间循环神经网络输出的基于第i+1时间窗的域名类别信息确定第i+1损失，根据第i+1损失更新时间循环神经网络的参数。

按照时间，第i+1时间窗是第i时间窗的下一个时间窗。

在步骤370，迭代地执行判断步骤和第二更新步骤，直至满足终止条件，并将最终的时间循环神经网络确定为域名分类模型。

使用时间循环神经网络的激活函数表示域名类别标签，例如，标签1表示非法域名，标签2表示合法域名。

在一些实施例中，除了训练集，还可以设置测试集。利用测试集，对训练后的模型进行测试，判断模型的输出是否符合要求。通过测试的模型确定为最终的业务模型。例如，利用测试集，对训练后的时间循环神经网络进行测试，如果测试通过，将时间循环神经网络确定为域名分类模型。

从而，通过对时间循环神经网络进行机器学习获得域名分类模型。

图4示出本公开一些实施例的域名鉴别装置的示意图。

如图4所示，该实施例的域名鉴别装置400包括：存储器410以及耦接至该存储器410的处理器420，处理器420被配置为基于存储在存储器410中的指令，执行前述任意一些实施例中的域名鉴别方法。具体参考前述，这里不再赘述。

其中，存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

如图5所示，该实施例的域名分类模型的获取装置500包括：存储器510以及耦接至该存储器510的处理器520，处理器520被配置为基于存储在存储器510中的指令，执行前述任意一些实施例中的域名分类模型的获取方法。

其中，存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

域名鉴别装置400与域名分类模型的获取装置500例如可以部署在同一设备上或不同设备上。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机程序代码的非瞬时性计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种域名鉴别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

根据待鉴别域名的被访问数据，确定所述待鉴别域名的基于时间的行为，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

设置一个或多个时间窗，不同时间窗的时间长度不同；

4.根据权利要求1所述的方法，其特征在于，

基于时间窗的行为特征的权重的确定方法包括：

5.根据权利要求1所述的方法，其特征在于，

根据所述待鉴别域名的基于时间窗的各个行为特征以及相应的权重，确定所述待鉴别域名的基于时间窗的行为特征向量表示，包括：

6.根据权利要求1所述的方法，其特征在于，

通过对时间循环神经网络进行机器学习获得域名分类模型，包括：

判断步骤：判断是否满足预设的终止条件；

7.根据权利要求2所述的方法，其特征在于，

通过对多层感知器进行机器学习获得行为判断模型包括：

根据所述损失更新所述多层感知器的参数，

8.根据权利要求1-7任一项所述的方法，其特征在于，

基于时间的行为包括：带有时间的域名访问请求、带有时间的域名IP地址、带有时间的域名查询业务、带有时间的域名主动行为、带有时间的域名流量中的一项或多项；

基于时间窗的行为特征包括：时间窗内的域名访问请求数量、时间窗内的域名IP地址数量、时间窗内的域名查询业务量、时间窗内的域名主动行为数量、时间窗内的域名流量中的一项或多项。

9.根据权利要求1-7任一项所述的方法，其特征在于，

所述非法域名包括C&C域名。

10.根据权利要求6-7任一项所述的方法，其特征在于，

所述训练用的域名包括训练用的合法域名和非法域名。

11.一种域名分类模型的获取方法，其特征在于，包括：

判断步骤：判断是否满足预设的终止条件；

12.一种域名鉴别装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求1-10中任一项所述的域名鉴别方法。

13.一种域名分类模型的获取装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求11所述的域名分类模型的获取方法。

14.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-10中任一项所述的域名鉴别方法或权利要求11所述的域名分类模型的获取方法。