CN110012122A

CN110012122A - 一种基于词嵌入技术的域名相似性分析方法

Info

Publication number: CN110012122A
Application number: CN201910220418.6A
Authority: CN
Inventors: 万长胜; 李静
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-07-12
Anticipated expiration: 2039-03-21
Also published as: CN110012122B

Abstract

本发明公开了一种基于词嵌入技术的域名相似性分析方法。本发明的方法包括步骤：(1)数据收集与处理阶段，收集DNS查询数据并进行预处理，构建域名词表和用户访问域名序列；(2)数据表示学习阶段，经过预处理的数据传入无监督模型Skip‑gram，设置相关参数，通过Skip‑gram模型训练域名向量；(3)数据应用阶段，通过域名向量计算域名相似度，分析用户行为偏好。本发明有效解决了对数据和人工的依赖；应用简单，可以在任何网络环境中部署，满足实时性需求。

Description

一种基于词嵌入技术的域名相似性分析方法

技术领域：

本发明涉及一种基于词嵌入技术的域名相似性分析方法，属于数据挖掘领域。

背景技术：

随着互联网技术的发展成熟，以及软硬件性能的提高，互联网提供的服务日益丰富，互联网应用覆盖了人们生活的方方面面，每时每刻都在产生着大量的数据流量。在用户发起Web请求对这些资源进行访问时，域名系统((Domain Name System，DNS))负责将域名解析到对应的IP地址，DNS查询记录包含了一系列可以反映用户行为的内容，例如域名数据代表了访问目标，携带了用户的访问意图；异常的查询异常记录则可能包含了某种网络攻击行为。显然，DNS查询数据是用户查询行为的直接体现，其特征参数蕴藏了用户访问行为的相关信息。

对DNS查询数据进行分析与研究具有广泛的意义。从用户访问的域名角度来看，构造域名的访问序列，可以获取域名对于访问者而言扮演的角色信息，分析域名相似性，研究域名业务直接的潜在关系；从用户的访问行为角度来看，可以获取用户的访问意图，行为偏好。分析的结果可以用于DNS缓存、推荐系统、域名分类等，具有较高的商业价值。

现有的对用户访问行为的研究中，虽不乏基于DNS数据的研究，但多数集中在时间、空间上的特征提取，或借助于对多个相关属性的综合描述，对参数选取要求较高且对数据依赖较多。由于域名通常较短，携带的信息非常有限，开放网络环境中域名总量很大但是重复率不高，且缺乏自然的语序关系，因此仅以域名数据进行用户访问行为分析的研究很少，以域名相似性为研究目标就更鲜有了。一些专业的在线网站，例如Alexa、SimilarSites、Similar Site Search、NetRating等利用部署在客户端的工具直接采集用户的Web访问记录或者借助爬虫程序爬取目标网站信息，以此来研究网站流行度及同类型网站间的排名情况，帮助开发者发现潜在竞争对手、为用户进行相关推荐服务。但是这种研究方法或依赖于用户授权数据或依赖于程序或算法的准确性和高效性而且获得的结果往往基于全网流量，不能针对性研究某些确定网络内用户的行为特征。

因此，域名相似性分析方法应当满足下面的要求：(1)准确性。确保研究方案在实际环境中切实可行，分析的结果真实可靠。(2)简易性。降低系统的数据依赖和人工依赖，保证分析方法简单易用、实施方便。(3)通用性。保证该方法在各种网络环境下都能适用。当前异常域基本可以满足需求(1)的要求，而(2)和(3)还有很大的改进空间。

发明内容

本发明的目的是为了解决上述技术问题,提升异常域名检测系统的简易性和实时性，提供了一种基于词嵌入技术的域名相似性分析方法，解决了对数据和人工的依赖；应用简单，可以在任何网络环境中部署，满足实时性需求。

上述的目的通过以下技术方案实现：

一种基于词嵌入技术的域名相似性分析方法，该方法包括如下步骤：

(1)数据收集与处理阶段，收集DNS查询数据并进行预处理，构建域名词表和用户访问域名序列；

(2)数据表示学习阶段，经过预处理的数据传入无监督模型Skip-gram，设置相关参数，通过Skip-gram模型训练域名向量；

(3)数据应用阶段，通过域名向量计算域名相似度，分析用户行为偏好。

所述的基于词嵌入技术的域名相似性分析方法，步骤(1)中所述的数据收集与处理阶段，收集DNS查询数据并进行预处理，构建域名词表和用户访问域名序列，具体包括如下步骤：

a.收集DNS的数据流量；

b.对数据集中的DNS查询记录的类型进行筛选，只保留A、AAAA、CNAME类型；

c.将用户一段时间内先后访问的域名序列作为域名的上下文，根据用户IP和域名的对应关系构建用户访问域名序列；

d.对相邻重复域名进行处理，即同一IP连续访问同一个域名多次仅保留一个记录，交错出现的则按原样保留；

e.对子域名进行处理，减少子域名的异质性；

f.对非用户主动发出的请求进行处理，去除干扰数据；

g.对低频域名进行处理，访问次数低于某个值时忽略不计；

h.域名访问序列中出现的所有域名去重后构成词汇表，词汇表中的域名按照被访问的频次进行降序排列。

所述的基于词嵌入技术的域名相似性分析方法，步骤(2)中所述的数据表示学习阶段，经过预处理的数据传入无监督模型Skip-gram，设置相关参数，通过Skip-gram模型训练域名向量，具体包括如下步骤：

a.设置嵌入维度，即词向量输出维度D；

b.设置上下文滑动窗口大小，形成以输入域名、输出域名组成的域名对形式的训练样本，并对域名根据词汇表中所处位置进行One-hot编码；

c.输入某一域名的One-hot编码，假设输入域名在词汇表中位置为第j个，那么输入向量只有第j个元素为1，其余全为0；

d.经过一个词嵌入矩阵，该矩阵的行数为V，列数为D，得到嵌入词向量Vc＝Ve，V表示数据集涉及的所有独立域名构成词汇表大小，D表示嵌入维度，由于输入向量只有第j列为1，那么和嵌入矩阵相乘后的结果Vc就等于抽取了嵌入矩阵的第j列；

e.Vc继续与第二个矩阵，该矩阵的行数为D，列数为V，相乘，即与矩阵每一列相乘，因为矩阵有V列，所以相乘后会得的到V个分数值z＝Vc*Vv；

f.利用Softmax函数对这V个值进行归一化处理，转化成预估的可能出现的周围词的概率P＝softmax(z)；

g.将预估的概率P和实际上下文的词的向量进行匹配，计算交叉熵；

h.采用随机负采样优化计算，降低计算量。

所述的基于词嵌入技术的域名相似性分析方法，步骤(2)中所述的模型训练的目标是得到最大概率的可能出现的上下文，当训练完成时即获取了第一个矩阵中的每个元素的确定值，即域名的向量表示Vc。

有益效果：

与现有技术相比，本发明提出的一种基于词嵌入技术的域名相似性分析方法本创新地词嵌入技术应用到域名数据的研究中，通过DNS查询数据构建用户访问域名序列，基于词嵌入技术对域名进行向量表示，携带了域名上下文的语义信息，向量表示的结果可以用于域名分类、推荐系统、DNS缓存等，应用及其广泛；实施简单，仅使用域名查询数据而不需要依赖任何其他相关信息和软件开发部署，可用于分析任何环境下的域名数据，通用性强。

通过准确性、简易性、通用性分析，该系统符合所要求的目标。该系统也从理论和实验上验证了准确率高、通用性强、易于部署的特点，显示它可以满足上述所有的要求。本方法的研究对于DNS查询数据挖掘、分析用户访问行为具有重要意义。

附图说明

图1是本发明的整体流程图。

图2是本发明中数据收集与处理阶段主要内容图。

图3是本发明中数据表示学习阶段主要内容图。

图4是本发明中数据应用阶段主要内容图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于词嵌入技术的域名相似性分析方法，整体流程如图1所示，它包括本发明方法涉及的数据收集于处理阶段，数据表示学习阶段和数据应用阶段。

本发明方法的设计基础是：词嵌入技术可以将域名数据进行向量化表示，携带有域名上下文的语义信息，当两个域名具有相同的上下文时，则这两个域名具有较高相似性。这种相似关系反映了域名间的潜在关联，如业务上的并列关系、逻辑关系等，同时利用该结果可以进一步挖掘用户兴趣偏好。

总体来说，本发明提出的基于词嵌入技术的域名相似性方法是非常有效、实用的，因为它采用了词嵌入技术表示域名特征，通过无监督学习方式自动地对特征进行学习和训练，获取特征的最佳表示，词嵌入结果可以进行广泛应用，如域名相似性分析、用户行为偏好研究满足了巨大网络流量中对数据进行挖掘时简易性和通用性的要求。

具体分述如下：

(1)数据收集与处理阶段，收集DNS查询数据并进行预处理，构建域名词表和用户访问域名序列。

a.采集网络中的核心DNS服务器的流量；

d.对于相邻重复域名进行去重处理，即同一IP连续访问同一个域名多次仅保留一个记录，交错出现的则按原样保留；

e.对于网站拥有多个子域名，按照以下规定进行截断处理：顶级域名为国家代码(ccTLD)的，如.cn,.uk,.jp等，保留至三级域名，如www.seu.edu.cn经过处理后结果为seu.edu.cn；其他则保留至二级域名，如tieba.baidu.com经过处理后结果为baidu.com；

f.过滤非用户主动发出的请求，设置时间窗口将一个域名紧跟着3秒内的访问域名忽略不计；

g.对域名被访问次数进行统计，并去除访问频次在5次以下的域名记录；

h.域名访问序列中出现的所有域名去重后构成词汇表，词汇表中的域名按照被访问的频次进行降序排列，本实施例词汇表大小为18825；

(2)数据表示学习阶段，经过预处理的数据传入无监督模型Skip-gram，设置相关参数，通过Skip-gram模型训练域名向量。即通过域名d_j来计算上下文窗口中域名d_j+c出现的概率P(d_j+c|d_j:θ)，其中θ是需要通过模型学习的参数(矩阵的权重)，即域名d_j的向量化表示结果,具体流程如图3所示。

a.设置嵌入维度，即词向量输出维度D，本实施例设置为52；

b.设置上下文滑动窗口大小，本实施例为5，形成(输入域名，输出域名)形式的训练样本，并对域名根据词汇表中所处位置进行One-hot编码；

c.输入某一域名(关键词)的One-hot编码，假设输入域名在词汇表中位置为第j个，那么输入向量只有第j个元素为1，其余全为0。

d.经过一个词嵌入矩阵(行数为V，列数为D)得到嵌入词向量Vc＝Ve，V表示数据集涉及的所有独立域名构成词汇表大小，D表示嵌入维度，由于输入向量只有第j列为1，那么和嵌入矩阵相乘后的结果Vc就等于抽取了嵌入矩阵的第j列。

e.Vc继续与第二个矩阵(行数为D，列数为V)相乘，即与矩阵每一列相乘，因为矩阵有V列，所以相乘后会得的到V个分数值z＝Vc*Vv。

f.利用Softmax函数对这V个值进行归一化处理，转化成预估的可能出现的周围词的概率P＝softmax(z)。

g.将预估的概率P和实际上下文的词的向量进行匹配，计算交叉熵。

h.采用随机负采样优化计算，降低计算量。

i.模型训练的目标是得到最大概率的可能出现的上下文，当训练完成时即获取了第一个矩阵中的每个元素的确定值，即域名的向量表示Vc。

(3)数据应用阶段，如图4所示，通过域名向量计算域名相似度，分析用户行为偏好。

计算域名之间的余弦相似距离，挖掘域名背后承载的业务逻辑关系，通常语义上具有相似性的域名，对应网站内容相似或者提供的业务具有相关逻辑关系；对域名提供的服务进行分析，挖掘用户访问同类网站的兴趣偏好，获得用户群体中受欢迎的网站类型。

Claims

1.一种基于词嵌入技术的域名相似性分析方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的基于词嵌入技术的域名相似性分析方法，其特征在于，步骤(1)中所述的数据收集与处理阶段，收集DNS查询数据并进行预处理，构建域名词表和用户访问域名序列，具体包括如下步骤：

a.收集DNS的数据流量；

e.对子域名进行处理，减少子域名的异质性；

f.对非用户主动发出的请求进行处理，去除干扰数据；

g.对低频域名进行处理，访问次数低于某个值时忽略不计；

3.根据权利要求1所述的基于词嵌入技术的域名相似性分析方法，其特征在于，步骤(2)中所述的数据表示学习阶段，经过预处理的数据传入无监督模型Skip-gram，设置相关参数，通过Skip-gram模型训练域名向量，具体包括如下步骤：

a.设置嵌入维度，即词向量输出维度D；

b.设置上下文滑动窗口大小，形成以输入域名、输出域名形式的训练样本，并对域名根据词汇表中所处位置进行One-hot编码；

c.输入某一域名或关键词的One-hot编码，假设输入域名在词汇表中位置为第j个，那么输入向量只有第j个元素为1，其余全为0；

h.采用随机负采样优化计算，降低计算量。

4.根据权利要求1所述的基于词嵌入技术的域名相似性分析方法，其特征在于，步骤(2)中所述的模型训练的目标是得到最大概率的可能出现的上下文，当训练完成时即获取了第一个矩阵中的每个元素的确定值，即域名的向量表示Vc。