CN110012122A - 一种基于词嵌入技术的域名相似性分析方法 - Google Patents

一种基于词嵌入技术的域名相似性分析方法 Download PDF

Info

Publication number
CN110012122A
CN110012122A CN201910220418.6A CN201910220418A CN110012122A CN 110012122 A CN110012122 A CN 110012122A CN 201910220418 A CN201910220418 A CN 201910220418A CN 110012122 A CN110012122 A CN 110012122A
Authority
CN
China
Prior art keywords
domain name
data
word
vector
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910220418.6A
Other languages
English (en)
Other versions
CN110012122B (zh
Inventor
万长胜
李静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910220418.6A priority Critical patent/CN110012122B/zh
Publication of CN110012122A publication Critical patent/CN110012122A/zh
Application granted granted Critical
Publication of CN110012122B publication Critical patent/CN110012122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于词嵌入技术的域名相似性分析方法。本发明的方法包括步骤:(1)数据收集与处理阶段,收集DNS查询数据并进行预处理,构建域名词表和用户访问域名序列;(2)数据表示学习阶段,经过预处理的数据传入无监督模型Skip‑gram,设置相关参数,通过Skip‑gram模型训练域名向量;(3)数据应用阶段,通过域名向量计算域名相似度,分析用户行为偏好。本发明有效解决了对数据和人工的依赖;应用简单,可以在任何网络环境中部署,满足实时性需求。

Description

一种基于词嵌入技术的域名相似性分析方法
技术领域:
本发明涉及一种基于词嵌入技术的域名相似性分析方法,属于数据挖掘领域。
背景技术:
随着互联网技术的发展成熟,以及软硬件性能的提高,互联网提供的服务日益丰富,互联网应用覆盖了人们生活的方方面面,每时每刻都在产生着大量的数据流量。在用户发起Web请求对这些资源进行访问时,域名系统((Domain Name System,DNS))负责将域名解析到对应的IP地址,DNS查询记录包含了一系列可以反映用户行为的内容,例如域名数据代表了访问目标,携带了用户的访问意图;异常的查询异常记录则可能包含了某种网络攻击行为。显然,DNS查询数据是用户查询行为的直接体现,其特征参数蕴藏了用户访问行为的相关信息。
对DNS查询数据进行分析与研究具有广泛的意义。从用户访问的域名角度来看,构造域名的访问序列,可以获取域名对于访问者而言扮演的角色信息,分析域名相似性,研究域名业务直接的潜在关系;从用户的访问行为角度来看,可以获取用户的访问意图,行为偏好。分析的结果可以用于DNS缓存、推荐系统、域名分类等,具有较高的商业价值。
现有的对用户访问行为的研究中,虽不乏基于DNS数据的研究,但多数集中在时间、空间上的特征提取,或借助于对多个相关属性的综合描述,对参数选取要求较高且对数据依赖较多。由于域名通常较短,携带的信息非常有限,开放网络环境中域名总量很大但是重复率不高,且缺乏自然的语序关系,因此仅以域名数据进行用户访问行为分析的研究很少,以域名相似性为研究目标就更鲜有了。一些专业的在线网站,例如Alexa、SimilarSites、Similar Site Search、NetRating等利用部署在客户端的工具直接采集用户的Web访问记录或者借助爬虫程序爬取目标网站信息,以此来研究网站流行度及同类型网站间的排名情况,帮助开发者发现潜在竞争对手、为用户进行相关推荐服务。但是这种研究方法或依赖于用户授权数据或依赖于程序或算法的准确性和高效性而且获得的结果往往基于全网流量,不能针对性研究某些确定网络内用户的行为特征。
因此,域名相似性分析方法应当满足下面的要求:(1)准确性。确保研究方案在实际环境中切实可行,分析的结果真实可靠。(2)简易性。降低系统的数据依赖和人工依赖,保证分析方法简单易用、实施方便。(3)通用性。保证该方法在各种网络环境下都能适用。当前异常域基本可以满足需求(1)的要求,而(2)和(3)还有很大的改进空间。
发明内容
本发明的目的是为了解决上述技术问题,提升异常域名检测系统的简易性和实时性,提供了一种基于词嵌入技术的域名相似性分析方法,解决了对数据和人工的依赖;应用简单,可以在任何网络环境中部署,满足实时性需求。
上述的目的通过以下技术方案实现:
一种基于词嵌入技术的域名相似性分析方法,该方法包括如下步骤:
(1)数据收集与处理阶段,收集DNS查询数据并进行预处理,构建域名词表和用户访问域名序列;
(2)数据表示学习阶段,经过预处理的数据传入无监督模型Skip-gram,设置相关参数,通过Skip-gram模型训练域名向量;
(3)数据应用阶段,通过域名向量计算域名相似度,分析用户行为偏好。
所述的基于词嵌入技术的域名相似性分析方法,步骤(1)中所述的数据收集与处理阶段,收集DNS查询数据并进行预处理,构建域名词表和用户访问域名序列,具体包括如下步骤:
a.收集DNS的数据流量;
b.对数据集中的DNS查询记录的类型进行筛选,只保留A、AAAA、CNAME类型;
c.将用户一段时间内先后访问的域名序列作为域名的上下文,根据用户IP和域名的对应关系构建用户访问域名序列;
d.对相邻重复域名进行处理,即同一IP连续访问同一个域名多次仅保留一个记录,交错出现的则按原样保留;
e.对子域名进行处理,减少子域名的异质性;
f.对非用户主动发出的请求进行处理,去除干扰数据;
g.对低频域名进行处理,访问次数低于某个值时忽略不计;
h.域名访问序列中出现的所有域名去重后构成词汇表,词汇表中的域名按照被访问的频次进行降序排列。
所述的基于词嵌入技术的域名相似性分析方法,步骤(2)中所述的数据表示学习阶段,经过预处理的数据传入无监督模型Skip-gram,设置相关参数,通过Skip-gram模型训练域名向量,具体包括如下步骤:
a.设置嵌入维度,即词向量输出维度D;
b.设置上下文滑动窗口大小,形成以输入域名、输出域名组成的域名对形式的训练样本,并对域名根据词汇表中所处位置进行One-hot编码;
c.输入某一域名的One-hot编码,假设输入域名在词汇表中位置为第j个,那么输入向量只有第j个元素为1,其余全为0;
d.经过一个词嵌入矩阵,该矩阵的行数为V,列数为D,得到嵌入词向量Vc=Ve,V表示数据集涉及的所有独立域名构成词汇表大小,D表示嵌入维度,由于输入向量只有第j列为1,那么和嵌入矩阵相乘后的结果Vc就等于抽取了嵌入矩阵的第j列;
e.Vc继续与第二个矩阵,该矩阵的行数为D,列数为V,相乘,即与矩阵每一列相乘,因为矩阵有V列,所以相乘后会得的到V个分数值z=Vc*Vv;
f.利用Softmax函数对这V个值进行归一化处理,转化成预估的可能出现的周围词的概率P=softmax(z);
g.将预估的概率P和实际上下文的词的向量进行匹配,计算交叉熵;
h.采用随机负采样优化计算,降低计算量。
所述的基于词嵌入技术的域名相似性分析方法,步骤(2)中所述的模型训练的目标是得到最大概率的可能出现的上下文,当训练完成时即获取了第一个矩阵中的每个元素的确定值,即域名的向量表示Vc。
有益效果:
与现有技术相比,本发明提出的一种基于词嵌入技术的域名相似性分析方法本创新地词嵌入技术应用到域名数据的研究中,通过DNS查询数据构建用户访问域名序列,基于词嵌入技术对域名进行向量表示,携带了域名上下文的语义信息,向量表示的结果可以用于域名分类、推荐系统、DNS缓存等,应用及其广泛;实施简单,仅使用域名查询数据而不需要依赖任何其他相关信息和软件开发部署,可用于分析任何环境下的域名数据,通用性强。
通过准确性、简易性、通用性分析,该系统符合所要求的目标。该系统也从理论和实验上验证了准确率高、通用性强、易于部署的特点,显示它可以满足上述所有的要求。本方法的研究对于DNS查询数据挖掘、分析用户访问行为具有重要意义。
附图说明
图1是本发明的整体流程图。
图2是本发明中数据收集与处理阶段主要内容图。
图3是本发明中数据表示学习阶段主要内容图。
图4是本发明中数据应用阶段主要内容图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于词嵌入技术的域名相似性分析方法,整体流程如图1所示,它包括本发明方法涉及的数据收集于处理阶段,数据表示学习阶段和数据应用阶段。
本发明方法的设计基础是:词嵌入技术可以将域名数据进行向量化表示,携带有域名上下文的语义信息,当两个域名具有相同的上下文时,则这两个域名具有较高相似性。这种相似关系反映了域名间的潜在关联,如业务上的并列关系、逻辑关系等,同时利用该结果可以进一步挖掘用户兴趣偏好。
总体来说,本发明提出的基于词嵌入技术的域名相似性方法是非常有效、实用的,因为它采用了词嵌入技术表示域名特征,通过无监督学习方式自动地对特征进行学习和训练,获取特征的最佳表示,词嵌入结果可以进行广泛应用,如域名相似性分析、用户行为偏好研究满足了巨大网络流量中对数据进行挖掘时简易性和通用性的要求。
具体分述如下:
(1)数据收集与处理阶段,收集DNS查询数据并进行预处理,构建域名词表和用户访问域名序列。
a.采集网络中的核心DNS服务器的流量;
b.对数据集中的DNS查询记录的类型进行筛选,只保留A、AAAA、CNAME类型;
c.将用户一段时间内先后访问的域名序列作为域名的上下文,根据用户IP和域名的对应关系构建用户访问域名序列;
d.对于相邻重复域名进行去重处理,即同一IP连续访问同一个域名多次仅保留一个记录,交错出现的则按原样保留;
e.对于网站拥有多个子域名,按照以下规定进行截断处理:顶级域名为国家代码(ccTLD)的,如.cn,.uk,.jp等,保留至三级域名,如www.seu.edu.cn经过处理后结果为seu.edu.cn;其他则保留至二级域名,如tieba.baidu.com经过处理后结果为baidu.com;
f.过滤非用户主动发出的请求,设置时间窗口将一个域名紧跟着3秒内的访问域名忽略不计;
g.对域名被访问次数进行统计,并去除访问频次在5次以下的域名记录;
h.域名访问序列中出现的所有域名去重后构成词汇表,词汇表中的域名按照被访问的频次进行降序排列,本实施例词汇表大小为18825;
(2)数据表示学习阶段,经过预处理的数据传入无监督模型Skip-gram,设置相关参数,通过Skip-gram模型训练域名向量。即通过域名dj来计算上下文窗口中域名dj+c出现的概率P(dj+c|dj:θ),其中θ是需要通过模型学习的参数(矩阵的权重),即域名dj的向量化表示结果,具体流程如图3所示。
a.设置嵌入维度,即词向量输出维度D,本实施例设置为52;
b.设置上下文滑动窗口大小,本实施例为5,形成(输入域名,输出域名)形式的训练样本,并对域名根据词汇表中所处位置进行One-hot编码;
c.输入某一域名(关键词)的One-hot编码,假设输入域名在词汇表中位置为第j个,那么输入向量只有第j个元素为1,其余全为0。
d.经过一个词嵌入矩阵(行数为V,列数为D)得到嵌入词向量Vc=Ve,V表示数据集涉及的所有独立域名构成词汇表大小,D表示嵌入维度,由于输入向量只有第j列为1,那么和嵌入矩阵相乘后的结果Vc就等于抽取了嵌入矩阵的第j列。
e.Vc继续与第二个矩阵(行数为D,列数为V)相乘,即与矩阵每一列相乘,因为矩阵有V列,所以相乘后会得的到V个分数值z=Vc*Vv。
f.利用Softmax函数对这V个值进行归一化处理,转化成预估的可能出现的周围词的概率P=softmax(z)。
g.将预估的概率P和实际上下文的词的向量进行匹配,计算交叉熵。
h.采用随机负采样优化计算,降低计算量。
i.模型训练的目标是得到最大概率的可能出现的上下文,当训练完成时即获取了第一个矩阵中的每个元素的确定值,即域名的向量表示Vc。
(3)数据应用阶段,如图4所示,通过域名向量计算域名相似度,分析用户行为偏好。
计算域名之间的余弦相似距离,挖掘域名背后承载的业务逻辑关系,通常语义上具有相似性的域名,对应网站内容相似或者提供的业务具有相关逻辑关系;对域名提供的服务进行分析,挖掘用户访问同类网站的兴趣偏好,获得用户群体中受欢迎的网站类型。

Claims (4)

1.一种基于词嵌入技术的域名相似性分析方法,其特征在于,该方法包括如下步骤:
(1)数据收集与处理阶段,收集DNS查询数据并进行预处理,构建域名词表和用户访问域名序列;
(2)数据表示学习阶段,经过预处理的数据传入无监督模型Skip-gram,设置相关参数,通过Skip-gram模型训练域名向量;
(3)数据应用阶段,通过域名向量计算域名相似度,分析用户行为偏好。
2.根据权利要求1所述的基于词嵌入技术的域名相似性分析方法,其特征在于,步骤(1)中所述的数据收集与处理阶段,收集DNS查询数据并进行预处理,构建域名词表和用户访问域名序列,具体包括如下步骤:
a.收集DNS的数据流量;
b.对数据集中的DNS查询记录的类型进行筛选,只保留A、AAAA、CNAME类型;
c.将用户一段时间内先后访问的域名序列作为域名的上下文,根据用户IP和域名的对应关系构建用户访问域名序列;
d.对相邻重复域名进行处理,即同一IP连续访问同一个域名多次仅保留一个记录,交错出现的则按原样保留;
e.对子域名进行处理,减少子域名的异质性;
f.对非用户主动发出的请求进行处理,去除干扰数据;
g.对低频域名进行处理,访问次数低于某个值时忽略不计;
h.域名访问序列中出现的所有域名去重后构成词汇表,词汇表中的域名按照被访问的频次进行降序排列。
3.根据权利要求1所述的基于词嵌入技术的域名相似性分析方法,其特征在于,步骤(2)中所述的数据表示学习阶段,经过预处理的数据传入无监督模型Skip-gram,设置相关参数,通过Skip-gram模型训练域名向量,具体包括如下步骤:
a.设置嵌入维度,即词向量输出维度D;
b.设置上下文滑动窗口大小,形成以输入域名、输出域名形式的训练样本,并对域名根据词汇表中所处位置进行One-hot编码;
c.输入某一域名或关键词的One-hot编码,假设输入域名在词汇表中位置为第j个,那么输入向量只有第j个元素为1,其余全为0;
d.经过一个词嵌入矩阵,该矩阵的行数为V,列数为D,得到嵌入词向量Vc=Ve,V表示数据集涉及的所有独立域名构成词汇表大小,D表示嵌入维度,由于输入向量只有第j列为1,那么和嵌入矩阵相乘后的结果Vc就等于抽取了嵌入矩阵的第j列;
e.Vc继续与第二个矩阵,该矩阵的行数为D,列数为V,相乘,即与矩阵每一列相乘,因为矩阵有V列,所以相乘后会得的到V个分数值z=Vc*Vv;
f.利用Softmax函数对这V个值进行归一化处理,转化成预估的可能出现的周围词的概率P=softmax(z);
g.将预估的概率P和实际上下文的词的向量进行匹配,计算交叉熵;
h.采用随机负采样优化计算,降低计算量。
4.根据权利要求1所述的基于词嵌入技术的域名相似性分析方法,其特征在于,步骤(2)中所述的模型训练的目标是得到最大概率的可能出现的上下文,当训练完成时即获取了第一个矩阵中的每个元素的确定值,即域名的向量表示Vc。
CN201910220418.6A 2019-03-21 2019-03-21 一种基于词嵌入技术的域名相似性分析方法 Active CN110012122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910220418.6A CN110012122B (zh) 2019-03-21 2019-03-21 一种基于词嵌入技术的域名相似性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910220418.6A CN110012122B (zh) 2019-03-21 2019-03-21 一种基于词嵌入技术的域名相似性分析方法

Publications (2)

Publication Number Publication Date
CN110012122A true CN110012122A (zh) 2019-07-12
CN110012122B CN110012122B (zh) 2022-01-21

Family

ID=67167856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910220418.6A Active CN110012122B (zh) 2019-03-21 2019-03-21 一种基于词嵌入技术的域名相似性分析方法

Country Status (1)

Country Link
CN (1) CN110012122B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112751948A (zh) * 2020-12-28 2021-05-04 互联网域名系统北京市工程研究中心有限公司 基于协同过滤的dns缓存推荐方法
CN112835995A (zh) * 2021-02-04 2021-05-25 中国互联网络信息中心 一种基于解析关系的域名图嵌入表示分析方法及装置
CN112866257A (zh) * 2021-01-22 2021-05-28 网宿科技股份有限公司 一种域名检测方法、系统及装置
CN113259199A (zh) * 2021-05-18 2021-08-13 中国互联网络信息中心 一种域名信用监控方法及装置
CN113271292A (zh) * 2021-04-07 2021-08-17 中国科学院信息工程研究所 一种基于词向量的恶意域名集群检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
US20160065534A1 (en) * 2011-07-06 2016-03-03 Nominum, Inc. System for correlation of domain names
CN107682348A (zh) * 2017-10-19 2018-02-09 杭州安恒信息技术有限公司 基于机器学习的dga域名快速判别方法及装置
CN109450842A (zh) * 2018-09-06 2019-03-08 南京聚铭网络科技有限公司 一种基于神经网络的网络恶意行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160065534A1 (en) * 2011-07-06 2016-03-03 Nominum, Inc. System for correlation of domain names
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
CN107682348A (zh) * 2017-10-19 2018-02-09 杭州安恒信息技术有限公司 基于机器学习的dga域名快速判别方法及装置
CN109450842A (zh) * 2018-09-06 2019-03-08 南京聚铭网络科技有限公司 一种基于神经网络的网络恶意行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WALDEMAR L´OPEZ等: "《Vector representation of Internet Domain Names》", 《IEEE》 *
周昌令等: "基于深度学习的域名查询行为向量空间嵌入", 《通信学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112751948A (zh) * 2020-12-28 2021-05-04 互联网域名系统北京市工程研究中心有限公司 基于协同过滤的dns缓存推荐方法
CN112751948B (zh) * 2020-12-28 2022-11-01 互联网域名系统北京市工程研究中心有限公司 基于协同过滤的dns缓存推荐方法
CN112866257A (zh) * 2021-01-22 2021-05-28 网宿科技股份有限公司 一种域名检测方法、系统及装置
CN112866257B (zh) * 2021-01-22 2023-09-26 网宿科技股份有限公司 一种域名检测方法、系统及装置
CN112835995A (zh) * 2021-02-04 2021-05-25 中国互联网络信息中心 一种基于解析关系的域名图嵌入表示分析方法及装置
CN112835995B (zh) * 2021-02-04 2023-11-07 中国互联网络信息中心 一种基于解析关系的域名图嵌入表示分析方法及装置
CN113271292A (zh) * 2021-04-07 2021-08-17 中国科学院信息工程研究所 一种基于词向量的恶意域名集群检测方法及装置
CN113259199A (zh) * 2021-05-18 2021-08-13 中国互联网络信息中心 一种域名信用监控方法及装置
CN113259199B (zh) * 2021-05-18 2022-08-12 中国互联网络信息中心 一种域名信用监控方法及装置

Also Published As

Publication number Publication date
CN110012122B (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
CN110012122A (zh) 一种基于词嵌入技术的域名相似性分析方法
Senkul et al. Improving pattern quality in web usage mining by using semantic information
US8312035B2 (en) Search engine enhancement using mined implicit links
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN100405371C (zh) 一种提取新词的方法和系统
CN103177090B (zh) 一种基于大数据的话题检测方法及装置
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN100416569C (zh) 一种基于Web页面元数据的用户访问行为形式化描述方法
Kurashima et al. Blog map of experiences: Extracting and geographically mapping visitor experiences from urban blogs
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN1963816A (zh) 一种搜索引擎性能评价的自动化处理方法
CN101127043A (zh) 一种轻量级个性化搜索引擎及其搜索方法
CN102622445A (zh) 一种基于用户兴趣感知的网页推送系统及方法
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
CN106021418B (zh) 新闻事件的聚类方法及装置
CN110533212A (zh) 基于大数据的城市内涝舆情监测预警方法
CN110297961A (zh) 一种政策信息的快速采集与优化提取方法
Bhushan et al. Recommendation of optimized web pages to users using Web Log mining techniques
Wu et al. Mining web navigations for intelligence
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Menkov et al. AntWorld: a collaborative web search tool
Khan et al. Role of web usage mining technique for website structure redesign
Yang et al. An exploration of link-based knowledge map in academic web space
Rana et al. Analysis of web mining technology and their impact on semantic web
Yu et al. Web spam identification with user browsing graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant