CN110830607B - 域名分析方法、装置和电子设备 - Google Patents

域名分析方法、装置和电子设备 Download PDF

Info

Publication number
CN110830607B
CN110830607B CN201911085726.9A CN201911085726A CN110830607B CN 110830607 B CN110830607 B CN 110830607B CN 201911085726 A CN201911085726 A CN 201911085726A CN 110830607 B CN110830607 B CN 110830607B
Authority
CN
China
Prior art keywords
domain name
analyzed
data
training
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911085726.9A
Other languages
English (en)
Other versions
CN110830607A (zh
Inventor
仝哲
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN201911085726.9A priority Critical patent/CN110830607B/zh
Publication of CN110830607A publication Critical patent/CN110830607A/zh
Application granted granted Critical
Publication of CN110830607B publication Critical patent/CN110830607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/09Mapping addresses
    • H04L61/10Mapping addresses of different types
    • H04L61/103Mapping addresses of different types across network layers, e.g. resolution of network layer into physical layer addresses or address resolution protocol [ARP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • H04L63/205Network architectures or network communication protocols for network security for managing network security; network security policies in general involving negotiation or determination of the one or more network security mechanisms to be used, e.g. by negotiation between the client and the server or between peers or by selection according to the capabilities of the entities involved

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种域名分析方法、装置和电子设备,涉及数据处理的技术领域,包括采集待分析域名的多维度数据;基于多维度数据提取待分析域名的标签数据;将待分析域名的标签数据与待分析域名进行关联整合,生成待分析域名的画像信息。本发明方法能够基于采集到的待分析域名的多维度数据进行标签数据提取,并将得到的标签数据与待分析域名进行关联整合,最终得到待分析域名全方位的画像信息,打破了数据孤岛,从而缓解了现有技术中的域名分析方法存在的费时费力的技术问题。

Description

域名分析方法、装置和电子设备
技术领域
本发明涉及数据处理的技术领域,尤其是涉及一种域名分析方法、装置和电子设备。
背景技术
近年来,互联网的发展非常迅速,域名为伴随互联网最早出现的产物之一,人们已经对它越来越了解和认识,域名从被申请注册直到投入使用的过程中,都会产生与域名相关的特征,但是,这些特征多是以孤立数据源的形式存在,监管部门需要耗费大量的时间和精力进行深入分析,才能获得域名的全方位数据。
综上所述,现有技术中的域名分析方法存在费时费力的技术问题。
发明内容
本发明的目的在于提供一种域名分析方法、装置和电子设备,以缓解了现有技术中的域名分析方法存在的费时费力的技术问题。
第一方面,实施例提供一种域名分析方法,包括:采集待分析域名的多维度数据;基于所述多维度数据提取所述待分析域名的标签数据;将所述待分析域名的标签数据与所述待分析域名进行关联整合,生成所述待分析域名的画像信息。
在可选的实施方式中,基于所述多维度数据提取所述待分析域名的标签数据,包括:对所述多维度数据进行清洗,得到清洗后的多维度数据;利用域名静态评分模型对所述待分析域名进行评分,得到所述待分析域名的评分数据;基于所述清洗后的多维度数据和所述评分数据提取所述待分析域名的标签数据。
在可选的实施方式中,所述方法还包括:获取训练域名集;对所述训练域名集中的每个训练域名进行特征提取,得到每个所述训练域名的目标特征;基于所述目标特征构建初始评分模型;对所述初始评分模型进行训练,得到域名静态评分模型。
在可选的实施方式中,对所述训练域名集中的每个训练域名进行特征提取,得到每个所述训练域名的目标特征,包括:对每个所述训练域名进行向量化处理,得到每个所述训练域名对应的训练向量;利用自然语言处理技术对每个所述训练域名进行处理,得到每个所述训练域名的词法特征和每个所述训练域名的网络特征;将所述训练向量、所述词法特征和所述网络特征作为所述每个训练域名的目标特征。
在可选的实施方式中,所述方法还包括:将所述画像信息输入域名团伙分类模型,得到所述待分析域名对应的攻击团伙。
在可选的实施方式中,所述方法还包括:获取训练域名画像信息集;对所述训练域名画像信息集进行聚类,得到多个域名攻击团伙;提取每个所述域名攻击团伙的攻击特征;基于所述攻击特征构建初始分类模型;对所述初始分类模型进行训练,得到域名团伙分类模型。
第二方面,实施例提供一种域名分析装置,包括:采集模块,用于采集待分析域名的多维度数据;提取模块,用于基于所述多维度数据提取所述待分析域名的标签数据;整合模块,用于将所述待分析域名的标签数据与所述待分析域名进行关联整合,生成所述待分析域名的画像信息。
在可选的实施方式中,所述提取模块包括:清洗单元,用于对所述多维度数据进行清洗,得到清洗后的多维度数据;评分单元,用于利用域名静态评分模型对所述待分析域名进行评分,得到所述待分析域名的评分数据;提取单元,用于基于所述清洗后的多维度数据和所述评分数据提取所述待分析域名的标签数据。
第三方面,实施例提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述前述实施方式中任一项所述的方法的步骤。
第四方面,实施例提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行前述实施方式中任一项所述的方法。
本发明提供的域名分析方法,包括:采集待分析域名的多维度数据;基于多维度数据提取待分析域名的标签数据;将待分析域名的标签数据与待分析域名进行关联整合,确定待分析域名的画像信息。
现有技术中,存在着各种各样与域名相关的孤立数据源,监管部门若想对域名进行全方位的了解,需要耗费大量人力物力进行分析,既费时又费力,与现有技术相比,本发明提供了一种域名分析方法,能够基于采集到的待分析域名的多维度数据进行标签数据提取,并将得到的标签数据与待分析域名进行关联整合,最终得到待分析域名全方位的画像信息,打破了数据孤岛,从而缓解了现有技术中的域名分析方法存在的费时费力的技术问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种域名分析方法的流程图;
图2为本发明实施例提供的一种训练得到域名静态评分模型的过程的流程图;
图3为本发明实施例提供的一种可选的域名分析方法的流程图;
图4为本发明实施例提供的一种域名分析装置的功能模块图;
图5为本发明实施例提供的一种可选的域名分析装置的功能模块图;
图6为本发明实施例提供的一种电子设备的示意图。
图标:10-采集模块;20-提取模块;30-整合模块;40-域名团伙分类模块;50-处理器;51-存储器;52-总线;53-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
现有技术中存在着各种各样的与域名相关的孤立数据源,如何整合这些数据源,进行聚合分析,提炼出对域名的全方位画像,以及基于域名的画像,对其进行攻击团伙分类,就成为了行业监管部门关注的焦点。
现有技术中主要存在的问题有以下两点:
第一:各类与域名相关的数据源形成数据孤岛,没有充分挖掘多维数据之间的关联关系,无法对域名进行全面画像;
第二:无法对域名进行规整,发现可能的攻击团伙。
因此,如何利用多维数据对域名进行画像,以及如何对域名进行攻击团伙分类是亟待解决的问题,若能够基于现有数据构建一个能够对域名进行画像和攻击团伙分类的系统,提供一个域名即可知道其所有相关信息,如已发生的事件、所属攻击团伙、该团伙的攻击特性等,则可以大大改善目前监管部门的工作方式,以及提高监管部门的工作效率。有鉴于此,本发明实施例提供了一种域名分析方法。
实施例一
本发明实施例提供了一种域名分析方法,如图1所示,该方法包括如下步骤:
步骤S11,采集待分析域名的多维度数据。
具体的,要对待分析域名进行分析,首先需要采集与其相关的多维度数据,在本发明实施例中,待分析域名的多维度数据包括可以通过行业监管部门的现有系统或技术手段获取的待分析域名注册数据、待分析域名权威解析数据、DNS(Domain Name System,域名系统)日志数据、网站备案数据、网络安全事件数据等。
其中,待分析域名注册信息包括:待分析域名注册时间、待分析域名过期时间、待分析域名注册单位、待分析域名注册地址、待分析域名状态等信息;待分析域名权威解析数据包括:待分析域名IP地址、待分析域名解析状态、待分析域名托管开始时间等;DNS日志数据是通过在DNS节点部署探针,对流量进行镜像,采集UDP(User Datagram Protocol,用户数据报协议)协议的响应包,并从数据中提取DNS六元组(cname,源IP、目的IP、解析IP、domain,访问时间)信息;网站备案数据包括:网站备案单位名称、地址、备案状态等信息;网络安全事件数据是指存在网络安全问题的网站列表信息。
步骤S12,基于多维度数据提取待分析域名的标签数据。
在获取到多维度数据后,各维度数据之间都是孤立的,存在数据孤岛的问题,所以本发明实施例需要将上述多维度数据进行融合,并提取待分析域名的标签数据,其中,上述标签数据是能够对待分析域名进行全面描述的数据。
步骤S13,将待分析域名的标签数据与待分析域名进行关联整合,生成待分析域名的画像信息。
在提取出待分析域名的标签数据后,可以通过构建关联模型,将得到的标签数据与待分析域名进行关联整合,最终生成待分析域名的画像信息。
现有技术中,存在着各种各样与域名相关的孤立数据源,监管部门若想对域名进行全方位的了解,需要耗费大量人力物力进行分析,既费时又费力,与现有技术相比,本发明提供了一种域名分析方法,能够基于采集到的待分析域名的多维度数据进行标签数据提取,并将得到的标签数据与待分析域名进行关联整合,最终得到待分析域名全方位的画像信息,打破了数据孤岛,从而缓解了现有技术中的域名分析方法存在的费时费力的技术问题。
上文中对如何对待分析域名进行分析的方法进行了简要的描述,下面对其中涉及的如何提取待分析域名的标签数据的过程进行详细的介绍。
在一个可选的实施方式中,上述步骤S12,基于多维度数据提取待分析域名的标签数据,具体包括如下步骤:
步骤S121,对多维度数据进行清洗,得到清洗后的多维度数据。
在采集到多维度数据后,首先需要对多维数据进行清洗,去除其中的异常值、缺失值等无效数据,进而得到清洗后的多维度数据,例如,若规定网站备案号为8位阿拉伯数字,但是获取到的备案号中的8位数据均是0,那么可以肯定,这个备案号就属于上述提到的异常值,需要将其清除;或者获取到的多维数据中,发现某个维度上的数据未获取到,例如备案号的数据是空的,那么这个备案号就属于上述提到的缺失值,也要将其清除。鉴于获取到的多维度数据的数据量较大,所以一般情况下,只要上述异常值与缺失值在一定容限范围内,剩余维度的数据依然能够反映待分析域名的行为。
步骤S122,利用域名静态评分模型对待分析域名进行评分,得到待分析域名的评分数据。
在本发明实施例中,在对待分析域名进行画像时,还添加了待分析域名的评分数据,该评分数据是利用域名静态评分模型得到的,该模型的输入数据为域名,输出即为域名的评分数据。下文中将对训练得到域名静态评分模型的过程进行详细介绍。
步骤S123,基于清洗后的多维度数据和评分数据提取待分析域名的标签数据。
最后,在得到清洗后的多维度数据和待分析域名的评分数据后,将从中提取待分析域名的标签数据,在本发明实施例中,域名的标签是基于能够获取到的多维度数据预先构建的,标签数据是从下面的多维度数据中分析提取的,例如:通过域名静态评分模型能够获取待分析域名的评分数据;通过待分析域名注册数据能够获知网站最新的状态,网站最新的状态包括以下任一种:正常状态、禁止解析状态、停止状态;通过待分析域名权威解析数据能够判别网站解析状态是否正常,判别待分析域名是否频繁更换权威解析服务商;通过DNS日志数据,能够分析出待分析域名访问量信息、待分析域名流量异常信息、待分析域名存活时间、受控主机活跃度和操作系统等;通过备案数据获知网站备案状态,当网站处于未备案状态,判别为网站违规风险高,则该域名风险系数为高;通过网络安全时间信息库与网站信息库进行比对,生成网站安全事件记录,网站安全事件记录空置说明网站无安全事件历史,则该域名为正常域名,本发明实施例不对域名的标签数量进行具体限制,用户可以根据实际情况进行增加或减少。
上文中对如何进行标签数据的提取进行了详细的描述,下面对训练域名静态评分模型的过程进行详细介绍。
在一个可选的实施方式中,如图2所示,训练得到域名静态评分模型的过程具体包括如下步骤:
步骤S21,获取训练域名集。
具体的,在训练之前,首先获取训练域名集,该训练域名集中应包括网上公开的白名单域名和黑名单域名,并将白名单域名标记为正样本,黑名单域名标记为负样本,同时按照预设规则给训练域名集中的每个训练域名进行评分。
步骤S22,对训练域名集中的每个训练域名进行特征提取,得到每个训练域名的目标特征。
在得到训练域名集后,还需要进一步的对每个训练域名进行特征提取,从而得到每个训练域名的目标特征,其中,目标特征为待分析域名的多维度特征,例如:顶级域名、域名长度、数字占比、重复字符、n-gram信息等。
步骤S23,基于目标特征构建初始评分模型。
步骤S24,对初始评分模型进行训练,得到域名静态评分模型。
基于上述目标特征,利用机器学习中的逻辑回归模型或深度学习方法,基于训练域名的目标特征构建初始评分模型,其中,在训练过程中,优选将样本数据按照4:1:1的比例分为训练集、测试集和验证集,在训练集上进行域名静态评分模型构建,在验证集上进行模型参数调整和优化,并在测试集上进行模型评测,通过训练调整,最终得到域名静态评分模型,本发明实施例不对训练集、测试集和验证集的样本数量进行具体限制,用户可以根据实际情况进行重新配置。
所以将待分析域名输入域名静态评分模型,输出既为待分析域名的评分数据,该评分数据的表现形式可以为预测待分析域名属于白名单域名的概率、属于黑名单域名的概率以及结合上述概率给出的综合评分结果。
在一个可选的实施方式中,上述步骤S22,对训练域名集中的每个训练域名进行特征提取,得到每个训练域名的目标特征,具体包括如下步骤:
步骤S221,对每个训练域名进行向量化处理,得到每个训练域名对应的训练向量。
具体的,由于域名是字符,不能直接参与模型运算,因此需要对域名进行向量化处理,可以使用的技术包括:One-Hot(独热编码)、TF-IDF(term frequency–inversedocument frequency,词频-逆向文件频率)或词嵌入方法,其中,One-Hot(独热编码),是先将域名转换为字符级,然后构建一个长度为所有可能出现的字符的长度的零向量,然后将域名中出现的字符对应的索引位置上的值改为1,其它不变;TF-IDF使用时一般选择Tri-gram(三元)语言模型,也即,将域名”google.com”转换为<‘g o o’,‘o o g’,‘o g l’,‘g le’,‘l e.’,‘e.c’,‘.c o’,‘c o m’>后再进行向量化处理;词嵌入方法,即将域名映射到一个高维的向量中(词向量)来代表这个单词,使用时一般高维向量的维度选择300。
步骤S222,利用自然语言处理技术对每个训练域名进行处理,得到每个训练域名的词法特征和每个训练域名的网络特征。
进一步的,本发明实施例还利用自然语言处理技术对每个训练域名进行处理,得到每个训练域名的词法特征和每个训练域名的网络特征,其中,词法特征包括:域名长度、分隔符个数、数字占总长度的比例、特殊字符个数、域名分隔符间的最大长度等;网络特征包括:TTL平均值、应答类型、应答值个数等。
步骤S223,将训练向量、词法特征和网络特征作为每个训练域名的目标特征。
可选的,还可以利用LSTM(Long-Short Term Memory,长短期记忆)神经网络,从训练域名中提取隐含特征信息,然后将隐含特征信息、训练向量、词法特征和网络特征一起作为每个训练域名的目标特征,或者,只将LSTM神经网络输出的隐含特征信息作为目标特征,用户可以根据实际情况选择其中一种目标特征,再对模型进行训练。
LSTM称为长短期记忆网络,是RNN(Recursive Neural Network,递归神经网络)网络的一种特殊结构,与RNN相比:可以拟合序列数据,考虑词序特性,以及通过遗忘门和输出门“遗弃”部分信息来解决梯度消失的问题。
上文中对如何打破数据孤岛,得到待分析域名的画像信息的过程进行了详细的描述,下面将如何对待分析域名进行攻击团伙分类的过程进行详细的介绍。
在一个可选的实施方式中,如图3所示,该方法还包括如下步骤:
步骤S14,将画像信息输入域名团伙分类模型,得到待分析域名对应的攻击团伙。
在得到待分析域名的全方位的画像信息后,为了进一步的对待分析域名进行深入分析归类,还可以将画像信息输入域名团伙分类模型,得到待分析域名对应的攻击团伙。域名团伙分类模型中的每个攻击团伙都已被标记相应的攻击特征,所以在对待分析域名进行分类后,能够对待分析域名的行为进行进一步的分析和监测。
其中,训练得到域名团伙分类模型的过程具体包括如下步骤:
步骤S31,获取训练域名画像信息集。
具体的,要得到域名团伙分类模型,首先需要获取训练域名画像信息集,训练域名画像信息集是包括多个训练域名的画像信息的集合。
步骤S32,对训练域名画像信息集进行聚类,得到多个域名攻击团伙。
在得到画像信息集后,本发明实施例利用机器学习方法对画像信息集进行聚类规整,进而能够得到多个域名攻击团伙,优选的,采用KMeans算法对训练域名画像信息集进行聚类,KMeans算法中的K代表类簇个数,Means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述),因此,KMeans算法又称为K均值算法,KMeans算法是一种基于划分的聚类算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。数据对象间距离的计算有很多种,KMeans算法通常采用欧氏距离来计算数据对象间的距离。
步骤S33,提取每个域名攻击团伙的攻击特征。
经过上述对画像信息集的聚类,得到了多个域名攻击团伙,进一步的,还需要对每个域名攻击团伙的攻击特征进行提取,也就是说,需要分析每个团伙中的域名都具备哪些共性,本发明实施例利用主题模型和关键词提取等自然语言处理技术从各域名攻击团伙中抽取团伙的描述信息,并将这个描述信息作为域名攻击团伙的攻击特征,包括:攻击手法、攻击时间、攻击区域和攻击对象等。
步骤S34,基于攻击特征构建初始分类模型。
步骤S35,对初始分类模型进行训练,得到域名团伙分类模型。
在提取了每个域名攻击团伙的攻击特征后,基于每个攻击团伙的攻击特征,利用机器学习中的逻辑回归方法或者深度学习方法,构建初始分类模型,然后对该模型进行训练,进而得到域名团伙分类模型。
本发明实施例结合了自然语言处理技术、机器学习和深度学习等技术,提供了一种域名分析方法,利用该方法能够基于待分析域名的多维度数据确定待分析域名的画像信息,以及利用域名团伙分类模型对待分析域名进行攻击团伙分类,对域名行为检测和攻击团伙溯源提供了重要技术支撑,为行业监管部门的工作提供重要参考。
实施例二
本发明实施例还提供了一种域名分析装置,该域名分析装置主要用于执行上述实施例一中所提供的域名分析方法,以下对本发明实施例提供的域名分析装置做具体介绍。
图4是根据本发明实施例的一种域名分析装置的功能模块图,如图4所示,该装置主要包括:采集模块10,提取模块20,整合模块30,其中:
采集模块10,用于采集待分析域名的多维度数据。
提取模块20,用于基于多维度数据提取待分析域名的标签数据。
整合模块30,用于将待分析域名的标签数据与待分析域名进行关联整合,生成待分析域名的画像信息。
现有技术中,存在着各种各样与域名相关的孤立数据源,监管部门若想对域名进行全方位的了解,需要耗费大量人力物力进行分析,既费时又费力,与现有技术相比,本发明提供了一种域名分析装置,能够基于采集到的待分析域名的多维度数据进行标签数据提取,并将得到的标签数据与待分析域名进行关联整合,最终得到待分析域名全方位的画像信息,打破了数据孤岛,从而缓解了现有技术中的域名分析方法存在的费时费力的技术问题。
可选的,提取模块20包括:
清洗单元,用于对多维度数据进行清洗,得到清洗后的多维度数据。
评分单元,用于利用域名静态评分模型对待分析域名进行评分,得到待分析域名的评分数据。
提取单元,用于基于清洗后的多维度数据和评分数据提取待分析域名的标签数据。
可选的,该装置还包括:
第一获取模块,用于获取训练域名集。
第一提取模块,用于对训练域名集中的每个训练域名进行特征提取,得到每个训练域名的目标特征。
第一构建模块,用于基于目标特征构建初始评分模型。
第一训练模块,用于对初始评分模型进行训练,得到域名静态评分模型。
可选的,第一提取模块具体用于:
对每个训练域名进行向量化处理,得到每个训练域名对应的训练向量。
利用自然语言处理技术对每个训练域名进行处理,得到每个训练域名的词法特征和每个训练域名的网络特征。
将训练向量、词法特征和网络特征作为每个训练域名的目标特征。
可选的,如图5所示,该装置还包括:
域名团伙分类模块40,用于将画像信息输入域名团伙分类模型,得到待分析域名对应的攻击团伙。
可选的,该装置还包括:
第二获取模块,用于获取训练域名画像信息集。
聚类模块,用于对训练域名画像信息集进行聚类,得到多个域名攻击团伙。
第二提取模块,用于提取每个域名攻击团伙的攻击特征。
第二构建模块,用于基于攻击特征构建初始分类模型。
第二训练模块,用于对初始分类模型进行训练,得到域名团伙分类模型。
实施例三
参见图6,本发明实施例提供了一种电子设备,该电子设备包括:处理器50,存储器51,总线52和通信接口53,所述处理器50、通信接口53和存储器51通过总线52连接;处理器50用于执行存储器51中存储的可执行模块,例如计算机程序。
其中,存储器51可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线52可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器51用于存储程序,所述处理器50在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器50中,或者由处理器50实现。
处理器50可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51,处理器50读取存储器51中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的域名分析方法、装置及电子设备的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种域名分析方法,其特征在于,包括:
采集待分析域名的多维度数据;
基于所述多维度数据提取所述待分析域名的标签数据;其中,所述标签数据包括:所述待分析域名的评分数据;且所述评分数据为利用域名静态评分模型对所述待分析域名进行评分所得到的数据;所述评分数据包括:所述待分析域名属于白名单域名的概率、所述待分析域名属于黑名单域名的概率和所述待分析域名的综合评分结果;
将所述待分析域名的标签数据与所述待分析域名进行关联整合,生成所述待分析域名的画像信息;
所述方法还包括:
获取训练域名集;
对所述训练域名集中的每个训练域名进行特征提取,得到每个所述训练域名的目标特征;所述目标特征包括:顶级域名、域名长度、数字占比、重复字符、n-gram信息;
基于所述目标特征构建初始评分模型;
对所述初始评分模型进行训练,得到域名静态评分模型。
2.根据权利要求1所述的方法,其特征在于,基于所述多维度数据提取所述待分析域名的标签数据,包括:
对所述多维度数据进行清洗,得到清洗后的多维度数据;
利用域名静态评分模型对所述待分析域名进行评分,得到所述待分析域名的评分数据;
基于所述清洗后的多维度数据和所述评分数据提取所述待分析域名的标签数据。
3.根据权利要求1所述的方法,其特征在于,对所述训练域名集中的每个训练域名进行特征提取,得到每个所述训练域名的目标特征,包括:
对每个所述训练域名进行向量化处理,得到每个所述训练域名对应的训练向量;
利用自然语言处理技术对每个所述训练域名进行处理,得到每个所述训练域名的词法特征和每个所述训练域名的网络特征;
将所述训练向量、所述词法特征和所述网络特征作为所述每个训练域名的目标特征。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述画像信息输入域名团伙分类模型,得到所述待分析域名对应的攻击团伙。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取训练域名画像信息集;
对所述训练域名画像信息集进行聚类,得到多个域名攻击团伙;
提取每个所述域名攻击团伙的攻击特征;
基于所述攻击特征构建初始分类模型;
对所述初始分类模型进行训练,得到域名团伙分类模型。
6.一种域名分析装置,其特征在于,包括:
采集模块,用于采集待分析域名的多维度数据;
提取模块,用于基于所述多维度数据提取所述待分析域名的标签数据;其中,所述标签数据包括:所述待分析域名的评分数据;且所述评分数据为利用域名静态评分模型对所述待分析域名进行评分所得到的数据;所述评分数据包括:所述待分析域名属于白名单域名的概率、所述待分析域名属于黑名单域名的概率和所述待分析域名的综合评分结果;
整合模块,用于将所述待分析域名的标签数据与所述待分析域名进行关联整合,生成所述待分析域名的画像信息;
所述装置还包括:
第一获取模块,用于获取训练域名集;
第一提取模块,用于对所述训练域名集中的每个训练域名进行特征提取,得到每个所述训练域名的目标特征;所述目标特征包括:顶级域名、域名长度、数字占比、重复字符、n-gram信息;
第一构建模块,用于基于所述目标特征构建初始评分模型;
第一训练模块,用于对所述初始评分模型进行训练,得到域名静态评分模型。
7.根据权利要求6所述的装置,其特征在于,所述提取模块包括:
清洗单元,用于对所述多维度数据进行清洗,得到清洗后的多维度数据;
评分单元,用于利用域名静态评分模型对所述待分析域名进行评分,得到所述待分析域名的评分数据;
提取单元,用于基于所述清洗后的多维度数据和所述评分数据提取所述待分析域名的标签数据。
8.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5中任一项所述的方法的步骤。
9.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行权利要求1至5中任一项所述的方法。
CN201911085726.9A 2019-11-08 2019-11-08 域名分析方法、装置和电子设备 Active CN110830607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911085726.9A CN110830607B (zh) 2019-11-08 2019-11-08 域名分析方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911085726.9A CN110830607B (zh) 2019-11-08 2019-11-08 域名分析方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN110830607A CN110830607A (zh) 2020-02-21
CN110830607B true CN110830607B (zh) 2022-07-08

Family

ID=69553409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911085726.9A Active CN110830607B (zh) 2019-11-08 2019-11-08 域名分析方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110830607B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220124101A1 (en) * 2019-03-07 2022-04-21 Lookout, Inc. Domain name and url visual verification for increased security

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111800404B (zh) * 2020-06-29 2023-03-24 深信服科技股份有限公司 一种对恶意域名的识别方法、装置以及存储介质
CN116324768A (zh) * 2020-07-16 2023-06-23 华为技术有限公司 用于主机标识符分类的网络设备及方法
CN112910888A (zh) * 2021-01-29 2021-06-04 杭州迪普科技股份有限公司 非法域名注册团伙挖掘方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404495A (zh) * 2017-09-01 2017-11-28 北京亚鸿世纪科技发展有限公司 一种基于ip地址画像的装置
CN107454076A (zh) * 2017-08-01 2017-12-08 北京亚鸿世纪科技发展有限公司 一种网站画像方法
CN107682348A (zh) * 2017-10-19 2018-02-09 杭州安恒信息技术有限公司 基于机器学习的dga域名快速判别方法及装置
CN108510332A (zh) * 2018-04-17 2018-09-07 中国互联网络信息中心 一种域名信誉评定方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107454076A (zh) * 2017-08-01 2017-12-08 北京亚鸿世纪科技发展有限公司 一种网站画像方法
CN107404495A (zh) * 2017-09-01 2017-11-28 北京亚鸿世纪科技发展有限公司 一种基于ip地址画像的装置
CN107682348A (zh) * 2017-10-19 2018-02-09 杭州安恒信息技术有限公司 基于机器学习的dga域名快速判别方法及装置
CN108510332A (zh) * 2018-04-17 2018-09-07 中国互联网络信息中心 一种域名信誉评定方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Domain Flux僵尸网络中的恶意域名检测系统的设计与实现;徐琳;《中国优秀硕士学位论文全文数据库信息科技辑,2008年》;20080215(第2期);正文第4.3.3节 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220124101A1 (en) * 2019-03-07 2022-04-21 Lookout, Inc. Domain name and url visual verification for increased security

Also Published As

Publication number Publication date
CN110830607A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110830607B (zh) 域名分析方法、装置和电子设备
US20210240682A1 (en) Automatic entity resolution with rules detection and generation system
CN108200034B (zh) 一种识别域名的方法及装置
CN110163647B (zh) 一种数据处理方法及装置
CN111818198B (zh) 域名检测方法、域名检测装置和设备以及介质
US20120089620A1 (en) Extracting data
CN111935097B (zh) 一种检测dga域名的方法
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN113645173A (zh) 一种恶意域名的识别方法、系统和设备
CN110147839A (zh) 基于XGBoost的算法生成域名检测模型的方法
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置
KR20200063067A (ko) 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법
CN113965377A (zh) 一种攻击行为检测方法及装置
CN111200576A (zh) 一种基于机器学习实现恶意域名识别的方法
CN113315851A (zh) 域名检测方法、装置及存储介质
CN117675387A (zh) 基于用户行为分析的网络安全风险预测方法及系统
CN111431884B (zh) 一种基于dns分析的主机失陷检测方法及装置
CN108875060B (zh) 一种网站识别方法及识别系统
CN112149121A (zh) 一种恶意文件识别方法、装置、设备及存储介质
CN110929506A (zh) 一种垃圾信息检测方法、装置、设备及可读存储介质
KR101863569B1 (ko) 머신 러닝 기반의 취약점 정보를 분류하는 방법 및 장치
CN113688240B (zh) 威胁要素提取方法、装置、设备及存储介质
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质
CN114064893A (zh) 一种异常数据审核方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant