CN113381962B - 一种数据处理方法、装置和存储介质 - Google Patents

一种数据处理方法、装置和存储介质 Download PDF

Info

Publication number
CN113381962B
CN113381962B CN202010117084.2A CN202010117084A CN113381962B CN 113381962 B CN113381962 B CN 113381962B CN 202010117084 A CN202010117084 A CN 202010117084A CN 113381962 B CN113381962 B CN 113381962B
Authority
CN
China
Prior art keywords
domain name
data
feature
determining
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010117084.2A
Other languages
English (en)
Other versions
CN113381962A (zh
Inventor
陈扬
雷昕
闫凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202010117084.2A priority Critical patent/CN113381962B/zh
Priority to PCT/CN2021/074447 priority patent/WO2021169730A1/zh
Publication of CN113381962A publication Critical patent/CN113381962A/zh
Application granted granted Critical
Publication of CN113381962B publication Critical patent/CN113381962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Abstract

本发明公开了一种数据处理方法、装置和存储介质,其中,方法包括:获取初始数据;所述初始数据至少包括初始DNS数据;对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。

Description

一种数据处理方法、装置和存储介质
技术领域
本发明涉及信息安全技术,尤其涉及一种数据处理方法、装置和计算机可读存储介质。
背景技术
在域名系统(DNS,Domain Name System)安全中,大部分引擎都是从某一个已知的安全问题出发,每个引擎解决特定场景的安全问题,例如:域生成算法(DGA,Domaingeneration algorithms)解决黑客通过随机字符拼接产生的域名实现C2通信的问题,DNS隧道通过在域名里加入编码信息解决信息盗窃的问题。这些单点引擎基本都是基于某种特定场景进行分析检测,而提取单个特定场景下的局部特征去进行分析检测,局部特征覆盖面不全、表征能力不足,往往无法较好的表征一种恶意行为,容易造成误报。
发明内容
有鉴于此,本发明的主要目的在于提供一种数据处理方法、装置和计算机可读存储介质。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种数据处理方法,所述方法包括:
获取初始数据;所述初始数据至少包括初始域名系统DNS数据;
对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。
上述方案中,所述初始数据,还包括:应用防火墙AF安全日志;
所述对所述初始数据进行数据分析之前,所述方法还包括:
分析所述初始DNS数据和所述AF安全日志,根据分析结果将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据;
相应的,所述对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量,包括:
对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征;
根据各域名的至少一种特征,确定各域名的特征向量。
上述方案中,所述至少一种特征,包括以下至少之一:主机侧特征、IP侧特征;
所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括以下至少之一:
根据所述目标DNS数据,构造第一二分图;所述第一二分图表征域名与主机的对应关系;根据所述第一二分图提取域名对应的主机侧特征;所述主机侧特征,包括以下至少之一:域名被黑主机访问的占比、域名对应的主机数量;
根据所述目标DNS数据,构造第二二分图;所述第二二分图表征域名与IP的对应关系;根据所述第二二分图提取域名对应的IP侧特征;所述IP侧特征,包括以下至少之一:域名的解析率、不同域名解析到同一解析IP的概率。
上述方案中,所述至少一种特征,包括:域名活跃度特征;
所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括以下至少之一:
确定各域名在预设第一时间段内的被访问次数;
确定各域名在预设第二时间段内的连续被访问次数。
上述方案中,所述至少一种特征,包括:域名文法特征;
所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
针对域名执行以下至少之一:
确定域名中的至少一个单词和所述至少一个单词中各单词的意义,根据确定的有意义的单词确定所述有意义的单词的占比;
确定域名的长度;
确定域名的层级;
确定域名中数字的占比。
上述方案中,所述至少一种特征,包括:时间特征;
所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
根据所述目标DNS数据,提取各域名对应的被访问次数和被访问时间;
根据各域名在预设第三时间段内的被访问次数和被访问时间,确定各域名对应的第一流量序列;
运用预设的流量编码器,对所述第一流量序列进行特征增强处理,得到第二流量序列,作为域名的时间特征。
上述方案中,所述至少一种特征,包括:空间特征;
所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
从目标DNS数据中,提取每台主机的域名访问序列;所述域名访问序列包括至少一个域名;
运用预设的Skip-Gram模型识别所述域名访问序列,确定所述域名访问序列中各域名的向量,作为域名的空间特征。
本发明实施例提供了一种数据处理装置,所述装置包括:第一处理模块、第二处理模块;其中,
所述第一处理模块,用于获取初始数据;所述初始数据至少包括初始DNS数据;
所述第二处理模块,用于对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。
上述方案中,所述初始数据,还包括:应用防火墙AF安全日志;
所述第二处理模块,还用于分析所述初始DNS数据和所述AF安全日志,根据分析结果将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据;
相应的,所述第二处理模块,具体用于对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征;
根据各域名的至少一种特征,确定各域名的特征向量。
上述方案中,所述至少一种特征,包括以下至少之一:主机侧特征、IP侧特征;
所述第二处理模块,具体用于执行以下至少之一:
根据所述目标DNS数据,构造第一二分图;所述第一二分图表征域名与主机的对应关系;根据所述第一二分图提取域名对应的主机侧特征;所述主机侧特征,包括以下至少之一:域名被黑主机访问的占比、域名对应的主机数量;
根据所述目标DNS数据,构造第二二分图;所述第二二分图表征域名与IP的对应关系;根据所述第二二分图提取域名对应的IP侧特征;所述IP侧特征,包括以下至少之一:域名的解析率、不同域名解析到同一解析IP的概率。
上述方案中,所述至少一种特征,包括:域名活跃度特征;
所述第二处理模块,具体用于执行以下至少之一:
确定各域名在预设第一时间段内的被访问次数;
确定各域名在预设第二时间段内的连续被访问次数。
上述方案中,所述至少一种特征,包括:域名文法特征;
所述第二处理模块,具体用于针对域名执行以下至少之一:
确定域名中的至少一个单词和所述至少一个单词中各单词的意义,根据确定的有意义的单词确定所述有意义的单词的占比;
确定域名的长度;
确定域名的层级;
确定域名中数字的占比。
上述方案中,所述至少一种特征,包括:时间特征;
所述第二处理模块,具体用于根据所述目标DNS数据,提取各域名对应的被访问次数和被访问时间;
根据各域名在预设第三时间段内的被访问次数和被访问时间,确定各域名对应的第一流量序列;
运用预设的流量编码器,对所述第一流量序列进行特征增强处理,得到第二流量序列,作为域名的时间特征。
上述方案中,所述至少一种特征,包括:空间特征;
所述第二处理模块,具体用于从目标DNS数据中,提取每台主机的域名访问序列;所述域名访问序列包括至少一个域名;
运用预设的Skip-Gram模型识别所述域名访问序列,确定所述域名访问序列中各域名的向量,作为域名的空间特征。
本发明实施例提供了一种数据处理装置,所述装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行上述任一项数据处理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上任一项所述数据处理方法的步骤。
本发明实施例所提供的数据处理方法、装置和计算机可读存储介质,获取初始数据;所述初始数据至少包括初始DNS数据;对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。本发明实施例中,根据DNS数据获取域名的多个特征,即获得特征向量,通过多维度表征域名在DNS层面的行为,可以全面的分析域名,提高分析的准确性和全面性。
附图说明
图1为本发明实施例提供的一种数据处理方法的流程示意图;
图2为本发明实施例提供的另一种数据处理方法的流程示意图;
图3为本发明实施例提供的一种数据处理装置的结构示意图;
图4为本发明实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
在本发明的各种实施例中,获取初始数据;所述初始数据至少包括初始DNS数据;对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。
下面结合实施例对本发明再作进一步详细的说明。
图1为本发明实施例提供的一种数据处理方法的流程示意图;如图1所示,所述数据处理方法包括:
步骤101、获取初始数据;所述初始数据至少包括初始域名系统(DNS,Domain NameSystem)数据;
步骤102、对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。
这里,所述特征为域名在DNS层面上的行为特征。
具体地,步骤101中,所述初始数据,还包括:应用防火墙(AF,ApplicationFirewall)安全日志;所述安全日志,包括:DNS流量日志、WEB日志和防火墙日志等。
所述对所述初始数据进行数据分析之前,所述方法还包括:
分析所述初始DNS数据和所述AF安全日志,根据分析结果将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据。
这里,为了保证日志的完整性,将所述初始DNS数据和AF安全日志进行拼接。所述分析至少包括确定初始DNS数据和AF安全日志中是否有同一域名;所述拼接至少包括将初始DNS数据和AF安全日志中同一域名的相关数据进行拼接,以保证数据的完整性。
拼接后,所述方法还可以包括:对拼接后的数据进行清洗,最终得到目标DNS数据。
所述数据清洗,指发现并纠正数据中可识别的错误,包括检查数据一致性、处理无效值和缺失值等。所述数据清洗可以基于开发人员预设的规则进行处理,这里不做限定。
相应的,步骤102中,所述对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量,包括:
对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征;
根据各域名的至少一种特征,确定各域名的特征向量。
这里,所述特征向量包括域名的至少一种特征。
具体地,所述至少一种特征包括:主机侧特征;
相应的,所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
根据所述目标DNS数据,构造第一二分图;所述第一二分图表征域名与主机的对应关系;
根据所述第一二分图提取域名对应的主机侧特征;所述主机侧特征,包括以下至少之一:各域名被黑主机访问的占比、各域名对应的主机数量。
所述黑主机是指确定某一个主机访问已知黑域名(所述黑域名保存在黑库中),则判定为黑主机。
域名被黑主机访问的占比=被黑主机访问的次数/被访问的总次数;
域名对应的主机数量为访问域名的主机的数量。
具体地,所述至少一种特征包括:IP侧特征;
相应的,所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
根据所述目标DNS数据,构造第二二分图;所述第二二分图表征域名与网际互连协议(IP,Internet Protocol)的对应关系;
根据所述第二二分图提取域名对应的IP侧特征;所述IP侧特征,包括以下至少之一:域名的解析率、不同域名解析到同一解析IP的概率。
针对所述解析率来说,利用DNS数据(所述DNS数据可以通过网络爬虫抓取)计算域名的解析率,所述解析率=域名可解析记录的数量/域名记录的总数量;
针对不同域名解析到同一解析IP的概率来说,DNS数据下,域名解析到同一解析IP的概率=该域名与其他域名相同的解析IP的数量/该域名所有的解析IP的数量。
具体地,所述至少一种特征,包括:域名侧特征;
所述域名侧特征,具体包括:域名活跃度特征和域名文法特征;
所述域名活跃度特征,表征域名在全网范围内的活跃信息,统计各域名和各顶级域名在DNS数据中的总出现情况(即被访问次数)以及连续出现的情况(即连续被访问次数)。
针对所述顶级域名进行说明,域名由两组或两组以上的ASCII或各国语言字符构成,各组字符间由点号分隔开,最右边的字符组称为顶级域名或一级域名、倒数第二组称为二级域名、倒数第三组称为三级域名、以此类推。
相应的,所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括以下至少之一:
确定各域名在预设第一时间段内的被访问次数;
确定各域名在预设第二时间段内的连续被访问次数。
所述第一时间段和所述第二时间段可以由开发人员设定,如,1天、1周、10天等。
所述域名文法特征是特征向量中唯一的局部特征,表征域名的文法结构,所述域名文法特征对检测出部分具有明显文法模式的域名(例如DGA域名等)具有较高的贡献度。
这里,所述域名文法特征包括但不限于域名的有意义的单词的占比、域名长度、域名层级、域名数字占比。
相应的,所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
针对域名执行以下至少之一:
确定域名中的至少一个单词和所述至少一个单词中各单词的意义,根据确定的有意义的单词确定所述有意义的单词的占比;
确定域名的长度;
确定域名的层级(如一级也称顶级、二级、三级等);
确定域名中数字的占比(即将域名中数字的数量/域名的总字符数)。
具体地,所述至少一种特征,包括:时间特征;
相应的,对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
根据所述目标DNS数据,提取各域名对应的被访问次数和被访问时间;
根据各域名在预设第三时间段内的被访问次数和被访问时间,确定每个域名对应的第一流量序列;
运用预设的流量编码器,对所述第一流量序列进行特征增强处理,得到第二流量序列,作为域名的时间特征。
这里所述时间特征也即域名流量特征;具体说明,域名被访问次数随时间的变化,例如每一个小时统计一下一个域名被访问的次数,则一段时间内(如一天或一周)这个访问次数随时间的变化情况即为该域名的域名流量特征、也即所述时间特征。
举例来说,在DNS数据中,对于每一个域名,统计每个小时内域名被访问的次数,考虑一周内(即所述第三预设时间段内)域名流量随着时间的变化,一周内每个小时被访问的次数构成一个7*24=168维的流量序列,将所述流量序列作为最原始的输入序列以进行特征提取。具体来说,每个流量序列既可以看成具有上下文依赖的时间序列,又可以看成一维的波形图;提取所述流量序列后,为了让数据表征能力更强,利用一个基于卷积神经网络(CNN,Convolutional Neural Network)的AutoEncoder的自编码器(即一种预设的流量编码器)进行数据特征增强;从而最终将每一个域名映射成一个128维的向量,用于表征每一个域名的时间特征。
除此之外,为了提升模型的精度与收敛速度,还可以在确定每个域名对应的第一流量序列之前,对所述第一流量序列中的被访问次数进行归一化操作,根据归一化后的被访问次数和被访问时间,确定第一流量序列。
这里,CNN是一种多层神经网络,用于处理图像相关的机器学习问题,通过一系列方法将图像不断的降维,最终提取出图像高层次的特征,主要包括数据输入层、卷积计算层、激励层、池化层、全连接层等。
所述自编码器具体是一种序列到序列模型(sequence to sequence model,seq2seq model),使用编码器-解码器(encoder-decoder)结构,输入是一个序列,输出也是一个序列,编码器用来分析输入序列,生成中间结果,解码器以中间结果作为输入,生成输出序列。
具体地,所述至少一种特征,包括:空间特征;
相应的,对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
从目标DNS数据中,提取每台主机的域名访问序列;所述域名访问序列包括至少一个域名;
运用预设的Skip-Gram模型(一种word2vec模型,用来产生词向量)识别所述域名访问序列,确定所述域名访问序列中各域名的向量,作为域名的空间特征。
这里,各主机对应的域名访问序列,包括:各主机访问过的至少一个域名。
具体来说,这里从DNS流量数据中,提取每一台主机的域名访问序列,将域名看做单词,将特征提取这个问题转换成自然语言处理的问题,使用Skip-Gram模型识别域名访问序列中各域名以得到各域名对应的向量,即将每个域名映射成一个128维的向量,所述向量用于表征每一个域名的空间特征。
运用本发明实施例提供的方法,得到每个域名的特征向量,所述特征向量可以用于进行域名分析。
具体来说,初始数据,还可以包括:统一威胁管理(Unified Threat Management,UTM)黑库、UTM白库和至少一个引擎的结果;
所述UTM黑库,保存有已知的黑域名,即来历不明的、通过非法渠道获得的域名;
所述UTM白库,保存有已知的合法域名(Legitimate Domains),即客户根据自身需求可访问的提供正常业务的域名。
所述至少一个引擎的结果,包括各引擎中针对各域名所添加的标签,具体表征是否某一引擎标志为恶意、即是否被标志位黑域名。
根据所述UTM黑库、所述UTM白库和所述至少一个引擎的结果,可以确定已知域名为黑域名或合法域名,对于未知域名可以根据确定的已知域名的特征向量进行分析,以确定所述未知域名为黑域名或合法域名。
具体来说,根据已知域名的特征向量(包括黑域名的特征向量和合法域名的特征向量)训练生成一个分类器,根据得到的分类器识别未知的特征向量,得到识别结果,所述识别结果表征所述未知域名为黑域名或合法域名。
需要说明的是,上述运用特征向量对未知域名进行分析的方法也可以采用其他方法,以上仅仅给出一种实施例。本发明实施例提供的方法,用于提取全局特征去表征一个域名,将一个域名映射成一个特征向量,该特征向量包含了行为特征、时序特征、文法特征等,从而解决现有方案中仅仅使用局部数据造成的误报,以及带有标签的域名不够的问题。
图2为本发明实施例提供的另一种数据处理方法的流程示意图,如图2所示,所述数据处理方法,包括:
步骤201、获取未知DNS数据、AF安全日志、UTM黑库、UTM白库、各引擎的结果;
步骤202、对所述未知DNS数据和AF安全日志进行数据拼接和清洗,得到目标DNS数据;
步骤203、根据所述目标DNS数据进行特征提取,提取至少一个域名中各域名对应的至少一个特征;根据各域名对应的至少一个特征确定各域名对应的特征向量。
具体来说,所述至少一个特征包括:主机侧特征、IP侧特征、域名侧特征、时间特征、空间特征。
具体地,主机侧特征,主要表征域名与主机的关系。提取主机侧特征的方法,包括:利用DNS数据,构造表征域名与主机之间关系的第一二分图,根据第一二分图提取域名在主机上面的行为,如域名在黑主机的占比、域名对应的不同主机的数量等。具体可以参照图1所示方法中的主机侧特征的确定方法,这里不再赘述。
具体地,IP侧特征,主要表征域名与解析IP的关系。提取IP侧特征的方法,包括:利用DNS数据,构造表征域名与解析IP之间关系的第二二分图,根据所述第二二分图提取域名与不同解析IP上的行为关系,如域名的解析率、不同域名解析到同一解析IP的概率等。具体可以参照图1所示方法中的IP侧特征的确定方法,这里不再赘述。
具体地,域名侧特征,主要包括:域名活跃度特征和域名文法特征。其中,所述域名活跃度特征表征域名在全网范围内的活跃信息,统计了各域名和各顶级域名在DNS数据中的总出现情况以及连续出现的情况。所述域名文法特征,这是特征向量中唯一的局部特征,主要表征域名的文法结构。具体可以参照图1所示方法中所述域名活跃度特征和域名文法特征的确定方法,这里不再赘述。
具体地,时间特征即域名流量特征。在DNS数据中,对于每一个域名,可以根据域名被访问时间和被访问次数构建时间特征。举例来说,统计每个小时内域名被访问的次数,考虑一周内域名流量随着时间的变化,一周内每个小时被访问的次数构成一个7*24=168维的序列,记做流量序列。提取原始的流量序列后,为了让数据表征能力更强,利用一个基于CNN的AutoEncoder的自编码器进行数据特征增强。除此之外,为了提升模型的精度与收敛速度,对域名流量序列中的访问次数的值进行归一化操作。最终生成将每一个域名映射成一个128维的向量,用于表征每一个域名的时间特征。具体可以参照图1所示方法中所述时间特征的确定方法,这里不再赘述。
具体地,空间特征即域名序列特征。从DNS流量数据中,提取每一台主机的域名访问序列(包括至少一个访问的域名)。这里,将域名看做单词,将特征提取的问题转换成自然语言处理的问题,根据域名访问序列,使用Skip-Gram模型识别域名向量,将每个域名映射成一个128维的向量,以表征每一个域名的空间特征。具体可以参照图1所示方法中所述空间特征的确定方法,这里不再赘述。
上述各特征的具体确定步骤,已在图1所示方法中说明,这里不再赘述。
本发明实施例中,所述方法还可以包括:
步骤204、获取UTM黑库、UTM白库、至少一个引擎的结果;根据所述UTM黑库、所述UTM白库和所述至少一个引擎的结果,可以确定已知域名为黑域名或合法域名,对于未知域名可以根据确定的已知域名的特征向量进行分析,以确定所述未知域名为黑域名或合法域名。
例如:可以根据已知域名的特征向量(包括黑域名的特征向量和合法域名的特征向量)训练生成一个分类器,根据得到的分类器识别未知的特征向量,得到识别结果,所述识别结果表征所述未知域名为黑域名或合法域名。
结合上述示例,本发明实施例提供的方法,提供根据主机-域名-解析IP三者关系进行全局特征提取,还可以对域名时间和空间上进行全局特征提取,利用覆盖面更全更有效的特征,检测更多的恶意域名,并且提高准确率和可解释性;解决了现有方案中局部特征进行单点引擎检测,维度单一,表征能力不强,容易造成误报和缺少可解释性,并对未知家族或者新家族的检测能力比较弱,无法检测高级威胁等问题。
图3为本发明实施例提供的一种数据处理装置的结构示意图;如图3所示,所述装置包括:第一处理模块、第二处理模块;其中,
所述第一处理模块,用于获取初始数据;所述初始数据至少包括初始DNS数据;
所述第二处理模块,用于对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。
具体地,所述初始数据,还包括:AF安全日志;
所述第二处理模块,还用于分析所述初始DNS数据和所述AF安全日志,根据分析结果将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据;
相应的,所述第二处理模块,具体用于对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征;
根据各域名的至少一种特征,确定各域名的特征向量。
具体地,所述至少一种特征,包括以下至少之一:主机侧特征、IP侧特征;
这里,所述第二处理模块,具体用于执行以下至少之一:
根据所述目标DNS数据,构造第一二分图;所述第一二分图表征域名与主机的对应关系;根据所述第一二分图提取域名对应的主机侧特征;所述主机侧特征,包括以下至少之一:域名被黑主机访问的占比、域名对应的主机数量;
根据所述目标DNS数据,构造第二二分图;所述第二二分图表征域名与IP的对应关系;根据所述第二二分图提取域名对应的IP侧特征;所述IP侧特征,包括以下至少之一:域名的解析率、不同域名解析到同一解析IP的概率。
具体地,所述至少一种特征,包括:域名活跃度特征;
这里,所述第二处理模块,具体用于执行以下至少之一:
确定各域名在预设第一时间段内的被访问次数;
确定各域名在预设第二时间段内的连续被访问次数。
具体地,所述至少一种特征,包括:域名文法特征;
这里,所述第二处理模块,具体用于针对域名执行以下至少之一:
确定域名中的至少一个单词和所述至少一个单词中各单词的意义,根据确定的有意义的单词确定所述有意义的单词的占比;
确定域名的长度;
确定域名的层级;
确定域名中数字的占比。
具体地,所述至少一种特征,包括:时间特征;
这里,所述第二处理模块,具体用于根据所述目标DNS数据,提取各域名对应的被访问次数和被访问时间;
根据各域名在预设第三时间段内的被访问次数和被访问时间,确定各域名对应的第一流量序列;
运用预设的流量编码器,对所述第一流量序列进行特征增强处理,得到第二流量序列,作为域名的时间特征。
具体地,所述至少一种特征,包括:空间特征;
这里,所述第二处理模块,具体用于从目标DNS数据中,提取每台主机的域名访问序列;所述域名访问序列包括至少一个域名;
运用预设的Skip-Gram模型识别所述域名访问序列,确定所述域名访问序列中各域名的向量,作为域名的空间特征。
需要说明的是:上述实施例提供的数据处理装置在进行数据处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4为本发明实施例提供的另一种数据处理装置的结构示意图。所述装置40包括:处理器401和用于存储能够在所述处理器上运行的计算机程序的存储器402;其中,所述处理器401用于运行所述计算机程序时,执行:获取初始数据;所述初始数据至少包括初始DNS数据;对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:分析所述初始DNS数据和所述AF安全日志,根据分析结果将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据;
相应的,执行对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量,包括:对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征;根据各域名的至少一种特征,确定各域名的特征向量。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行以下至少之一:根据所述目标DNS数据,构造第一二分图;所述第一二分图表征域名与主机的对应关系;根据所述第一二分图提取域名对应的主机侧特征;所述主机侧特征,包括以下至少之一:域名被黑主机访问的占比、域名对应的主机数量;
根据所述目标DNS数据,构造第二二分图;所述第二二分图表征域名与IP的对应关系;根据所述第二二分图提取域名对应的IP侧特征;所述IP侧特征,包括以下至少之一:域名的解析率、不同域名解析到同一解析IP的概率。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行以下至少之一:
确定各域名在预设第一时间段内的被访问次数;
确定各域名在预设第二时间段内的连续被访问次数。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行以下至少之一:
确定域名中的至少一个单词和所述至少一个单词中各单词的意义,根据确定的有意义的单词确定所述有意义的单词的占比;
确定域名的长度;
确定域名的层级;
确定域名中数字的占比。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:根据所述目标DNS数据,提取各域名对应的被访问次数和被访问时间;根据各域名在预设第三时间段内的被访问次数和被访问时间,确定各域名对应的第一流量序列;运用预设的流量编码器,对所述第一流量序列进行特征增强处理,得到第二流量序列,作为域名的时间特征。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:从目标DNS数据中,提取每台主机的域名访问序列;所述域名访问序列包括至少一个域名;
运用预设的Skip-Gram模型识别所述域名访问序列,确定所述域名访问序列中各域名的向量,作为域名的空间特征。
需要说明的是:上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实际应用时,所述装置40还可以包括:至少一个网络接口403。数据处理装置40中的各个组件通过总线系统404耦合在一起。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统404。其中,所述处理器401的个数可以为至少一个。网络接口403用于数据处理装置40与其他设备之间有线或无线方式的通信。
本发明实施例中的存储器402用于存储各种类型的数据以支持数据处理装置40的操作。
上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DSP,DiGital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器401可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,数据处理装置40可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行:获取初始数据;所述初始数据至少包括初始DNS数据;对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征。
在一实施例中,所述计算机程序被处理器运行时,执行:分析所述初始DNS数据和所述AF安全日志,根据分析结果将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据;
相应的,执行对所述初始数据进行数据分析,确定至少一个域名中各域名的特征向量,包括:对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征;根据各域名的至少一种特征,确定各域名的特征向量。
在一实施例中,所述计算机程序被处理器运行时,执行以下至少之一:根据所述目标DNS数据,构造第一二分图;所述第一二分图表征域名与主机的对应关系;根据所述第一二分图提取域名对应的主机侧特征;所述主机侧特征,包括以下至少之一:域名被黑主机访问的占比、域名对应的主机数量;
根据所述目标DNS数据,构造第二二分图;所述第二二分图表征域名与IP的对应关系;根据所述第二二分图提取域名对应的IP侧特征;所述IP侧特征,包括以下至少之一:域名的解析率、不同域名解析到同一解析IP的概率。
在一实施例中,所述计算机程序被处理器运行时,执行以下至少之一:
确定各域名在预设第一时间段内的被访问次数;
确定各域名在预设第二时间段内的连续被访问次数。
在一实施例中,所述计算机程序被处理器运行时,执行以下至少之一:
确定域名中的至少一个单词和所述至少一个单词中各单词的意义,根据确定的有意义的单词确定所述有意义的单词的占比;
确定域名的长度;
确定域名的层级;
确定域名中数字的占比。
在一实施例中,所述计算机程序被处理器运行时,执行:根据所述目标DNS数据,提取各域名对应的被访问次数和被访问时间;根据各域名在预设第三时间段内的被访问次数和被访问时间,确定各域名对应的第一流量序列;运用预设的流量编码器,对所述第一流量序列进行特征增强处理,得到第二流量序列,作为域名的时间特征。
在一实施例中,所述计算机程序被处理器运行时,执行:从目标DNS数据中,提取每台主机的域名访问序列;所述域名访问序列包括至少一个域名;
运用预设的Skip-Gram模型识别所述域名访问序列,确定所述域名访问序列中各域名的向量,作为域名的空间特征。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种数据处理方法,其特征在于,所述方法包括:
获取初始数据;所述初始数据至少包括初始域名系统DNS数据和应用防火墙AF安全日志;
基于对所述初始DNS数据和所述AF安全日志的分析结果,将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据;
对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征,所述特征为域名在DNS层面上的行为特征。
2.根据权利要求1所述的方法,其特征在于,所述至少一种特征,包括以下至少之一:主机侧特征、IP侧特征;
所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括以下至少之一:
根据所述目标DNS数据,构造第一二分图;所述第一二分图表征域名与主机的对应关系;根据所述第一二分图提取域名对应的主机侧特征;所述主机侧特征,包括以下至少之一:域名被黑主机访问的占比、域名对应的主机数量;
根据所述目标DNS数据,构造第二二分图;所述第二二分图表征域名与IP的对应关系;根据所述第二二分图提取域名对应的IP侧特征;所述IP侧特征,包括以下至少之一:域名的解析率、不同域名解析到同一解析IP的概率。
3.根据权利要求1所述的方法,其特征在于,所述至少一种特征,包括:域名活跃度特征;
所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括以下至少之一:
确定各域名在预设第一时间段内的被访问次数;
确定各域名在预设第二时间段内的连续被访问次数。
4.根据权利要求1所述的方法,其特征在于,所述至少一种特征,包括:域名文法特征;
所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
针对域名执行以下至少之一:
确定域名中的至少一个单词和所述至少一个单词中各单词的意义,根据确定的有意义的单词确定所述有意义的单词的占比;
确定域名的长度;
确定域名的层级;
确定域名中数字的占比。
5.根据权利要求1所述的方法,其特征在于,所述至少一种特征,包括:时间特征;
所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
根据所述目标DNS数据,提取各域名对应的被访问次数和被访问时间;
根据各域名在预设第三时间段内的被访问次数和被访问时间,确定各域名对应的第一流量序列;
运用预设的流量编码器,对所述第一流量序列进行特征增强处理,得到第二流量序列,作为域名的时间特征。
6.根据权利要求1所述的方法,其特征在于,所述至少一种特征,包括:空间特征;
所述对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的至少一种特征,包括:
从目标DNS数据中,提取每台主机的域名访问序列;所述域名访问序列包括至少一个域名;
运用预设的Skip-Gram模型识别所述域名访问序列,确定所述域名访问序列中各域名的向量,作为域名的空间特征。
7.一种数据处理装置,其特征在于,所述装置包括:第一处理模块、第二处理模块;其中,
所述第一处理模块,用于获取初始数据;所述初始数据至少包括初始DNS数据和应用防火墙AF安全日志;
所述第二处理模块,用于基于对所述初始DNS数据和所述AF安全日志的分析结果,将所述初始DNS数据和AF安全日志进行数据拼接,得到目标DNS数据;
对所述目标DNS数据进行数据分析,确定至少一个域名中各域名的特征向量;所述特征向量包括域名的至少一种特征;所述特征为域名在DNS层面上的行为特征。
8.一种数据处理装置,其特征在于,所述装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN202010117084.2A 2020-02-25 2020-02-25 一种数据处理方法、装置和存储介质 Active CN113381962B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010117084.2A CN113381962B (zh) 2020-02-25 2020-02-25 一种数据处理方法、装置和存储介质
PCT/CN2021/074447 WO2021169730A1 (zh) 2020-02-25 2021-01-29 一种数据处理方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010117084.2A CN113381962B (zh) 2020-02-25 2020-02-25 一种数据处理方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN113381962A CN113381962A (zh) 2021-09-10
CN113381962B true CN113381962B (zh) 2023-02-03

Family

ID=77489877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010117084.2A Active CN113381962B (zh) 2020-02-25 2020-02-25 一种数据处理方法、装置和存储介质

Country Status (2)

Country Link
CN (1) CN113381962B (zh)
WO (1) WO2021169730A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11539745B2 (en) * 2019-03-22 2022-12-27 Proofpoint, Inc. Identifying legitimate websites to remove false positives from domain discovery analysis
CN114095176B (zh) * 2021-10-29 2024-04-09 北京天融信网络安全技术有限公司 一种恶意域名检测方法及装置
CN114338436A (zh) * 2021-12-28 2022-04-12 深信服科技股份有限公司 一种网络流量文件的识别方法、装置、电子设备和介质
CN114189390A (zh) * 2021-12-31 2022-03-15 深信服科技股份有限公司 一种域名检测方法、系统、设备及计算机可读存储介质
CN114844691B (zh) * 2022-04-20 2023-07-14 安天科技集团股份有限公司 一种数据处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016118153A1 (en) * 2015-01-23 2016-07-28 Hewlett Packard Enterprise Development Lp Marking nodes for analysis based on domain name system resolution
CN108282450A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 异常域名的检测方法及装置
CN110099059A (zh) * 2019-05-06 2019-08-06 腾讯科技(深圳)有限公司 一种域名识别方法、装置及存储介质
CN110177123A (zh) * 2019-06-20 2019-08-27 电子科技大学 基于dns映射关联图的僵尸网络检测方法
CN110535821A (zh) * 2019-05-17 2019-12-03 南京聚铭网络科技有限公司 一种基于dns多特征的失陷主机检测方法
CN110611675A (zh) * 2019-09-20 2019-12-24 哈尔滨安天科技集团股份有限公司 向量级检测规则生成方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9118704B2 (en) * 2012-10-24 2015-08-25 Hewlett-Packard Development Company, L.P. Homoglyph monitoring
CN110572406B (zh) * 2019-09-12 2022-03-22 深信服科技股份有限公司 一种失陷主机确定方法、系统及相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016118153A1 (en) * 2015-01-23 2016-07-28 Hewlett Packard Enterprise Development Lp Marking nodes for analysis based on domain name system resolution
CN108282450A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 异常域名的检测方法及装置
CN110099059A (zh) * 2019-05-06 2019-08-06 腾讯科技(深圳)有限公司 一种域名识别方法、装置及存储介质
CN110535821A (zh) * 2019-05-17 2019-12-03 南京聚铭网络科技有限公司 一种基于dns多特征的失陷主机检测方法
CN110177123A (zh) * 2019-06-20 2019-08-27 电子科技大学 基于dns映射关联图的僵尸网络检测方法
CN110611675A (zh) * 2019-09-20 2019-12-24 哈尔滨安天科技集团股份有限公司 向量级检测规则生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113381962A (zh) 2021-09-10
WO2021169730A1 (zh) 2021-09-02

Similar Documents

Publication Publication Date Title
CN113381962B (zh) 一种数据处理方法、装置和存储介质
CN110233849B (zh) 网络安全态势分析的方法及系统
CA2738480C (en) Detection of confidential information
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN107341399B (zh) 评估代码文件安全性的方法及装置
CN113381963B (zh) 一种域名检测方法、装置和存储介质
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN114003903B (zh) 一种网络攻击追踪溯源方法及装置
CN111835777A (zh) 一种异常流量检测方法、装置、设备及介质
CN112817877B (zh) 异常脚本检测方法、装置、计算机设备和存储介质
CN111125704B (zh) 一种网页挂马识别方法及系统
Kuang et al. Automated data-processing function identification using deep neural network
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
CN116361793A (zh) 代码检测方法、装置、电子设备及存储介质
Vahedi et al. Cloud based malware detection through behavioral entropy
CN115310087A (zh) 一种基于抽象语法树的网站后门检测方法和系统
CN115114676A (zh) 一种远程网页篡改监测方法、系统、设备及存储介质
CN111813964B (zh) 基于生态环境的数据处理方法及相关设备
CN115883111A (zh) 一种钓鱼网站识别方法、装置、电子设备及存储介质
CN113923193B (zh) 一种网络域名关联方法、装置、存储介质及电子设备
CN115718696B (zh) 源码密码学误用检测方法、装置、电子设备和存储介质
CN116611057B (zh) 数据安全检测方法及其系统
CN114884686B (zh) 一种php威胁识别方法及装置
CN116108430A (zh) 网站入侵检测方法及装置
CN117077763A (zh) 一种模型可更新的注入攻击检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant