CN114866246B - 基于大数据的计算机网络安全入侵检测方法 - Google Patents

基于大数据的计算机网络安全入侵检测方法 Download PDF

Info

Publication number
CN114866246B
CN114866246B CN202210380837.8A CN202210380837A CN114866246B CN 114866246 B CN114866246 B CN 114866246B CN 202210380837 A CN202210380837 A CN 202210380837A CN 114866246 B CN114866246 B CN 114866246B
Authority
CN
China
Prior art keywords
character
domain name
value
character string
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210380837.8A
Other languages
English (en)
Other versions
CN114866246A (zh
Inventor
谭继安
刘树威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Polytechnic
Original Assignee
Dongguan Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Polytechnic filed Critical Dongguan Polytechnic
Priority to CN202210380837.8A priority Critical patent/CN114866246B/zh
Publication of CN114866246A publication Critical patent/CN114866246A/zh
Application granted granted Critical
Publication of CN114866246B publication Critical patent/CN114866246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种基于大数据的计算机网络安全入侵检测方法。该方法包括:根据域名字符串中字符对应的像素值和域名字符串的熵获得字符图;根据每个字符重构的字符值对应的字符获得域名新字符串,并获得域名新字符串对应的新字符图;在域名检测网络中输入域名字符串对应的字符图和新字符图,输出域名属于正常域名和属于异常域名的概率。本发明充分利用了神经网络在图像特征提取方面的优势,能够自动的提取域名的特征信息,避免了人工设计域名特征,能够广泛应用于各种场景;另外字符图和新字符图的残差进行交互验证,避免过拟合导致网络输出不准确,提高了检测的准确性,同时可以加快域名检测网络的收敛速度。

Description

基于大数据的计算机网络安全入侵检测方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于大数据的计算机网络安全入侵检测方法。
背景技术
计算机网络应用到了社会各行业,随之而来的就是网络安全问题,网络入侵检测技术是维护网络安全的关键技术之一。如今,随着5G技术的快速发展,以及物联网技术的广泛使用,大量的物理设备接入网络,使得整个网络容易受到各种各样的安全威胁。
其中僵尸网络是由攻击者通过恶意软件组成的一系列计算机组成的综合攻击平台,一个典型的僵尸网络由僵尸主机、Command andcontrol server(C&C服务器),以及攻击者组成。其中攻击者是攻击的发起方,通过命令C&C服务器中继来实现给僵尸主机更新程序,下达命令等操作,其后由接到命令的僵尸主机完成实际的攻击行为。
DGA域名是通过僵尸网络进行网络入侵的一个关键要素,如果能检测DGA域名,就可以检测网络入侵。传统检测方法是对DNS底层流量或者日志进行分析,需要部署在互联网服务提供商的数据中心。这些检测方法多使用手工提取的特征进行聚类或分类,例如K-L,编辑距离等。DNS底层流量提供了大量关于DNS请求和响应的细节,可以较为全面地寻找和分类DGA域名。但是,这也限制了这类检测方法的应用场景,即必须是拥有DNS服务器的机构,例如大型ISP学校、公司的网络中心等;另一种现有的检测DGA域名的方法为通过域名和DGA域名在长度、后缀分布,字符、有意义单词比例,n-gram频率和马氏距离等特征上存在不同,作为分类的依据;使用深度神经网络来检测DGA域名,这类基于域名字符的检测只需要域名本身,解决了应用场景受限的问题,可以部署到个人计算机,手机甚至是物联网节点上,但上述工作并没有深入分析不同DGA域名的内在区别,虽然它们被设计用于检测所有种类的DGA域名,但是实验表明检测不同的DGA域名性能指标波动很大,检测的准确性并不高。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于大数据的计算机网络安全入侵检测方法,所采用的技术方案具体如下:
本发明一个实施例提供了一种基于大数据的计算机网络安全入侵检测方法,该方法包括:对每个域名进行处理去除域名的顶级域和二级域获得域名字符串;对所有用于表示域名的字符以升序的顺序进行标号,字符的标号还用于表示字符的值,记为字符值;获得域名字符串中字符标号和像素点的像素值的映射关系,根据映射关系获得字符对应的像素值;根据域名字符串中字符对应的像素值和域名字符串的熵获得字符图;
设定预设尺寸的窗口在域名字符串上以窗口的长为步长进行滑动,根据当前窗口内字符的字符值、元音字母的位置和下一个窗口内元音字母的位置获得字符值重构关系式;根据字符值重构关系式对域名字符串中每个字符的字符值进行重构;根据每个字符重构的字符值对应的字符获得域名新字符串,并获得域名新字符串对应的新字符图;
构建域名检测网络,包括第一子损失函数和第二子损失函数;所述第一子损失函数由对训练过程中字符图和新字符图对应的残差的差值的平方进行求和获得;所述第二子损失函数根据设定的第一因子和第二因子、每个样本的预测概率和样本的标签值获得;在域名检测网络中输入域名字符串对应的字符图和新字符图,输出域名属于异常域名的概率。
优选地,所述获得域名字符串中字符标号和像素点的像素值的映射关系包括:将像素点的像素值均分为若干个像素区间,像素区间的数量与字符的标号数量相同,且每一个字符的标号都对应一个像素区间;从字符标号映射到像素点的映射关系为:一个字符标号对应一个像素点,一个字符标号对应一个像素区间,字符标号对应的像素值为对应的像素区间的中值。
优选地,在所述根据域名字符串中字符对应的像素值和域名字符串的熵获得字符图之前还包括:将域名字符串的长度统一为预设长度。
优选地,所述根据域名字符串中字符对应的像素值和域名字符串的熵获得字符图包括:获得一个域名字符串中所有字符对应的像素点像素值,将对应的像素点像素值转换到RGB空间,获得域名RGB图像;计算域名字符串的熵,结合域名RGB图像生成四通道的字符图。
优选地,所述字符值重构关系式为:
Figure GDA0004261250860000021
其中,Bi表示当前窗口内第i个字符重构的字符值;ai表示当前窗口内第i个字符的字符值,aj表示当前窗口内第j个字符的字符值,n表示窗口内字符的数量;l1表示当前窗口内元音字母所在的位置,l2表示下一个窗口内的元音字母所在的位置,所述元音字母所在的位置为元音字母与域名字符串中第一个字符的距离;若当前窗口内第i个字符为元音字母,则ai+
Figure GDA0004261250860000022
若当前窗口内第i个字符不为元音字母,则/>
Figure GDA0004261250860000023
若当前窗口和下一个窗口内有多个为元音字母的字符,以当前窗口和下一个窗口内元音字母的平均位置分别表示当前窗口和下一个窗口内元音字母的位置,若当前窗口和下个窗口内不同时存在为元音字母的字符,则/>
Figure GDA0004261250860000031
的取值为第一预设值。
优选地,所述根据每个字符重构的字符值对应的字符获得域名新字符串包括:获得字符重构的字符值后进行向下取整,取整的结果为字符最终字符值;所述最终字符值为字符重构后对应的最终标号,获得最终标号对应的字符;域名字符串中每个字符的最终标号对应的字符组成域名新字符串。
优选地,所述第二子损失函数为:
Figure GDA0004261250860000032
其中,Loss2表示第二子损失函数;α表示第一因子,用于平衡样本数据中正负样本的重要性;γ表示第二因子,用于使负样本的权重衰减,减少损失,使得分类器提升对正样本的关注度;y=1表示正样本,正样本为异常域名,y=0表示负样本,负样本为正常域名;y'表示计算出来的样本的预测概率;0和1表示样本的标签值。
本发明实施例至少具有如下有益效果:本实施通过数据转换的数据处理方式将去除顶级域和二级域的域名字符串转换到图像中,获得字符图,同时获得域名字符串重构后的域名新字符串对应的新字符图,通过神经网络提取字符图和新字符图的特征,充分利用了神经网络在图像特征提取方面的优势,能够自动的提取域名的特征信息,避免了人工设计域名特征,能够广泛应用于各种场景;另外字符图和新字符图的残差进行交互验证,避免过拟合导致网络输出不准确,提高了检测的准确性,同时可以加快域名检测网络的收敛速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为一种基于大数据的计算机网络安全入侵检测方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的计算机网络安全入侵检测方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于大数据的计算机网络安全入侵检测方法的具体方案。
实施例1
本发明的主要应用场景为:利用僵尸网络对计算机进行攻击时,僵尸主机数量多,形式多样,地域分布广泛,通常与C&C服务器之间的通信需要借助互联网。僵尸网络的通信需要保持隐蔽,躲过安全软件的拦截。在互联网上,越来越多的僵尸主机与C&C服务器之间使用域名变换的技术通信,域名变换使用域名系统(DNS)来动态切换C&C服务器。一个易于理解的通过域名切换C&C服务器的例子是在恶意程序内部通过硬编码的方式预先设置多个特定的域名,攻击者在需要时选择激活其中的一部分域名,使其指向C&C服务器,从而实现僵尸主机和C&C服务器的通信;通过检测异常的域名来检测计算机是否受到入侵。
请参阅图1,其示出了本发明一个实施例提供的一种基于大数据的计算机网络安全入侵检测方法流程图,该方法包括以下步骤:
步骤一:对每个域名进行处理去除域名的顶级域和二级域获得域名字符串;对所有用于表示域名的字符以升序的顺序进行标号,字符的标号还用于表示字符的值,记为字符值;获得域名字符串中字符标号和像素点的像素值的映射关系,根据映射关系获得字符对应的像素值;根据域名字符串中字符对应的像素值和域名字符串的熵获得字符图。
首先,域名的直接表现形式为一个以点分割的字符串,被分割的每一部分称为标签,域名最右侧的标签称为顶级域,例如:域名“blog.example.com”中,“blog”为二级域,“com”为顶级域。获取来自Alexa网站排名靠前的正常域名与形如GoziConficker的DGA生成的恶意域名各100000个作为数据集,对于数据集中的域名进行初始聚类,对于使用DGA随机域名生成算法进行网络入侵是控制一个确定的随机域名生成算法,用约定的随机数种子生成大量的随机域名,正常域名的长度分布符合正态分布,而非正常域名的长度分布更加集中,故对相同长度的域名进行分析更容易凸显出正常域名与异常域名间的特征。
需要对域名数据进行清洗,将域名中的顶级域和二级域进行去除获得域名字符串,如域名“blog.example.com”的域名字符串为“.example.”;域名的顶级域与二级域所包含的数据不会对域名的分类起决定性作用,同时顶级域与二级域所包含的数据还会导致神经网络模型在特征学习时造成噪声干扰,即异常入侵网络数据和正常网络数据都有可能包含此类数据,致使模型学习到错误信息,降低模型的泛化能力和检测能力。
进一步的,域名为一串字符串,对于单个字符而言毫无意义可言,传统方法通过域名和DGA域名在长度、后缀分布,字符、有意义单词比例,n-gram频率和马氏距离等特征上存在不同,作为分类的依据,但是仅有域名字符串提供的信息较少,没有深入分析不同DGA域名的内在区别,同时对于长度、后缀分布,字符、有意义单词比例,n-gram频率和马氏距离等特征而言,难以做到对不同类型的DGA域名进行快速检测,且检测的正确率并不高,故通过对域名数据进行清洗后获得的域名字符串构建字符图,将域名字符串数据转化为可表征域名字符串数据的字符图,使用字符图来表示异常入侵域名的域名字符串和正常域名的域名字符串的数据特征。这样可以充分发挥神经网络在图像特征提取方面的优势,自动学习到字符图中的特征信息,避免了人工设计域名特征。
所有能够表示域名的字符为:0、1、2…9、a、b、c…x、z、“_”、“.”,利用数字对这些字符按照顺序从小到大进行标号,标号分别为0、1、2…38,例如字符a的标号为10,字符b的标号为11,同时,每个字符的标号为字符的字符值;将域名字符串映射到RGB值的空间中,生成域名RGB图像,即将域名字符串中的字符视作图像中的像素点,获得字符与像素点的像素值的映射关系,也即是字符的标号与像素点的像素值的映射关系,获得每个域名字符串中字符对应的像素值,再以像素值为媒介实现域名字符串中字符到RGB值空间的映射,将域名字符串转化为可表征域名字符串特征的域名RGB图像。
其中映射关系为:像素点的像素值范围为0-255,将像素值范围均分为若干个像素区间,像素区间的个数与字符的标号数量相同,字符共有38个,则标号的数量也一共有38个,所以像素区间的数量一共有38个,且以字符的标号从小到大一一对应,每个字符对应的像素点的像素值为该字符标号对应的像素区间的中值,因为均分像素区间的中值不是整数,所以需要依照四舍五入的取整规则进行取整获得取整后的中值即为字符对应的像素点的像素值。
又由于域名字符串的长度不统一,即存在长域名字符串和短域名字符串,理论上域名字符串长度最大可达255,但真实数据表面时间上远远低于理论最大长度,需将域名字符串长度同一为预设长度,根据先验,域名长度最大值取n=64,即域名字符串的预设长度为64,对每一个域名字符串进行处理,使得每一个域名字符串的长度均为64,若域名长度小于n时采用低位对齐高位补0。
将域名字符串长度进行统一后,获得域名字符串中所有字符对应的像素点的像素值,如域名字符串中有一个字符为a,则其标号为11,对应到第11个像素区间,则a这个字符对应的像素点的像素值为第一个像素区间的中值进行取整后的结果,同时将对应的像素点的像素值转换到RGB值空间,生产三通道的域名RGB图像。
最后,由于DGA域名,即异常域名是随机生成的,与正常域名相比,DGA域名的随机性与正常域名会有不同,故通过信息熵来计算域名字符串的随机性,将计算得到的信息熵作为域名RGB图像的随机度,结合生成的域名RGB图生成四通道的RGBS图,即为四通道的字符图,通过字符图表征域名字符串的内部特征。其中随机度的计算方法为:
Figure GDA0004261250860000061
式中xi表示域名字符串中的字符,p(xi)字符xi出现的频率。至此获得了域名字符串对应的字符图。
步骤二:设定预设尺寸的窗口在域名字符串上以窗口的长为步长进行滑动,根据当前窗口内字符的字符值、元音字母的位置和下一个窗口内元音字母的位置获得字符值重构关系式;根据字符值重构关系式对域名字符串中每个字符的字符值进行重构;根据每个字符重构的字符值对应的字符获得域名新字符串,并获得域名新字符串对应的新字符图。
首先,此时生成的字符图来源于域名字符串中的数据,其特征同计算机视觉领域丰富的图像细节纹理特征不同,卷积网络中过多的池化层对字符图进行降采样操作会导致网络数据特征维度降低,丢失较多特征信息,无法准确描述域名字符串的特征,从而导致卷积神经网络无法学习到有效的异常域名和正常域名对应的域名字符串的特征信息,降低入侵检测的准确率,基于此,需要通过挖掘域名字符串的明显特征生成新字符图。
对于一个正常的常规域名,根据语言学和音韵学来说,在字符串中插入一定的元音字母会让一个字符串读起来更像是一个单词,且元音的分布相对均匀,一个域名中的一个为字母的字符为元音字母且该字母与其邻域字母存在相关性,故需将元音字母对应的字符值也即是标号值进行放大,对域名字符串中字符的字符值进行重构;设定预设尺寸的窗口,优选地,窗口的预设尺寸为1×n,本实施例中n的取值为3,利用设定的窗口以窗口的长为步长在域名字符串上进行滑动,通过当前窗口内字符的字符值、当前窗口内为元音字母的字符与下一个窗口内为元音字母的字符的位置的相关性获得字符值重构关系式:
Figure GDA0004261250860000062
其中,Bi表示当前窗口内第i个字符重构的字符值;ai表示当前窗口内第i个字符的字符值,aj表示当前窗口内第j个字符的字符值,n表示窗口内字符的数量;l1表示当前窗口内元音字母所在的位置,l2表示下一个窗口内的元音字母所在的位置,所述元音字母所在的位置为元音字母与域名字符串中第一个字符的距离。对于
Figure GDA0004261250860000063
若当前窗口内第i个字符为元音字母时,“±”的运算符取“+”进行运算;若当前窗口内第i个字符不为元音字母时,“±”的运算符取“-”进行运算;l1和l2分别为当前窗口内和下一个窗口内为元音字母的字符的位置,所述为元音字母的字符的位置用为元音字母的字符与域名字符串中第一个字符的距离表示;若当前窗口和下一个窗口中为元音字母的字符共存,即不同时存在,则/>
Figure GDA0004261250860000071
的取值为第一预设值。优选地,第一预设值为0;若两个窗口内都存在为元音字母的字符且每个窗口内为元音字母的字符有多个,以每个窗口内的为元音字母的字符的平均位置作为每个窗口的为元音字母的字符的位置。
接着,根据字符值重构关系式对域名字符串中字符的字符值进行重构,获得每个字符重构后的字符值,需要说明的是重构后的字符值可能不是整数,如果重构后的字符值不为整数则进行向下取整使其为整数,取整的结果为最终字符值;获得域名字符串中每个字符重构后的最终字符值,根据每个字符的最终字符值对应的字符,也即是字符重构后的对应的最终标号对应的字符获得域名新字符串,由于字符值和字符的标号是相同的,所以最终字符值也为最终标号;如域名字符串中未重构时一个字符为a,此字符的字符值为11,标号也为11,此字符重构后的最终字符值为12,则最终标号为12,所以对应的重构后的字符为b。
最后以步骤一获得域名字符串的字符图的方法获得域名字符串进行重构后域名新字符串对应的新字符图RGBS’。
步骤三:构建域名检测网络,包括第一子损失函数和第二子损失函数;所述第一子损失函数由对训练过程中字符图和新字符图对应的残差的差值的平方进行求和获得;所述第二子损失函数根据设定的第一因子和第二因子、每个样本的预测概率和样本的标签值获得;在域名检测网络中输入域名字符串对应的字符图和新字符图,输出域名属于异常域名的概率。
首先,构建域名检测网络,获得域名字符串对应的字符图和域名新字符串对应的新字符图后,需要通过域名检测网络提取这两个图的空间特征,也即是域名的空间特征,域名检测网络主要包括卷积层、池化层、残差学习单元和全局平均池化层,卷积层在域名检测网络中负责提取特征,采用t*t和s*s两种不同尺度的卷积核对字符图RGBS和新字符图RGBS’进行特征提取,得到多个独立的、表示域名字符串的特征图f1,然后将多个特征图f1组合成特征图f2再通过卷积核为k*k进行卷积操作进一步学习两个图的空间特征,需要说明的是,卷积核的尺寸根据实际情况进行调整。
进一步的,需要通过残差单元计算残差,残差是实际值与估计值之间的误差,对于字符图和新字符图,其二者的本质相同,采用相同的网络进行训练时二者的残差理应相同,但由于字符图中的特征存在不明显的现象,故进行相同的训练时二者的残差会不相同,本实施例中期望采用相同的网络结构对字符图和新字符图的训练残差越相似越好,故构建第一个损失函数,记为第一子损失:
Figure GDA0004261250860000081
其中,式中c1表示字符图的实际值,c'表示字符图的估计值,d1表示新字符图的实际值,d'表示新字符图的估计值,O表示输入样本的个数;c1-c'表示字符图对应的残差,d1-d'表示新字符图对应的残差。
接着,损失函数是用来衡量数据真实值和模型对数据预测值之间的差异,损失函数值越小说明真实值与预测值之间的误差越小,模型预测的准确率越高。在神经网络中常用交叉熵损失函数作为模型的损失函数,但是交叉熵损失函数主要针对的是平衡数据集,在不平衡数据集上的表现较差,在真实网络环境中,正常的网络域名数量要远远大于入侵的异常的域名,存在类别不平衡问题,故在原有交叉熵损失函数的基础上增加惩罚因子减少某类易分类样本的权重,使得模型在训练过程中可以改变样本的权重,设定的惩罚因子分别为第一因子和第二因子,构建第二子损失:
Figure GDA0004261250860000082
其中,Loss2表示第二子损失;α表示第一因子,用于平衡样本数据中正负样本的重要性,取值范围为[0,1];γ表示第二因子,用于使负样本的权重衰减,减少损失,使得分类器提升对正样本的关注度,取值范围为[1,2];y=1表示正样本,正样本为异常域名,y=0表示负样本,负样本为正常域名;y'表示经过激活函数计算出来的样本的预测概率,取值范围为[0,1];0和1表示样本的标签值。
域名检测网络包括卷积、池化、残差学习单元、全连接和softmax分类,其中残差学习单元用来进行残差约束,在使用卷积网络提取完字符图RGBS和新字符图RGBS’的特征后使用激活函数为softmax的全连接层实现对域名的分类任务,分为正常域名和异常域名。
最后,将终端中采集到的域名数据进行预处理,去除顶级域和二级域,获得域名字符串,将域名字符串和经过重构获得的域名新字符串映射到图像空间中,将域名的特征转移到图像中;将构建好的字符图和新字符图输入到训练好的域名检测网络中,输出域名属于异常域名的概率和属于正常域名的概率,对属于异常域名概率大的域名进行编辑,则该域名为DGA恶意域名,则对终端进行相应的网络安全处理。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于大数据的计算机网络安全入侵检测方法,其特征在于,该方法包括:对每个域名进行处理去除域名的顶级域和二级域获得域名字符串;对所有用于表示域名的字符以升序的顺序进行标号,字符的标号还用于表示字符的值,记为字符值;获得域名字符串中字符标号和像素点的像素值的映射关系,根据映射关系获得字符对应的像素值;根据域名字符串中字符对应的像素值和域名字符串的熵获得字符图;
设定预设尺寸的窗口在域名字符串上以窗口的长为步长进行滑动,根据当前窗口内字符的字符值、元音字母的位置和下一个窗口内元音字母的位置获得字符值重构关系式;根据字符值重构关系式对域名字符串中每个字符的字符值进行重构;根据每个字符重构的字符值对应的字符获得域名新字符串,并获得域名新字符串对应的新字符图;
构建域名检测网络,包括第一子损失函数和第二子损失函数;所述第一子损失函数由对训练过程中字符图和新字符图对应的残差的差值的平方进行求和获得;所述第二子损失函数根据设定的第一因子和第二因子、每个样本的预测概率和样本的标签值获得;在域名检测网络中输入域名字符串对应的字符图和新字符图,输出域名属于异常域名的概率;
所述获得域名字符串中字符标号和像素点的像素值的映射关系包括:将像素点的像素值均分为若干个像素区间,像素区间的数量与字符的标号数量相同,且每一个字符的标号都对应一个像素区间;从字符标号映射到像素点的映射关系为:一个字符标号对应一个像素点,一个字符标号对应一个像素区间,字符标号对应的像素值为对应的像素区间的中值;
所述字符值重构关系式为:
Figure FDA0004261250850000011
其中,Bi表示当前窗口内第i个字符重构的字符值;ai表示当前窗口内第i个字符的字符值,aj表示当前窗口内第j个字符的字符值,n表示窗口内字符的数量;l1表示当前窗口内元音字母所在的位置,l2表示下一个窗口内的元音字母所在的位置,所述元音字母所在的位置为元音字母与域名字符串中第一个字符的距离;若当前窗口内第i个字符为元音字母,则
Figure FDA0004261250850000012
Figure FDA0004261250850000013
若当前窗口内第i个字符不为元音字母,则/>
Figure FDA0004261250850000014
若当前窗口和下一个窗口内有多个为元音字母的字符,以当前窗口和下一个窗口内元音字母的平均位置分别表示当前窗口和下一个窗口内元音字母的位置,若当前窗口和下个窗口内不同时存在为元音字母的字符,则/>
Figure FDA0004261250850000015
的取值为第一预设值;
所述第二子损失函数为:
Figure FDA0004261250850000021
其中,Loss2表示第二子损失函数;α表示第一因子,用于平衡样本数据中正负样本的重要性;γ表示第二因子,用于使负样本的权重衰减,减少损失,使得分类器提升对正样本的关注度;y=1表示正样本,正样本为异常域名,y=0表示负样本,负样本为正常域名;y'表示计算出来的样本的预测概率;0和1表示样本的标签值。
2.根据权利要求1所述的基于大数据的计算机网络安全入侵检测方法,其特征在于,在所述根据域名字符串中字符对应的像素值和域名字符串的熵获得字符图之前还包括:将域名字符串的长度统一为预设长度。
3.根据权利要求1所述的基于大数据的计算机网络安全入侵检测方法,其特征在于,所述根据域名字符串中字符对应的像素值和域名字符串的熵获得字符图包括:获得一个域名字符串中所有字符对应的像素点像素值,将对应的像素点像素值转换到RGB空间,获得域名RGB图像;计算域名字符串的熵,结合域名RGB图像生成四通道的字符图。
4.根据权利要求1所述的基于大数据的计算机网络安全入侵检测方法,其特征在于,所述根据每个字符重构的字符值对应的字符获得域名新字符串包括:获得字符重构的字符值后进行向下取整,取整的结果为字符最终字符值;所述最终字符值为字符重构后对应的最终标号,获得最终标号对应的字符;域名字符串中每个字符的最终标号对应的字符组成域名新字符串。
CN202210380837.8A 2022-04-12 2022-04-12 基于大数据的计算机网络安全入侵检测方法 Active CN114866246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210380837.8A CN114866246B (zh) 2022-04-12 2022-04-12 基于大数据的计算机网络安全入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210380837.8A CN114866246B (zh) 2022-04-12 2022-04-12 基于大数据的计算机网络安全入侵检测方法

Publications (2)

Publication Number Publication Date
CN114866246A CN114866246A (zh) 2022-08-05
CN114866246B true CN114866246B (zh) 2023-07-04

Family

ID=82631348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210380837.8A Active CN114866246B (zh) 2022-04-12 2022-04-12 基于大数据的计算机网络安全入侵检测方法

Country Status (1)

Country Link
CN (1) CN114866246B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017530B (zh) * 2022-08-08 2022-12-16 创云融达信息技术(天津)股份有限公司 一种数据安全存储设备及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9118704B2 (en) * 2012-10-24 2015-08-25 Hewlett-Packard Development Company, L.P. Homoglyph monitoring
WO2019136953A1 (zh) * 2018-01-15 2019-07-18 深圳市联软科技股份有限公司 基于c&c域名分析的僵尸网络检测方法、装置、设备及介质
CN111628970A (zh) * 2020-04-24 2020-09-04 中国科学院计算技术研究所 一种dga型僵尸网络的检测方法、介质和电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107637041B (zh) * 2015-03-17 2020-09-29 英国电讯有限公司 识别恶意加密网络流量的方法与系统以及计算机程序元件
US10819724B2 (en) * 2017-04-03 2020-10-27 Royal Bank Of Canada Systems and methods for cyberbot network detection
US10496924B1 (en) * 2018-08-07 2019-12-03 Capital One Services, Llc Dictionary DGA detector model
CN112019651B (zh) * 2020-08-26 2021-11-23 重庆理工大学 利用深度残差网络和字符级滑动窗口的dga域名检测方法
CN112073550B (zh) * 2020-08-26 2021-11-02 重庆理工大学 融合字符级滑动窗口和深度残差网络的dga域名检测方法
CN113301663B (zh) * 2021-04-13 2022-02-01 东莞职业技术学院 一种计算机人工智能信息搜集方法及系统
CN114021698A (zh) * 2021-10-30 2022-02-08 河南省鼎信信息安全等级测评有限公司 基于胶囊生成对抗网络的恶意域名训练样本扩充方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9118704B2 (en) * 2012-10-24 2015-08-25 Hewlett-Packard Development Company, L.P. Homoglyph monitoring
WO2019136953A1 (zh) * 2018-01-15 2019-07-18 深圳市联软科技股份有限公司 基于c&c域名分析的僵尸网络检测方法、装置、设备及介质
CN111628970A (zh) * 2020-04-24 2020-09-04 中国科学院计算技术研究所 一种dga型僵尸网络的检测方法、介质和电子设备

Also Published As

Publication number Publication date
CN114866246A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN112104677B (zh) 一种基于知识图谱的受控主机检测方法和装置
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN112910929B (zh) 基于异质图表示学习的恶意域名检测方法及装置
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
CN111131260B (zh) 一种海量网络恶意域名识别和分类方法及系统
CN110557382A (zh) 一种利用域名共现关系的恶意域名检测方法及系统
CN112217787B (zh) 一种基于ed-gan的仿冒域名训练数据生成方法及系统
Zhou et al. CNN-based DGA detection with high coverage
CN113269228B (zh) 一种图网络分类模型的训练方法、装置、系统及电子设备
CN111767472A (zh) 一种社交网络异常账号检测方法及系统
CN114866246B (zh) 基于大数据的计算机网络安全入侵检测方法
Li et al. Street-Level Landmarks Acquisition Based on SVM Classifiers.
He et al. Malicious domain detection via domain relationship and graph models
CN113271292A (zh) 一种基于词向量的恶意域名集群检测方法及装置
CN115442075A (zh) 一种基于异质图传播网络的恶意域名检测方法和系统
CN117176433A (zh) 网络数据的异常行为检测系统及方法
CN116232673A (zh) 隐蔽通道识别方法、装置、计算机设备及存储介质
Peng et al. Malicious URL recognition and detection using attention-based CNN-LSTM
CN114021698A (zh) 基于胶囊生成对抗网络的恶意域名训练样本扩充方法及装置
CN114169432B (zh) 一种基于深度学习的跨站脚本攻击识别方法
CN115622810A (zh) 一种基于机器学习算法的业务应用识别系统及方法
CN111126468B (zh) 云计算环境下的特征降维方法、异常检测方法及装置
Jiao et al. DGGCN: Dictionary based DGA detection method based on DomainGraph and GCN
CN112836214A (zh) 一种通讯协议隐蔽通道检测方法
CN115982508B (zh) 基于异构信息网络的网站检测方法、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant