CN114095212A - 一种对抗训练dga域名检测模型的方法及装置 - Google Patents

一种对抗训练dga域名检测模型的方法及装置 Download PDF

Info

Publication number
CN114095212A
CN114095212A CN202111271224.2A CN202111271224A CN114095212A CN 114095212 A CN114095212 A CN 114095212A CN 202111271224 A CN202111271224 A CN 202111271224A CN 114095212 A CN114095212 A CN 114095212A
Authority
CN
China
Prior art keywords
domain name
training
model
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111271224.2A
Other languages
English (en)
Other versions
CN114095212B (zh
Inventor
安晓宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202111271224.2A priority Critical patent/CN114095212B/zh
Publication of CN114095212A publication Critical patent/CN114095212A/zh
Application granted granted Critical
Publication of CN114095212B publication Critical patent/CN114095212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对抗训练DGA域名检测模型的方法及装置,包括获取DNS流量样本数据,并提取获得域名文件;基于预先构造的分词词典对域名文件中的各域名进行分割,并根据分割结果构建编码向量文件;通过预先训练的词向量模型确定编码向量文件的各域名的训练词向量集,以及利用生成模型生成DGA域名的模拟词向量;基于训练词向量集中的词向量和所生成的模拟词向量训练判别模型和生成模型。在按照本公开的方法进行训练后,能够生成低随机性的DAG域名,而无需收集恶意样本。并且基于所生成的低随机性的DAG域名训练的判别模型,能够有效地检测出由DGA算法产生的低随机性DGA域名,从根源处遏制网络攻击的发生。

Description

一种对抗训练DGA域名检测模型的方法及装置
技术领域
本发明涉及网络安全技术领域,尤其涉及一种对抗训练DGA域名检测模型的方法及装置。
背景技术
在网络安全领域,早期的僵尸主机通常采用轮询的方法访问硬编码的C&C域名或IP来访问服务器获取控制命令,从而进行恶意的网络活动,但是这种方式在安全人员进行逆向之后会得到有效的屏蔽。目前,攻击者为了防止恶意域名被发现,会使用Domain Flux或者IP Flux来快速生成大量的恶意域名。Domain Flux是通过不断变换域名,指向同一个IP,IP Flux是只有一个域名,不断变换IP,一个域名可以使用多个IP。域名生成算法(Domain Generation Algorithm),是一种利用随机字符来生成C&C域名,同时结合DomainFlux或IP Flux技术,从而有效地逃避域名黑名单检测的技术手段。目前基于机器学习的DGA检测方法通过判断域名是否由DGA算法生成,从而阻断DGA域名与其C&C的连接,从根源处遏制网络攻击的发生。但现有的技术的生成模型生成样本的字符分布随机性比正常域名高,与正常样本差异较大,因此使用这些高随机性样本训练的判别模型无法有效地用于检测低随机性的DGA家族域名。
发明内容
本发明实施例提供一种对抗训练DGA域名检测模型的方法及装置,用以能够通过训练获得的生成模型能够生成低随机性DAG域名,同时通过使用所生成的低随机性DAG域名对抗训练的判别模型可以有效地检测出由DGA算法生成的低随机性DGA域名,从根源处遏制网络攻击的发生。
第一方面,本发明实施例提供一种对抗训练DGA域名检测模型的方法,包括:
获取DNS流量样本数据,并提取各DNS流量样本数据的主域名和顶级域名,以获得域名文件;
基于预先构造的分词词典对所述域名文件中的各域名进行分割,并根据分割结果构建编码向量文件,其中,所述分词词典是基于常用词汇形成的,包括整词和子词;
通过预先训练的词向量模型确定所述编码向量文件各域名的训练词向量集,以及利用生成模型生成DGA域名的模拟词向量;
利用所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型。
在一些实施例中,根据分割结果构建编码向量文件包括:
根据分割结果按照前向最大匹配原则,将域名分割为整词和子词的序列片段;
按照出现频率高低顺序,基于所述序列片段中出现频率靠前的指定数量的整词或子词,构建向量映射字典;
基于所述向量映射字典形成所述编码向量文件。
在一些实施例中,基于所述向量映射字典形成所述编码向量文件包括:
基于所述向量映射字典,将域名文件中的各域名编码至预设长度,以形成所述编码向量文件。
在一些实施例中,所述词向量模型是预先利用无监督学习方法训练获得的。
在一些实施例中,利用生成模型生成DGA域名的模拟词向量包括:
基于期望分布随机产生对抗样本,并将产生的对抗样本输入所述生成模型,以生成DGA域名的模拟词向量。
在一些实施例中,基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型还包括:
通过最近邻算法基于所述向量映射字典,确定与所生成的模拟词向量距离最近的向量所对应的各子词;
拼接各子词,生成所需的DGA域名。
在一些实施例中,基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型包括:
基于所述训练词向量集中的词向量和所生成的模拟词向量将所述判别模型训练至目标精度;
基于所述训练词向量集中的词向量和所生成的模拟词向量对所述生成模型和所述判别模型进行轮次训练,直至满足需求。
第二方面,本发明实施例提供一种DGA域名检测方法,包括:
获取待检测的DNS流量数据,并提取该DNS流量数据的主域名和顶级域名;
基于预先构造的分词词典对该DNS流量数据的主域名和顶级域名进行分割,以确定该DNS流量数据的词向量;
将该DNS流量数据的词向量作为输入,利用本公开各实施例所述的对抗训练DGA域名检测模型的方法所训练获得的判别模型对该DNS流量数据进行预测;
根据预测结果确定该DNS流量数据是否为DGA域名。
第三方面,本发明实施例提供一种对抗训练DGA域名检测模型的装置,包括处理器,被配置为:
获取DNS流量样本数据,并提取各DNS流量样本数据的主域名和顶级域名,以获得域名文件;
基于预先构造的分词词典对所述域名文件中的各域名进行分割,并根据分割结果构建编码向量文件,其中,所述分词词典是基于常用词汇形成的,包括整词和子词;
通过预先训练的词向量模型确定所述编码向量文件各域名的训练词向量集,以及利用生成模型生成DGA域名的模拟词向量;
利用所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本公开各实施例所述的方法的步骤。
本发明实施例通过基于预先构造的分词词典对DNS流量的域名文件中的各域名进行分割,由于分词词典是基于常用词汇形成的,包括整词和子词,在按照本公开的方法进行训练后,能够生成低随机性的DAG域名,而无需收集恶意样本。并且基于所生成的低随机性的DAG域名训练判别模型,所获得的判别器模型能够有效地检测出由DGA算法的低随机性DGA域名,从根源处遏制网络攻击的发生。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本公开的对抗训练DGA域名检测模型的基本流程图;
图2为本公开的对抗训练DGA域名检测模型的构建编码向量文件的子流程图;
图3为本公开的检测模型的训练架构示意图;
图4为本公开的DGA域名检测的基本流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种对抗训练DGA域名检测模型的方法,如图1所示,包括如下步骤:
在步骤S101中、获取DNS流量样本数据,并提取各DNS流量样本数据的主域名和顶级域名,以获得域名文件。例如可以在本地DNS服务器采集DNS流量,提取并解析每一条正常DNS流量的DNS Queries Name字段的全限定域名(FQDN)对应的主域名和顶级域名,每一条信息作为一条记录保存到特定格式的域名文件中。
在步骤S102中、基于预先构造的分词词典对所述域名文件中的各域名进行分割,并根据分割结果构建编码向量文件,其中,所述分词词典是基于常用词汇形成的,包括整词和子词。分词词典可以是初次执行时建立,具体的建立过程可以包括,首先通过统计百科语料(例如维基百科)中使用频率最高的top-N(例如N可是约为3万,具体可以根据实际需要设定)个单词构建整词字典。其次,通过百科语料,使用WordPiece、BPE(Byte Pair Encoding)等算法构造子词词典,在语料足够丰富的情况下,子词词典通常包含了绝大多数字符级别的1-gram和2-gram,其中子词由“##”开头,比如“##able”,“##ab”。最终由整词词典和子词词典共同组成可以用于域名分割的分词词典Vs。在对域名文件中的域名进行分割之后,并根据分割结果构建训练数据的编码向量文件。
在步骤S103中、通过预先训练的词向量模型确定所述编码向量文件的各域名的训练词向量集,以及利用生成模型生成DGA域名的模拟词向量。
在步骤S104中、利用所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型。
本发明实施例通过基于预先构造的分词词典对DNS流量的域名文件中的各域名进行分割,由于分词词典是基于常用词汇形成的,包括整词和子词,在按照本公开的方法进行训练后,能够生成低随机性的DAG域名,而无需收集恶意样本。并且基于所生成的低随机性的DAG域名训练判别模型,所获得的判别器模型能够有效地检测出由DGA算法的低随机性DGA域名,从根源处遏制网络攻击的发生。
在一些实施例中,根据分割结果构建编码向量文件包括:
在步骤S201中、根据分割结果按照前向最大匹配原则,将域名分割为整词和子词的序列片段。
在步骤S202中、按照出现频率高低顺序,基于所述序列片段中出现频率靠前的指定数量的整词或子词,构建向量映射字典Vm
在步骤S203中、基于所述向量映射字典形成所述编码向量文件。在一些实施例中,基于所述向量映射字典形成所述编码向量文件包括:基于所述向量映射字典,将域名文件中的各域名编码至预设长度,以形成所述编码向量文件。例如可以通过向量映射字典Vm的索引和每条域名的输入序列片段将每条域名编码为维度为字典长度|Vm|的向量,若向量映射字典Vm中的词出现在域名中,该词在向量映射字典Vm中的索引为100,则编码向量在位置100处的值设为1,其余位置值为0,以此来构建训练数据的编码向量文件。
在一些实施例中,所述词向量模型是预先利用无监督学习方法训练获得的。例如可以利用word2vec或Fasttext等无监督学习方法训练词向量,并将词向量模型持久化到设备磁盘,同时还可以读取向量映射字典Vm,并将向量映射字典Vm中各(整)子词以及对应的(整)子词的词向量保存到字典向量文件中。
在一些实施例中,通过预先训练的词向量模型确定所述编码向量文件的各域名的训练词向量集可以包括:通过前述训练的词向量模型计算所述编码向量文件中每个域名的词向量。其中,每个域名词向量的维度为(最大序列长度,嵌入维度),并将每个域名的词向量保存到训练词向量集中。
利用生成模型生成DGA域名的模拟词向量包括:基于期望分布随机产生对抗样本,并将产生的对抗样本输入所述生成模型,以生成DGA域名的模拟词向量。例如图3所示,可以从均匀分布X~U(0,1)中随机产生对抗样本,其维度为(最大序列长度,嵌入维度),将对抗样本输入生成模型以生成DGA域名的模拟词向量,其维度为(最大序列长度,嵌入维度)。
在一些实施例中,基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型还包括:通过最近邻算法基于所述向量映射字典,确定与所生成的模拟词向量距离最近的向量所对应的各子词;拼接各子词,生成所需的低随机性的DGA域名。通过这样的方式,可以在对抗训练过程中,生成器生成的词向集可以不断逼近字典中的词向量。由于字典中词是低随机性的,因此基于此进行训练的生成模型所生成的词向量经过最近邻算法和对应的词典解析形成域名(即字符)时,也是低随机性的。基于生成的低随机性的DGA域名可以获得相应的模拟词向量,而无需采集DGA域名。
本公开中所使用的生成模型包括顺次设置的1维转置卷积层、1个全局平均池化层、1个全连接层和3个BatchNormal层。判别模型包括顺次设置的3个1维卷积层、1个全局平均池化层、1个全连接层和1个BatchNormal层。在一些实施例中,利用所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型包括:可以先基于所述训练词向量集中的词向量和所生成的模拟词向量将所述判别模型训练至目标精度。例如图3所示,具体的训练过程可以是基于模拟词向量来完成,可以将训练词向量集中的词向量和模拟的低随机性的DGA域名的词向量集作为输入,来执行训练。其中,模拟词向量集中的模拟词向量可以对应为黑样本(由DGA算法生成的),所采集的真实的DNS流量的各域名对应的词向量集对应为白样本(正常流量)。然后再基于所述训练词向量集中的词向量和所生成的模拟词向量对所述生成模型和所述判别模型进行轮次训练,直至满足需求。具体的训练过程也可以采用前述方式。通过这样的训练方式,能够迅速训练接近纳什均衡的模型,满足检测需求。
本公开的方法通过构建词典对域名进行分词,而非使用字符的NGram,并使用无监督的方式预先训练词向量,然后基于预训练词向量对抗训练生成模型和判别模型,生成模型通过学习在给定预训练词向量时正常域名中子词的条件分布,可以有效地生成低随机的DGA域名。判别模型通过低随机的样本进行训练,可以有效地检测出低随机性的DGA域名。其次,本公开的方法可以通过生成模型有效地生成低随机性的恶意域名,因此无需收集恶意样本。
本发明实施例还提供一种DGA域名检测方法,如图4所示,包括:
在步骤S401中、获取待检测的DNS流量数据,并提取该DNS流量数据的主域名和顶级域名;
在步骤S402中、基于预先构造的分词词典对该DNS流量数据的主域名和顶级域名进行分割,以确定该DNS流量数据的词向量;
在步骤S403中、将该DNS流量数据的词向量作为输入,利用本公开各实施例所述的对抗训练DGA域名检测模型的方法所训练获得的判别模型对该DNS流量数据进行预测;
在步骤S404中、根据预测结果确定该DNS流量数据是否为DGA域名。例如判别模型的输出该域名为DGA域名的概率p,对于人工设定的阈值k(默认可以设置为0.5),若p>k,则判定该域名为DGA算法生成的域名,否则为正常域名。
综上,本公开的方法首先基于向量映射字典训练词向量,然后通过对抗训练的生成模型学习在给定预训练词向量时正常域名中子词的条件分布,使用最近邻算法搜索生成模型生成的词向量与字典向量中距离最近向量所对应的词,由于生成模型生成的域名均由向量映射字典Vm中的子词或整词拼接而成,而向量映射字典Vm中的词均由正常单词或单词的一部分构成,字典中的词都具有较低的随机性,因此此时生成模型可以生成与正常域名高度相似的低随机性DGA域名,同时通过使用低随机性DAG域名对抗训练的判别模型可以有效地检测出由生成模型生成的低随机性DGA域名。
本发明实施例还提供一种对抗训练DGA域名检测模型的装置,包括处理器,被配置为:
获取DNS流量样本数据,并提取各DNS流量样本数据的主域名和顶级域名,以获得域名文件;
基于预先构造的分词词典对所述域名文件中的各域名进行分割,并根据分割结果构建编码向量文件,其中,所述分词词典是基于常用词汇形成的,包括整词和子词;
通过预先训练的词向量模型确定所述编码向量文件各域名的训练词向量集,以及利用生成模型生成DGA域名的模拟词向量;
利用所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本公开各实施例所述的方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种对抗训练DGA域名检测模型的方法,其特征在于,包括:
获取DNS流量样本数据,并提取各DNS流量样本数据的主域名和顶级域名,以获得域名文件;
基于预先构造的分词词典对所述域名文件中的各域名进行分割,并根据分割结果构建编码向量文件,其中,所述分词词典是基于常用词汇形成的,包括整词和子词;
通过预先训练的词向量模型确定所述编码向量文件的各域名的训练词向量集,以及利用生成模型生成DGA域名的模拟词向量;
基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型。
2.如权利要求1所述的对抗训练DGA域名检测模型的方法,其特征在于,根据分割结果构建编码向量文件包括:
根据分割结果按照前向最大匹配原则,将域名分割为整词和子词的序列片段;
按照出现频率高低顺序,基于所述序列片段中出现频率靠前的指定数量的整词或子词,构建向量映射字典;
基于所述向量映射字典形成所述编码向量文件。
3.如权利要求2所述的对抗训练DGA域名检测模型的方法,其特征在于,基于所述向量映射字典形成所述编码向量文件包括:
基于所述向量映射字典,将域名文件中的各域名编码至预设长度,以形成所述编码向量文件。
4.如权利要求2所述的对抗训练DGA域名检测模型的方法,其特征在于,所述词向量模型是预先利用无监督学习方法训练获得的。
5.如权利要求2所述的对抗训练DGA域名检测模型的方法,其特征在于,利用生成模型生成DGA域名的模拟词向量包括:
基于期望分布随机产生对抗样本,并将产生的对抗样本输入所述生成模型,以生成DGA域名的模拟词向量。
6.如权利要求5所述的对抗训练DGA域名检测模型的方法,其特征在于,基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型还包括:
通过最近邻算法基于所述向量映射字典,确定与所生成的模拟词向量距离最近的向量所对应的各子词;
拼接各子词,生成所需的DGA域名。
7.如权利要求5所述的对抗训练DGA域名检测模型的方法,其特征在于,基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型包括:
基于所述训练词向量集中的词向量和所生成的模拟词向量将所述判别模型训练至目标精度;
基于所述训练词向量集中的词向量和所生成的模拟词向量对所述生成模型和所述判别模型进行轮次训练,直至满足需求。
8.一种DGA域名检测方法,其特征在于,包括:
获取待检测的DNS流量数据,并提取该DNS流量数据的主域名和顶级域名;
基于预先构造的分词词典对该DNS流量数据的主域名和顶级域名进行分割,以确定该DNS流量数据的词向量;
将该DNS流量数据的词向量作为输入,利用如权利要求1-7任一项所述的对抗训练DGA域名检测模型的方法所训练获得的判别模型对该DNS流量数据进行预测;
根据预测结果确定该DNS流量数据是否为DGA域名。
9.一种对抗训练DGA域名检测模型的装置,其特征在于,包括处理器,被配置为:
获取DNS流量样本数据,并提取各DNS流量样本数据的主域名和顶级域名,以获得域名文件;
基于预先构造的分词词典对所述域名文件中的各域名进行分割,并根据分割结果构建编码向量文件,其中,所述分词词典是基于常用词汇形成的,包括整词和子词;
通过预先训练的词向量模型确定所述编码向量文件各域名的训练词向量集,以及利用生成模型生成DGA域名的模拟词向量;
利用所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
CN202111271224.2A 2021-10-29 2021-10-29 一种对抗训练dga域名检测模型的方法及装置 Active CN114095212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111271224.2A CN114095212B (zh) 2021-10-29 2021-10-29 一种对抗训练dga域名检测模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111271224.2A CN114095212B (zh) 2021-10-29 2021-10-29 一种对抗训练dga域名检测模型的方法及装置

Publications (2)

Publication Number Publication Date
CN114095212A true CN114095212A (zh) 2022-02-25
CN114095212B CN114095212B (zh) 2023-09-01

Family

ID=80298280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111271224.2A Active CN114095212B (zh) 2021-10-29 2021-10-29 一种对抗训练dga域名检测模型的方法及装置

Country Status (1)

Country Link
CN (1) CN114095212B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115150354A (zh) * 2022-06-29 2022-10-04 北京天融信网络安全技术有限公司 一种生成域名的方法、装置、存储介质及电子设备
WO2024051672A1 (zh) * 2022-09-08 2024-03-14 天翼数字生活科技有限公司 一种用于设备单元化调度接入的方法与系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177369A (ja) * 2015-03-18 2016-10-06 株式会社東芝 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置
WO2016190861A1 (en) * 2015-05-27 2016-12-01 Hewlett Packard Enterprise Development Lp Identifying algorithmically generated domains
CN106598941A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 一种全局优化文本关键词质量的算法
US20180351972A1 (en) * 2017-05-31 2018-12-06 Infoblox Inc. Inline dga detection with deep networks
CN110545284A (zh) * 2019-09-17 2019-12-06 武汉思普崚技术有限公司 一种对抗性网络的域名检测方法及系统
CN110830490A (zh) * 2019-11-14 2020-02-21 苏州大学 基于带对抗训练深度网络的恶意域名检测方法及系统
CN111340066A (zh) * 2020-02-10 2020-06-26 电子科技大学 一种基于几何向量的对抗样本生成方法
CN111654504A (zh) * 2020-06-10 2020-09-11 北京天融信网络安全技术有限公司 一种dga域名检测方法及装置
CN112104677A (zh) * 2020-11-23 2020-12-18 北京金睛云华科技有限公司 一种基于知识图谱的受控主机检测方法和装置
CN113098989A (zh) * 2020-01-09 2021-07-09 深信服科技股份有限公司 字典生成方法、域名检测方法、装置、设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177369A (ja) * 2015-03-18 2016-10-06 株式会社東芝 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置
WO2016190861A1 (en) * 2015-05-27 2016-12-01 Hewlett Packard Enterprise Development Lp Identifying algorithmically generated domains
CN106598941A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 一种全局优化文本关键词质量的算法
US20180351972A1 (en) * 2017-05-31 2018-12-06 Infoblox Inc. Inline dga detection with deep networks
CN110545284A (zh) * 2019-09-17 2019-12-06 武汉思普崚技术有限公司 一种对抗性网络的域名检测方法及系统
CN110830490A (zh) * 2019-11-14 2020-02-21 苏州大学 基于带对抗训练深度网络的恶意域名检测方法及系统
CN113098989A (zh) * 2020-01-09 2021-07-09 深信服科技股份有限公司 字典生成方法、域名检测方法、装置、设备及介质
CN111340066A (zh) * 2020-02-10 2020-06-26 电子科技大学 一种基于几何向量的对抗样本生成方法
CN111654504A (zh) * 2020-06-10 2020-09-11 北京天融信网络安全技术有限公司 一种dga域名检测方法及装置
CN112104677A (zh) * 2020-11-23 2020-12-18 北京金睛云华科技有限公司 一种基于知识图谱的受控主机检测方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115150354A (zh) * 2022-06-29 2022-10-04 北京天融信网络安全技术有限公司 一种生成域名的方法、装置、存储介质及电子设备
CN115150354B (zh) * 2022-06-29 2023-11-10 北京天融信网络安全技术有限公司 一种生成域名的方法、装置、存储介质及电子设备
WO2024051672A1 (zh) * 2022-09-08 2024-03-14 天翼数字生活科技有限公司 一种用于设备单元化调度接入的方法与系统

Also Published As

Publication number Publication date
CN114095212B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN111783419B (zh) 地址相似度计算方法、装置、设备和存储介质
CN111667066B (zh) 网络模型的训练、文字识别方法、装置和电子设备
CN112019651B (zh) 利用深度残差网络和字符级滑动窗口的dga域名检测方法
CN114095212B (zh) 一种对抗训练dga域名检测模型的方法及装置
US11762990B2 (en) Unstructured text classification
WO2019014527A1 (en) SYSTEM AND METHOD FOR DETECTION OF HOMOGLYPHE ATTACKS USING A SIAMOIS CONVOLUTIVE NEURAL NETWORK
CN112073550B (zh) 融合字符级滑动窗口和深度残差网络的dga域名检测方法
CN113065525B (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN111628970A (zh) 一种dga型僵尸网络的检测方法、介质和电子设备
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN110705250A (zh) 一种用于识别聊天记录中目标内容的方法与系统
CN114372267B (zh) 一种基于静态域的恶意网页识别检测方法、计算机及存储介质
CN110958244A (zh) 一种基于深度学习的仿冒域名检测方法及装置
CN115314236A (zh) 在域名系统(dns)记录集中检测网络钓鱼域的系统和方法
KR20200063067A (ko) 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법
CN114826681A (zh) 一种dga域名检测方法、系统、介质、设备及终端
Ren et al. Integrating an attention mechanism and deep neural network for detection of DGA domain names
CN110674370A (zh) 域名识别方法及装置、存储介质及电子设备
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
CN116521966A (zh) 索引构建方法和流量查询方法、设备及存储介质
CN114461943B (zh) 基于深度学习的多源poi语义匹配方法、装置及其存储介质
CN115022001B (zh) 域名识别模型的训练方法、装置、电子设备及存储介质
CN113515598B (zh) 一种网络威胁情报文档实体关系提取方法及装置
CN115361242B (zh) 一种基于多维特征网络的Web攻击检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant