CN110225030B

CN110225030B - 基于rcnn-spp网络的恶意域名检测方法及系统

Info

Publication number: CN110225030B
Application number: CN201910498923.7A
Authority: CN
Inventors: 陈羽中; 张毓东; 郭昆; 张衍坤
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2021-09-28
Anticipated expiration: 2039-06-10
Also published as: CN110225030A

Abstract

本发明涉及一种基于SMOTE和RCNN‑SPP网络的恶意域名检测方法，包括以下步骤：对训练集中的域名进行数据预处理，得到域名字符序列训练集D；利用改进的SMOTE算法，对域名字符序列训练集D进行均衡化数据合成，得到增强均衡化的训练集D’；构造并初始化包含基于空间金字塔SPP池化的循环卷积RCNN的神经网络模型；将训练集D’中的域名转换为固定长度的表征向量；将步骤D得到的域名的表征向量输入到RCNN‑SPP神经网络模型，得到域名的特征向量；将域名的上下文向量输入到神经网络模型的全连接层，得到训练好的神经网络模型；将待判定的域名转换为字符序列，输入训练好的神经网络模型，输出判定结果。

Description

基于RCNN-SPP网络的恶意域名检测方法及系统

技术领域

本发明涉及网络安全领域，具体涉及一种基于RCNN-SPP网络的恶意域名检测方法及系统。

背景技术

DGA(域名生成算法)是一种利用随机字符来生成C&C域名以逃避域名黑名单检测的技术手段。为了阻止产生DGA的C2(Command&Control)流量，安全组织必须首先通过逆向工程来发现DGA算法，然后生成给定种子的域列表，才能对恶意域名进行及时处置。DGA这项技术会大大增加打击和关闭中心结构僵尸网络(如Conficker-A/B/C僵尸、Krabenbotnet等)的难度：僵尸网络为了躲避域名黑名单，通过使用该项技术动态生产域名。面对这种情况，检测人员需要检测识别出僵尸网络的DGA家族并掌握对应的域名生成算法和输入，以便对生成的域名及时进行处置；除此之外，在互联网上潜伏着许多恶意软件，一旦计算机受攻击遭到感染，恶意软件通常与命令和控制中心(Command&Control，C2)之间建立通信连接，从而使控制者通过C2服务器远程控制目标主机；然后，攻击者可以通过C2服务器联系受害者计算机上安装的恶意软件程序，通过DGA算法自动生成海量域名，然后从中选择一个或多个有效域名解析出IP地址，实现与C2服务器的通信，并接收恶意软件要执行的更新、操作和长传收集到的情报，或追踪其他的恶意行为。恶意行为者只需要注册少量的这些域就可以获得成功，防御者需要抢先在攻击者之前对这些域进行消除，注册或者列入黑名单。传统恶意软件分析师必须对用于生成域名的算法进行反向工程，这需要很大的人力和物力，以防止恶意软件与C&C服务器进一步通信。

在恶意域名检测的工作中，为了提升检测效率和检测准确率，已经出现了很多方法。从最初的黑名单过滤、DNS请求分析到传统机器学习以及神经网络构造分类器检测，基本上根据检测过程可以分为回归性检测和实时检测。

在全球网络信息化程度高速发展的大背景下，现有方法在面对数量巨大、来源多样的DGA域名下大多存在效率低下，检测准确率不理想和被动防御等问题。同时面对每天生成和联系的方式，这些域名的检测难度很大。

发明内容

有鉴于此，本发明的目的在于提供一种基于RCNN-SPP网络的恶意域名检测方法，提高恶意域名检测的工作的检测效率和检测准确率。

为实现上述目的，本发明采用如下技术方案：

一种基于RCNN-SPP网络的恶意域名检测方法，包括以下步骤：

步骤A：采集正常域名和恶意域名样本，对域名样本进行预处理，并赋予类别标签，得到带类别标签的域名字符序列训练集D；

步骤B：利用Borderline-SMOTE过采样算法，对带类别标签的域名字符序列训练集D中的少数类样本，通过插值合成新的少数类样本，平衡带类别标签的域名字符序列训练集D中的类样本分布，得到均衡化的带类别标签的域名字符序列训练集D_E；

步骤C：使用均衡化的带类别标签的域名字符序列训练集D_E训练基于RCNN-SPP网络的深度神经网络模型；

步骤D：将待判定的域名转换为字符序列，输入训练好的深度神经网络模型RCNN-SPP，输出判定结果。

进一步的，所述步骤A具体包括以下步骤：

步骤A1：采集正常域名和恶意域名样本，构造初始域名样本集D’；

步骤A2：创建域名字符字典，遍历初始域名样本集D’中的每个域名样本，将每个域名转换为字符向量，并赋予类别标签，得到带类别标签的域名字符序列训练集D；

其中类别标签标注为正常域名或者DGA_j，DGA_j表示所收集的恶意域名生成算法集DGA中的第j个恶意域名生成算法。

进一步的，所述步骤A2中，具体包括以下步骤：

步骤A21：创建域名字符字典，并初始化为空，字典中每个元素为<c,f>形式，其中c为字符，f为字符的出现频次；

步骤A22：遍历训练集中的所有域名，对域名所包含的每个字符c，若字典中存在字符c,则更新域名字符字典中字符c的频次；若不存在，则添加<c,1>到域名字符字典中；

步骤A23：遍历域名字符字典，首先根据字符出现频次给每个不同的字符一个唯一的编号；若出现频次相同，则根据遍历到的顺序赋予不同的编号；遍历域名字符字典，将字符按照频次进行顺序排序，并根据其顺序分配编号,得到域名字符序列训练集D；其中，字典将位置字符统一映射为0。

进一步的，所述步骤B具体包括以下步骤：

步骤B1：遍历带类别标签的域名字符序列训练集D，统计每个恶意域名生成算法DGA_j的训练样本集P_j；

其中

M为收集到的恶意域名生成算法集DGA中的恶意域名生成算法个数，DGA_j表示恶意域名生成算法集合DGA中的第j个恶意域名生成算法，P_j为带类别标签的域名字符序列训练集D中第j个恶意域名生成算法DGA_j所对应的训练样本集，N_j为训练样本集P_j中的样本数；

步骤B2：若恶意域名生成算法DGA_j的样本数N_j小于指定阈值，则将DGA_j所对应的训练样本视为少数类，利用Borderline-SMOTE过采样算法，对P_j进行样本均衡化处理，通过插值合成新的样本，将合成的样本添加到P_j中；

步骤B3：依次处理所有判定为少数类的域名样本集，平衡带类别标签的域名字符序列训练集D中的类样本分布，得到均衡化的带类别标签的域名字符序列训练集D_E。

进一步的，所述步骤B2具体包括以下步骤：

步骤B21：遍历恶意域名生成算法DGA_j的训练样本集P_j，对训练样本集P_j中的每个域名样本p_j ⁽ⁱ⁾,i＝1,2,...,N_j，通过KNN算法得到p_j ⁽ⁱ⁾的最近邻域名样本集

其中

中的域名样本数为K_j ⁽ⁱ⁾，

中的多数类的样本数为

多数类为正常域名和样本数N_j大于指定阈值的恶意域名；

步骤B22：若

即

中的域名样本都属于多数类，则认为p_j ⁽ⁱ⁾是噪声并跳过；若

则认为p_j ⁽ⁱ⁾远离样本分布的边界并跳过该样本；若

即p_j ⁽ⁱ⁾的多数类邻居的数量大于其少数类邻居的数量，则认为p_j ⁽ⁱ⁾容易被错误分类，对p_j ⁽ⁱ⁾执行步骤B23；

步骤B23：通过p_j ⁽ⁱ⁾和p_j ⁽ⁱ⁾的K_j ⁽ⁱ⁾个最近邻域名样本选择S_j ⁽ⁱ⁾个最近的邻居，通过插值合成S_j ⁽ⁱ⁾个新样本，并将新样本的类别标签标记为DGA_j；

其中样本合成的公式如下：

其中，

表示

合成的第l个域名样本，

表示

的最近邻样本集合

中第l个邻居样本，

表示

和其第l个邻居样本的差值。r_j为(0,1)之间的随机数，表示差值对合成样本的影响因子，

步骤B24：将合成的域名样本

添加到恶意域名生成算法DGA_j的训练样本集P_j中。

进一步的，所述步骤C具体包括以下步骤：

步骤C1：构造并初始化基于RCNN-SPP网络的深度学习网络模型RCNN-SPP；

步骤C2：将训练集D_E中的域名转换为固定长度的表征向量；

步骤C3：将域名的表征向量输入到RCNN-SPP网络中，得到域名的类标签向量；

步骤C4：将域名的类标签向量输入到RCNN-SPP网络的全连接层，计算每个域名属于所标注类别的概率，根据目标损失函数loss，利用反向传播方法计算所述深度网络中各参数的梯度，并利用随机梯度下降方法更新参数；

步骤C5：当神经网络模型产生的损失值迭代变化小于设定阈值不再降低或者达到最大迭代次数，则终止神经网络模型的训练。

进一步的，步骤C2中具体方法如下：

对训练集D’中的域名m，使用字符嵌入工具将域名中的字符转化为序列向量形式，计算公式如下：

v＝W*v′

其中，域名中每个字符根据步骤B中创建的字符字典初始化为一个d’维的实数，v′是每个域名根据字符字典获得的实数向量；W为随机初始化的字符嵌入矩阵，W∈R^d*d’,用于将d’维实数向量映射为d维序列向量；v∈R^d，表示映射后的序列向量，d为字符序列的固定长度，等于网络中双向循环神经网络层的神经元单元个数。

进一步的，所述步骤C3具体步骤如下：

步骤C31：将域名m看做字符序列，将序列向量按照字符次序作为主体输入到循环卷积神经网络中，依次输入x₁，x₂...，x_L，RCNN先为每个序列向量V_i获取左右上下文；公式如下：

C_l(V_i)＝f(W^(l)C_l(V_i-1)+W^(sl)e(V_i-1))

C_r(V_i)＝f(W^(r)C_r(V_i+1)+W^(sr)e(V_i+1))

其中，C_l(V_i)和C_r(V_i)分别表示字符V_i的左上下文和右上下文，e(V_i-1)和e(V_i+1)分别表示字符V_i的前一个字符及后一个字符的字符向量，从公式中可以看出，每个字符的左上下文由前一个字符及前一个字符的左上下文得到，右上下文则由后一个字符及后一个字符的右上下文得到，依次递归；W^(l)，W^(sl)，W^(r)，W^(sr)为权重矩阵，f为长短期记忆网络中对隐层状态的非线性激活函数，通过双向循环神经网络计算得到上下文向量；

步骤C32：得到每个字符的左右上下文向量后，将该字符的字符向量及其左右上下文向量进行向量的级联，共同视为一个整体，作为该字符的新的字符向量，计算公式如下：

X_i＝[C_l(V_i)；e(V_i)；C_r(V_i)]

步骤C33：获得每个字符的整体向量后，将字符对应的整体向量映射到对应的域名矩阵A＝{X₁，X₂，...，X_s}。其中，X_s代表组成域名的第s个字符在域名矩阵中对应的向量；将域名矩阵A输入到卷积神经网络，用大小为h*d的卷积核对域名所对应的向量矩阵进行局部卷积计算，计算公式如下：

o_i＝F(w·A[i：i+h-1])

c_i＝f(o_i+b)

c＝[c₁，c₂，...，c_s-h+1]

其中，F代表大小为h*d的滤波器，A是输入的域名矩阵，A∈R^s×d，s为域名中字符的个数，d为字符向量的维数；A[i：i+h-1]表示字符向量矩阵A位于滑动窗口中的部分，即字符向量矩阵的第i行到第i+h-1行；w是卷积核的权重矩阵，w∈R^h×d；o_i是卷积操作的输出，b是偏置项，b∈R；f为进行非线性操作的RELU激活函数，c_i为卷积核提取的字符向量矩阵的第i行到i+h-1行的局部上下文类别特征，其中，i＝1，2，...，s-h+1，c_i构成域名的特征映射图c，其中c的尺寸大小是a×d，a＝s-h+1。

步骤C34：接入金字塔池化模块，其包括3个池化块，每个池化块由不同大小的平均池化层组成。其中，第1个池化块中的平均池化层的池化尺寸为W₁×d，第2个池化块中的平均池化层的池化尺寸为W₂×d，第3个池化块中的平均池化层的池化尺寸为W₃×d；对于金字塔池化模块，每个池化块的输入端接收步骤C34中的所有特征图c；第1个池化块的输出端输出d维特征，记为A₁，A₁的宽度为|p₁|、高度为1；第2个池化块的输出端输出d维特征，记为A₂，A₂的宽度为|p₂|、高度为1；第3个池化块的输出端输出d维特征，记为A₃，A₃的宽度为|p₃|、高度为1；计算公式如下：

其中，W_i和t_i是第i个池化块对应的窗口大小和步长，a是域名的特征映射图c的尺寸大小，|p_i|是第i个池化块输出结果的维度，A_i是池化层进行池化后得到的对应输出集合，其中取值为[A₁，A₂，A₃]，v_m是对步骤C34中的特征图c中的W_i行特征向量求平均的中间特征向量。

最后，将3个池化块获得的向量进行向量的级联，共同视为一个整体，作为域名m的特征向量X，计算公式如下：

X＝{A₁；A₂；A₃}。

进一步的，所述步骤C4具体包括如下步骤：

步骤C41：将得到的域名的类标签向量输入到DropOut层，并将DropOut层的输出输入到全连接层,使用softmax归一化,计算域名序列所属类别的概率，计算公式如下：

y＝f_dense(W_dense*p+b_dense)

其中，W_dense为全连接层权重矩阵，b_dense为偏置项，f_dense为激活函数,本专利中使用sigmod函数，y为域名序列向量p经过全连接层非线性转换的特征向量，向量维度为L，y_i为y的第i维，p(y_i)为预测为类别i的概率，0<p(y_i)<1，L为类别的总数；

步骤C42：用交叉熵作为损失函数计算损失值，通过均方根随机梯度下降优化方法RMsprop计算所有的梯度的平方的平均值，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型；

其中最小化损失函数,Loss的计算公式如下：

其中，p(y_i)为域名序列x_i通过深度学习模型RCNN+SPP的输出结果的概率，

为域名序列x_i的实际标记结果的概率；当损失值迭代变化|Loss_i-Loss_i+1|<ε时终止深度学习模型的训练。

进一步的，包括以下：

预处理模块，用于对正常域名和恶意域名样本进行预处理，赋予类别标签，得到带类别标签的域名字符训练集；

数据均衡化模块，用于利用Borderline-SMOTE过采样算法，通过插值合成新的少数类样本，得到均衡化的带类别标签的域名字符训练集；

深度网络训练模块，用于使用带类别标签的域名字符训练集训练基于RCNN-SPP的深度网络；

判定模块，用于将域名输入到深度网络进行类别判定。

本发明与现有技术相比具有以下有益效果：

本发明基于RCNN-SPP网络的恶意域名检测方法，提高恶意域名检测的工作的检测效率和检测准确率。

附图说明

图1为本发明实施例的方法流程图。

图2是本发明实施例的步骤B的实现流程图。

图3是本发明实施例的步骤B2的实现流程图。

图4是本发明实施例的步骤C的实现流程图。

图5是本发明实施例的步骤C4的实现流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于RCNN-SPP网络的恶意域名检测方法，包括以下步骤：

在本实施例中，所述步骤A具体包括以下步骤：

其中类别标签标注为正常域名或者DGA_j，DGA_j表示所收集的恶意域名生成算法集DGA中的第j个恶意域名生成算法。所述步骤A2中，具体包括以下步骤：

参考图2,在本实施例中，所述步骤B具体包括以下步骤：

其中

参考图3，在本实施例中，所述步骤B2具体包括以下步骤：

其中

中的域名样本数为K_j ⁽ⁱ⁾，

中的多数类的样本数为

多数类为正常域名和样本数N_j大于指定阈值的恶意域名；

步骤B22：若

即

则认为p_j ⁽ⁱ⁾远离样本分布的边界并跳过该样本；若

其中样本合成的公式如下：

其中，

表示

合成的第l个域名样本，

表示

的最近邻样本集合

中第l个邻居样本，

表示

步骤B24：将合成的域名样本

添加到恶意域名生成算法DGA_j的训练样本集P_j中。

参考图4，在本实施例中，所述步骤C具体包括以下步骤：

步骤C2：将训练集D_E中的域名转换为固定长度的表征向量；

在本实施例中，步骤C2中具体方法如下：

v＝W*v′

在本实施例中，所述步骤C3具体步骤如下：

C_l(V_i)＝f(W^(l)C_l(V_i-1)+W^(sl)e(V_i-1))

C_r(V_i)＝f(W^(r)C_r(V_i+1)+W^(sr)e(V_i+1))

X_i＝[C_l(V_i)；e(V_i)；C_r(V_i)]

步骤C33：获得每个字符的整体向量后，将字符对应的整体向量映射到对应的域名矩阵A＝{X₁，X₂，…，X_s}。其中，X_s代表组成域名的第s个字符在域名矩阵中对应的向量；将域名矩阵A输入到卷积神经网络，用大小为h*d的卷积核对域名所对应的向量矩阵进行局部卷积计算，计算公式如下：

o_i＝F(w·A[i：i+h-1])

c_i＝f(o_i+b)

c＝[c₁，c₂，...，c_s-h+1]

X＝{A₁；A₂；A₃}。

参考图5，在本实施例中，,所述步骤C4具体包括如下步骤：

y＝f_dense(W_dense*p+b_dense)

其中最小化损失函数,Loss的计算公式如下：

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于RCNN-SPP网络的恶意域名检测方法，其特征在于，包括以下步骤：

所述步骤C具体包括以下步骤：

步骤C1：构造并初始化基于RCNN-SPP网络的深度神经网络模型RCNN-SPP；

步骤C2：将训练集D_E中的域名转换为固定长度的表征向量；

所述步骤C3具体步骤如下：

步骤C31：将域名m看做字符序列，将序列向量按照字符次序作为主体输入到循环卷积神经网络中，依次输入x₁，x₂…，x_L，RCNN先为每个序列向量V_i获取左右上下文；公式如下：

C_l(v_i)＝f(W^(l)C_l(v_i-1)+W^(sl)e(v_i-1))

C_r(v_i)＝f(W^(r)C_r(v_i+1)+W^(sr)e(v_i+1))

X_i＝[C_l(V_i)；e(V_i)；C_r(V_i)]

步骤C33：获得每个字符的整体向量后，将字符对应的整体向量映射到对应的域名矩阵A＝{X₁，X₂，…，X_s}；其中，X_s代表组成域名的第s个字符在域名矩阵中对应的向量；将域名矩阵A输入到卷积神经网络，用大小为h＊d的卷积核对域名所对应的向量矩阵进行局部卷积计算，计算公式如下：

o_i＝F(w·A[i：i+h-1])

c_i＝f(o_i+b)

c＝[c₁，c₂，…，c_s-h+1]

其中，F代表大小为h*d的滤波器，A是输入的域名矩阵，A∈R^s×d，s为域名中字符的个数，d为字符向量的维数；A[i：i+h-1]表示字符向量矩阵A位于滑动窗口中的部分，即字符向量矩阵的第i行到第i+h-1行；w是卷积核的权重矩阵，w∈R^h×d；o_i是卷积操作的输出，b是偏置项，b∈R；f为进行非线性操作的RELU激活函数，c_i为卷积核提取的字符向量矩阵的第i行到i+h-1行的局部上下文类别特征，其中，i＝1，2，...，s-h+1，c_i构成域名的特征映射图c，其中c的尺寸大小是a×d，a＝s-h+1；

步骤C34：接入金字塔池化模块，其包括3个池化块，每个池化块由不同大小的平均池化层组成；其中，第1个池化块中的平均池化层的池化尺寸为W₁×d，第2个池化块中的平均池化层的池化尺寸为W₂×d，第3个池化块中的平均池化层的池化尺寸为W₃×d；对于金字塔池化模块，每个池化块的输入端接收步骤C34中的所有特征图c；第1个池化块的输出端输出d维特征，记为A₁，A₁的宽度为|p₁|、高度为1；第2个池化块的输出端输出d维特征，记为A₂，A₂的宽度为|p₂|、高度为1；第3个池化块的输出端输出d维特征，记为A₃，A₃的宽度为|p₃|、高度为1；计算公式如下：

其中，W_i和t_i是第i个池化块对应的窗口大小和步长，a是域名的特征映射图c的尺寸大小，|p_i|是第i个池化块输出结果的维度，A_i是池化层进行池化后得到的对应输出集合，其中取值为[A₁，A₂，A₃]，v_m是对步骤C34中的特征图c中的W_i行特征向量求平均的中间特征向量；

X＝{A₁；A₂；A₃}；

步骤C4：将域名的类标签向量输入到RCNN-SPP网络的全连接层，计算每个域名属于所标注类别的概率，根据目标损失函数loss，利用反向传播方法计算所述深度神经网络模型中各参数的梯度，并利用随机梯度下降方法更新参数；

步骤C5：当深度神经网络模型产生的损失值迭代变化小于设定阈值不再降低或者达到最大迭代次数，则终止深度神经网络模型的训练；

2.根据权利要求1所述的一种基于RCNN-SPP网络的恶意域名检测方法，其特征在于：所述步骤A具体包括以下步骤：

步骤A1：采集正常域名和恶意域名样本，构造初始域名样本集D′；

步骤A2：创建域名字符字典，遍历初始域名样本集D′中的每个域名样本，将每个域名转换为字符向量，并赋予类别标签，得到带类别标签的域名字符序列训练集D；

3.根据权利要求2所述的一种基于RCNN-SPP网络的恶意域名检测方法，其特征在于：所述步骤A2中，具体包括以下步骤：

步骤A21：创建域名字符字典，并初始化为空，字典中每个元素为<c，f>形式，其中c为字符，f为字符的出现频次；

步骤A22：遍历训练集中的所有域名，对域名所包含的每个字符c，若字典中存在字符c，则更新域名字符字典中字符c的频次；若不存在，则添加<c，1>到域名字符字典中；

步骤A23：遍历域名字符字典，首先根据字符出现频次给每个不同的字符一个唯一的编号；若出现频次相同，则根据遍历到的顺序赋予不同的编号；遍历域名字符字典，将字符按照频次进行顺序排序，并根据其顺序分配编号，得到域名字符序列训练集D；其中，字典将域名字符统一映射为0。

4.根据权利要求1所述的一种基于RCNN-SPP网络的恶意域名检测方法，其特征在于：所述步骤B具体包括以下步骤：

其中

M为收集到的恶意域名生成算法集DGA中的恶意域名生成算法个数，DGA_j表示恶意域名生成算法集合DGA中的第j个恶意域名生成算法，P_j为带类别标签的域名字符序列训练集D中第j个恶意域名生成算法DGAj所对应的训练样本集，Nj为训练样本集Pj中的样本数；p_j ⁽ⁱ⁾，i＝1，2，...，N_j为训练样本集P_j中的第i个域名样本；

5.根据权利要求4所述的一种基于RCNN-SPP网络的恶意域名检测方法，其特征在于：所述步骤B2具体包括以下步骤：

步骤B21：遍历恶意域名生成算法DGA_j的训练样本集P_j，对训练样本集P_j中的每个域名样本p_j ⁽ⁱ⁾，i＝1，2，...，N_j，通过KNN算法得到p_j ⁽ⁱ⁾的最近邻域名样本集

其中

中的域名样本数为K_j ⁽ⁱ⁾，

中的多数类的样本数为

多数类为正常域名和样本数N_j大于指定阈值的恶意域名；

步骤B22：若

即

则认为p_j ⁽ⁱ⁾远离样本分布的边界并跳过该样本；若

其中样本合成的公式如下：

其中，

表示

合成的第l个域名样本，

表示

的最近邻样本集合

中第l个邻居样本，

表示

和其第l个邻居样本的差值；r_j为(0，1)之间的随机数，表示差值对合成样本的影响因子；

步骤B24：将合成的域名样本

添加到恶意域名生成算法DGA_j的训练样本集P_j中。

6.根据权利要求1所述的一种基于RCNN-SPP网络的恶意域名检测方法，其特征在于，步骤C2中具体方法如下：

对训练集D_E中的域名m，使用字符嵌入工具将域名中的字符转化为序列向量形式，计算公式如下：

v＝W*v′

其中，域名中每个字符根据步骤B中创建的字符字典初始化为一个d′维的实数，v′是每个域名根据字符字典获得的实数向量；W为随机初始化的字符嵌入矩阵，W∈R^d*d’，用于将d′维实数向量映射为d维序列向量；v∈R^d，表示映射后的序列向量，d为字符序列的固定长度，等于网络中双向循环神经网络层的神经元单元个数。

7.根据权利要求1所述的一种基于RCNN-SPP网络的恶意域名检测方法，其特征在于：所述步骤C4具体包括如下步骤：

步骤C41：将得到的域名的类标签向量输入到DropOut层，并将DropOut层的输出输入到全连接层，使用softmax归一化，计算域名序列所属类别的概率，计算公式如下：

y＝f_dense(W_dense*p+b_dense)

其中，W_dense为全连接层权重矩阵，b_dense为偏置项，f_dense为激活函数，本专利中使用sigmod函数，y为域名序列向量p经过全连接层非线性转换的特征向量，向量维度为L，y_i为y的第i维，p(y_i)为预测为类别i的概率，0＜p(y_i)＜1，L为类别的总数；

其中最小化损失函数，Loss的计算公式如下：

其中，p(y_i)为域名序列x_i通过深度神经网络模型RCNN+SPP的输出结果的概率，

为域名序列x_i的实际标记结果的概率；当损失值迭代变化|Loss_i-Loss_i+1|＜ε时终止深度神经网络模型的训练。

8.根据权利要求1所述的一种基于RCNN-SPP网络的恶意域名检测方法的系统，其特征在于，包括以下：

深度网络训练模块，用于使用带类别标签的域名字符训练集训练基于RCNN-SPP的深度神经网络模型；

判定模块，用于将域名输入到深度神经网络模型进行类别判定。