CN115396242B

CN115396242B - 一种数据识别的方法及网络安全漏洞的检测方法

Info

Publication number: CN115396242B
Application number: CN202211341271.4A
Authority: CN
Inventors: 刘燚; 张宸源; 吴雷; 万谦; 吴栋; 吴鸣鹏
Original assignee: Jiangxi Shenzhou Information Security Assessment Center Co ltd
Current assignee: Jiangxi Shenzhou Information Security Assessment Center Co ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-04-07
Anticipated expiration: 2042-10-31
Also published as: CN115396242A

Abstract

本发明公开了一种数据识别的方法及网络安全漏洞的检测方法，本发明采用交叉熵函数、Epoch、Keras、SGD、神经网络架构等技术组合，其中神经网络架构采用的是MLP架构为8层256通道，即每层有256个神经元的中间层构成。本发明还采用迭代算法LearningRate、ReLU函数，sigmoid挤压函数进行优化，可以保障与普通级别的训练模型结合，同时进行快速运算，减少训练时间。训练成熟之后，对企业数据的分级标识的时间也可以大量缩短。本发明可以对从未收集过的新出现的病毒数据、漏洞数据也用数字识别技术进行标记，这也是人工智能训练的优势所在。

Description

一种数据识别的方法及网络安全漏洞的检测方法

技术领域

本发明涉及数据识别处理技术领域，尤其涉及一种数据识别的方法及网络安全漏洞的检测方法。

背景技术

数据识别涉及的范围很广，数据识别在不同具体领域的应用中差别明显，需要找到特定的适合自身发展的算法来优化和提升效率。

同样是面对网络安全，举例：企业等业主可以重点考虑异常流量信息的分析判断，使得企业的防火墙更好的发挥监控、报警、阻挡的作用。

防火墙与病毒、漏洞之间的博弈长期存在，一直处于动态变化中。

防火墙提供商，更多的是提供防控服务。

而网络安全漏洞检测服务商提供的是检测服务。

按照网络安全管理条例，防火墙提供商与网络安全漏洞检测服务商要分开运行，不能兼营。

同样是面对网络安全，向企业等业主提供网络安全漏洞检测服务的第三方服务商，关注的是在有限的检测经费和有限的人工时间成本前提下按合同提供优质的相对应的服务。服务涉及检测经费和人工时间的控制以及质量。如果控制不佳，会影响网络安全漏洞检测服务的质量以及效率。

网络安全漏洞检测服务对象差异大，例如服务对象可以是数据量庞大的产值规模大的大型企业，也可以是中小企业。还可以是银行、医院、也可以是政府部门。网络安全漏洞检测服务的常规流程是：网络安全漏洞检测服务商依据不同客户，设计若干套不同的漏洞检测工具，派遣漏洞检测工程师前往客户现场，选择合适的漏洞检测工具，漏洞检测工具会将客户数据及文件先初步按ABCD四类进行分级管理，同时资深的漏洞检测工程师可以根据经验，现场手动调节部分有争议的分类数据；或检测工具不能区分的分级的数据或文件，也需要人为调整，人为手动标记，这样检测的质量和效率有一定程度受限于漏洞检测工程师的经验积累。

在国内，涉及网络安全漏洞检测领域的数据识别的专利报道不多，我们分析网络安全漏洞检测的行业难点是：网络安全漏洞检测服务商可以对过去出现过的病毒数据、漏洞数据进行报警，出具检测漏洞评估报告。但是对于动态变化和全新出现的病毒数据、漏洞数据因为网络安全漏洞检测服务商以往没有接触过，可能导致错过对最新的漏洞的识别，而最终影响网络安全漏洞检测服务的质量以及效率。

这个时候建立良好的数据识别的方法，再结合网络安全漏洞检测服务商根据自身经验建立的多个训练模型，一方面提高传统漏洞检测的效率，另一方面当训练完毕后，网络安全漏洞检测服务商还可以做到面对从未接触的病毒数据、漏洞数据，依然可以保持良好的网络安全漏洞检测服务的质量以及效率就非常有意义。

我们注意到交叉熵函数、Epoch、Keras、SGD、迭代算法LearningRate、神经网络架构都是数据标识领域可以采纳的经典技术，但是如何利用好这类技术的组合细节以及选择良好的漏洞检测流程，来提升网络安全检测效率依然是很少见报道。

发明内容

本发明的目的是为了提供一种数据识别的方法及网络安全漏洞的检测方法。

本发明所要解决的第一个问题是：

建立良好的数据识别的方法，再结合网络安全漏洞检测服务商根据自身经验建立的多个训练模型，当训练完毕后，网络安全漏洞检测服务商可以做到面对从未接触的病毒数据、漏洞数据，依然可以保持良好的网络安全漏洞检测服务的质量以及效率。

本发明所要解决的第二个问题是：采用良好的数据识别技术算法，在保证训练准确率为99.9％以上的前提下，大幅减少训练周期，大幅提高效率。

一种数据识别的方法及网络安全漏洞的检测方法采用的技术方案如下：数据识别的方法

S21：对文件数据进行数字化处理，将提取到的特征转换为数字化，并通过张量矩阵存储，经过归一化处理使神经网络收敛加快；

S22：使用交叉熵函数，作为损失函数，计算公式为：

其中y为真实值，a为预测值，由于相差值可能为负，通过平方取正；

S23：神经网络架构采用一个多层感知机MLP进行对文件数据的分类，MLP架构为8层256通道即每层有256个神经元的中间层构成，每层采用ReLU函数激活，且设置dropout＝0.5防止过拟合，最后一层输出采用sigmoid函数激活数据；

MLP架构为8层256通道即每层有256个神经元的中间层构成可以保障与普通级别的训练模型结合，可以同时进行快速运算，减少训练时间。训练成熟之后，对企业数据的分级标识的时间也可以大量缩短。

S24：ReLU函数通过将相应的活性值设为0，仅保留正元素并丢弃所有负元素；

S25：通过sigmoid函数进行压缩，sigmoid函数通常称为挤压函数(squashingfunction)：它将已有数据根据其范围，将任意输入压缩到区间(0,1)中的某个值，以保证归一化；

S26:建立网络安全数据训练模型，模型训练在损失率进行梯度下降的过程中，初始学习率设置为0.0001，并通过迭代学习算法来动态改变学习率，降低损失，以提高准确率；

S27:模型训练，数据迭代，在迭代后期，学习率降低频率增快，损失逐渐降低，准确率升高缓慢；

S28:模型训练完毕后，将文件提取出的特征重新输入模型，以进行对文件类型的判断分类，通过对迭代后期数据的观察，准确率可达99.9％。

上述步骤S26中迭代学习算法具体为：所述步骤S26中迭代学习算法为LearningRateB＝LearningRateA*1/(1+decay/epoch)，其中：LearningRateB以及LearningRateA分别为迭代学习率以及初始学习率，根据epoch逐步降级学习率，在Keras中是通过SGD类中的随机梯度下降优化算法实现的，当decay等于0时，对学习率无影响，当decay不等于0时，迭代学习率LearningRateB呈线性衰减。

进一步的，一种网络安全漏洞的检测方法，所述检测方法采用上述的一种数据识别的方法，包括以下步骤：

步骤1:企业提出需要测评的终端设备；

步骤2:对所述需要测评的终端设备进行数据采集、数据识别、数据判断分类、漏洞分析安全评估，其中所述数据识别通过上述的一种数据识别的方法进行数据识别；

步骤3:得出网络安全漏洞检测结果。

其中上述步骤2中所述数据采集针对终端的数据进行采集，所述数据采集通过数据采集模块实现，所述数据采集模块具体通过向目标发送数据包，然后将目标的回应与网络漏洞库中的样本进行对比处理；将采集处理后的数据信息进行所述数据识别，并将分析后的数据进行所述数据判断分类；

所述数据判断分类通过数据判断分类模块进行判断，所述数据判断分类模块包括A、B、C、D四种判断方式，对数据进行判断，其中判断方式A，将判断后的数据标记为Ai，i＝1,2,3...n；判断方式B，将此类型信息标记为Bi，i＝1,2,3...n；判断方式C，将此类型信息标记为Ci，i＝1,2,3...n；判断方式D则不作标记；其中判断方式A用于判断网络安全标准必检数据信息，判断方式B用于判断终端所处行业高危易出漏洞项、之前测评存在的漏洞项数据信息，判断方式C用于判断渗透测试中可能存在漏洞类数据信息，判断方式D用于判断安全数据信息；

所述漏洞分析安全评估通过漏洞分析安全评估模块进行评估，所述漏洞分析安全评估模块对接收到的判断分类后的信息进行分列式漏洞分析安全扫描，出具快速的评估报告，所述判断方式A与所述判断方式B中数据进行全盘扫描分析，所述判断方式C中数据采用抽样筛选算法进行分析，判断方式D中数据不分析，最后分析出终端设备的安全评估信息。

进一步的，上述数据采集模块采用的工具包括Nmap、Maltego、Recon-NG、Metasploit，根据现有漏洞库进行不断更新。

进一步的，所述数据判断分类模块包括以下步骤：

S31：对所述数据识别得到的数据信息向量进行SVM算法分类训练；

S32:分类出判断方式A、判断方式B、判断方式C、判断方式D四种数据信息并分入相应数据库；

进一步的，上述判断方式A为网络安全标准必检数据信息，包括涉及网络安全通信、区域边界安全、计算环境安全中的常见漏洞数据信息，所述网络安全通信主要体现在网络架构、通信传输、可信验证，测评对象为提供网络通信相关组件、含有密码数据信息、含有可信验证组件或提供审计功能的软件数据信息，所述区域边界安全主要体现在访问控制、入侵防范、恶意代码和垃圾邮件防范，测评对象为防火墙、网关、源地址、目的地址、源端口相关数据信息，所述计算环境安全主要体现在身份鉴别、个人信息、数据完整性保密性与备份恢复，测评对象为操作系统、业务应用系统、应用软件、网关节点相关数据信息；

所述判断方式B为终端所处行业高危易出漏洞项、之前测评存在的漏洞项数据信息，所述数据信息来源于行业共性漏洞、用户提供易出漏洞项和之前测评中出现过的漏洞项数据信息；

所述判断方式C为渗透测试中可能存在漏洞类数据信息，由检测实施者根据其他渗透测试中出现过的漏洞信息进行抽样测评，进一步提升检测的准确性与全覆盖性。

进一步的，上述漏洞分析安全评估模块中所述判断方式A中数据采用全盘重点扫描，所述判断方式B中数据采用全盘快速扫描，所述判断方式C采用抽样筛选扫描，得出结果进行全盘快速扫描。

进一步的，所述漏洞分析安全评估模块对所述Ci中数据信息评估结果采用以下步骤：

S431：对所述Ci中数据信息漏洞分析安全评估；

S432：测评结果小于等于90分，即存在漏洞时，将所述Ci中数据信息转存入所述Ai中进行全盘重点扫描；测评结果大于90分小于100分，即存在可修复项时，将所述Ci中数据信息转存入所述Bi中进行全盘快速扫描；

S433：直至测评完得出所述Ci中数据。

进一步的，所述漏洞分析安全评估模块对所述数据判断分类模块输入的数据通过采用分列式同时进行全盘扫描，快速生成相应的漏洞分析安全评估报告，给出风险等级提示、修复建议和预防措施，对风险控制策略进行有效审核，在弱点全面评估的基础上实现对终端的安全自主掌控。

本发明的有益效果：网络安全漏洞检测可以通过以往多年积累的检测涉及的病毒数据、漏洞数据提炼出多个训练模型，最直接的收益是在充分保证检测服务的质量前提下，采用比较好的数据识别的方法，来提升网络安全漏洞检测服务的质量以及效率。具体来说，一方面是通过训练模型，不仅是把已经知道的病毒和漏洞数据分级标识出来，分为ABCD四类按分级管理。另一方面也是通过训练模型，把从未收集过的新出现的病毒数据、漏洞数据用数字识别技术也标记为ABCD四类按分级管理。

从未收集过的新出现的病毒数据、漏洞数据也用数字识别技术也进行标记，是本发明的一大特点，这也是“交叉熵函数、Epoch、Keras、SGD、迭代算法LearningRate、神经网络架构，MLP架构为8层256通道即每层有256个神经元的中间层构成可以保障与普通级别的训练模型结合，可以同时进行快速运算，减少训练时间。训练成熟之后，对企业数据的分级标识的时间也可以大量缩短”集成技术组合而得。

ReLU函数，sigmoid挤压函数都是训练周期缩短，训练效率提高的关键技术之一，结合交叉熵函数、Epoch、Keras、SGD、迭代算法LearningRate、神经网络架构，可以将训练周期可以控制在2000-5000次，当2000-5000次就可以训练至熟练程度，对于一个中型企业的数据的重新扫描识别为ABCD分级的时间可以控制在数分钟。这是非常高效的。

举对比来说，在训练过程中，针对同样的训练模型，常规的算法，常规的神经架构，过于依赖训练工程师的经验，需要有经验的训练工程师手动调节参数，训练效率不高。

如果采用其他架构结合或其他迭代算法，训练的准确度大致分布在50％-70％，即使训练数十万个周期，都很难达到95％的准确度。

附图说明

图1为本发明中ReLU函数修正线性示意图；

图2为本发明中sigmoid函数数据归一化示意图；

图3为本发明中迭代训练初期示意图；

图4为本发明中迭代训练后期准确度为99.9％以上的示意图；

图5为本发明中网络安全漏洞的检测方法的流程示意图；

图6为本发明中数据采集模块采集并交由数据判断流程示意图；

图7为本发明中数据判断分类模块判断示意图。

具体实施方式

下面结合说明书附图对本发明进一步清楚完整说明，但本发明的保护范围并不仅限于此。

实施例：

如图1至图7所示，一种数据识别的方法及网络安全漏洞的检测方法，其中一种数据识别的方法，包括以下步骤：

S22：使用交叉熵函数，作为损失函数，计算公式为：

在上述过程中，

表示单次对仅对一个样本进行训练时的二次代价函数。

S23：神经网络架构采用一个多层感知机MLP进行对文件数据的分类，MLP架构为8层256通道即每层有256个神经元的中间层构成，每层采用ReLU函数激活，且设置dropout＝0.5即在神经网络中每两个神经元丢弃一个神经元进而防止过拟合，最后一层输出采用sigmoid函数激活数据；

S24：ReLU函数通过将相应的活性值设为0，如图1所示，仅保留正元素并丢弃所有负元素；

S25：通过sigmoid函数进行压缩，sigmoid函数通常称为挤压函数(squashingfunction)：它将已有数据根据其范围，如图2所示，将任意输入压缩到区间(0,1)中的某个值，以保证归一化；

S27:模型训练共迭代2547个周期，如图3、图4所示，仅通过前10个迭代周期便可以把准确率从0.926968提升至0.986847，而通过后期的连续10个迭代周期，仅能将准确率在0.999308与0.999407之间进行来回变换，进而可以观察到在迭代后期，学习率降低频率增快，损失逐渐降低，准确率升高缓慢；

所述步骤S26中迭代学习算法为LearningRateB＝LearningRateA*1/(1+decay/epoch)，其中：LearningRateB以及LearningRateA分别为迭代学习率以及初始学习率，根据epoch即迭代次数逐步降级学习率，在Keras(由Python编写的开源人工神经网络库，可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化)中是通过SGD(随机梯度下降法)类中的随机梯度下降优化算法实现的，当decay等于0时，对学习率无影响，当decay不等于0时，迭代学习率LearningRateB呈线性衰减，其中decay即learning rate decay，表示学习率衰减。

其中一种网络安全漏洞的检测方法，检测方法采用上述的一种数据识别方法，如图5所示，包括以下步骤：

步骤1:企业提出需要测评的终端设备；

步骤3:得出网络安全漏洞检测结果。

其中上述步骤2中所述数据采集针对终端的数据进行采集，所述数据采集通过数据采集模块实现，如图6所示，所述数据采集模块具体通过向目标发送数据包，然后将目标的回应与网络漏洞库中的样本进行对比处理；将采集处理后的数据信息进行所述数据识别，并将分析后的数据进行所述数据判断分类；所述数据判断分类通过数据判断分类模块进行判断，所述数据判断分类模块包括A、B、C、D四种判断方式，如图7所示，对数据进行判断，其中判断方式A，将判断后的数据标记为Ai，i＝1,2,3...n；判断方式B，将此类型信息标记为Bi，i＝1,2,3...n；判断方式C，将此类型信息标记为Ci，i＝1,2,3...n；判断方式D则不作标记；其中判断方式A：网络安全标准必检数据信息，判断方式B：终端所处行业高危易出漏洞项、之前测评存在的漏洞项数据信息，判断方式C：渗透测试中可能存在漏洞类数据信息，判断方式D：安全数据信息；

其中上述数据采集模块采用的工具包括Nmap、Maltego、Recon-NG、Metasploit，根据现有漏洞库进行不断更新。

其中所述数据判断分类模块包括以下步骤：

S31：对所述数据识别得到的数据信息向量进行SVM算法分类训练，其中SVM算法的全称是Support Vector Machine，即支持向量机，主要用于解决模式识别领域中的数据分类问题，属于有监督学习算法的一种；

其中上述判断方式A为网络安全标准必检数据信息，包括涉及网络安全通信、区域边界安全、计算环境安全中的常见漏洞数据信息，所述网络安全通信主要体现在网络架构、通信传输、可信验证，测评对象为提供网络通信相关组件、含有密码数据信息、含有可信验证组件或提供审计功能的软件数据信息，所述区域边界安全主要体现在访问控制、入侵防范、恶意代码和垃圾邮件防范，测评对象为防火墙、网关、源地址、目的地址、源端口相关数据信息，所述计算环境安全主要体现在身份鉴别、个人信息、数据完整性保密性与备份恢复，测评对象为操作系统、业务应用系统、应用软件、网关节点相关数据信息；

其中上述漏洞分析安全评估模块中所述判断方式A中数据采用全盘重点扫描，所述判断方式B中数据采用全盘快速扫描，所述判断方式C采用抽样筛选扫描，得出结果进行全盘快速扫描。

其中所述漏洞分析安全评估模块对所述Ci中数据信息评估结果采用以下步骤：

S431：对所述Ci中数据信息漏洞分析安全评估；

S433：直至测评完得出所述Ci中数据。

其中所述漏洞分析安全评估模块对所述数据判断分类模块输入的数据通过采用分列式同时进行全盘扫描，快速生成相应的漏洞分析安全评估报告，给出风险等级提示、修复建议和预防措施，对风险控制策略进行有效审核，在弱点全面评估的基础上实现对终端的安全自主掌控。

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

本发明建立良好的数据识别的方法，再结合网络安全漏洞检测服务商根据自身经验建立的多个训练模型，当训练完毕后，网络安全漏洞检测服务商可以做到面对从未接触的病毒数据、漏洞数据，依然可以保持良好的网络安全漏洞检测服务的质量以及效率。

Claims

1.一种数据识别的方法，其特征在于，包括以下步骤：

S22：使用交叉熵函数，作为损失函数，计算公式为：

S25：通过sigmoid函数进行压缩，它将已有数据根据其范围，将任意输入压缩到区间(0,1)中的某个值，以保证归一化；

S28:模型训练完毕后，将文件提取出的特征重新输入模型，以进行对文件类型的判断分类。

2.根据权利要求1所述的一种数据识别的方法，其特征在于，

所述步骤S26中迭代学习算法为LearningRateB＝LearningRateA*1/(1+decay/epoch)，其中：LearningRateB以及LearningRateA分别为迭代学习率以及初始学习率，根据epoch逐步降级学习率，在Keras中是通过SGD类中的随机梯度下降优化算法实现的，当decay等于0时，对学习率无影响，当decay不等于0时，迭代学习率LearningRateB呈线性衰减，其中decay即learning rate decay，表示学习率衰减。

3.一种网络安全漏洞的检测方法，其特征在于，采用如权利要求1-2中任一项所述的一种数据识别的方法，包括以下步骤：

步骤1:企业提出需要测评的终端设备；

步骤2:对需要测评的终端设备进行数据采集、数据识别、数据判断分类、漏洞分析安全评估；

步骤3:得出网络安全漏洞检测结果。

4.根据权利要求3所述的一种网络安全漏洞的检测方法，其特征在于，步骤2中所述数据采集针对终端的数据进行采集，所述数据采集通过数据采集模块实现，所述数据采集模块具体通过向目标发送数据包，然后将目标的回应与网络漏洞库中的样本进行对比处理；将采集处理后的数据信息进行所述数据识别，并将分析后的数据进行所述数据判断分类；

步骤2中所述数据判断分类通过数据判断分类模块进行判断，所述数据判断分类模块包括A、B、C、D四种判断方式，对数据进行判断，其中判断方式A，将判断后的数据标记为Ai，i＝1,2,3...n；判断方式B，将此类型信息标记为Bi，i＝1,2,3...n；判断方式C，将此类型信息标记为Ci，i＝1,2,3...n；判断方式D则不作标记；其中

判断方式A用于判断网络安全标准必检数据信息，判断方式B用于判断终端所处行业高危易出漏洞项、之前测评存在的漏洞项数据信息，判断方式C用于判断渗透测试中可能存在漏洞类数据信息，判断方式D用于判断安全数据信息；

步骤2中所述漏洞分析安全评估通过漏洞分析安全评估模块进行评估，所述漏洞分析安全评估模块对接收到的判断分类后的信息进行分列式漏洞分析安全扫描，出具快速的评估报告，所述判断方式A与所述判断方式B中数据进行全盘扫描分析，所述判断方式C中数据采用抽样筛选算法进行分析，判断方式D中数据不分析，最后分析出终端设备的安全评估信息。

5.根据权利要求4所述的一种网络安全漏洞的检测方法，其特征在于，所述数据采集模块采用的工具包括Nmap、Maltego、Recon-NG、Metasploit，根据现有漏洞库进行不断更新。

6.根据权利要求4所述的一种网络安全漏洞的检测方法，其特征在于，所述数据判断分类模块包括以下步骤：

其中所述判断方式A为网络安全标准必检数据信息，包括涉及网络安全通信、区域边界安全、计算环境安全中的常见漏洞数据信息，所述网络安全通信主要体现在网络架构、通信传输、可信验证，测评对象为提供网络通信相关组件、含有密码数据信息、含有可信验证组件或提供审计功能的软件数据信息，所述区域边界安全主要体现在访问控制、入侵防范、恶意代码和垃圾邮件防范，测评对象为防火墙、网关、源地址、目的地址、源端口相关数据信息，所述计算环境安全主要体现在身份鉴别、个人信息、数据完整性保密性与备份恢复，测评对象为操作系统、业务应用系统、应用软件、网关节点相关数据信息；

7.根据权利要求4所述的一种网络安全漏洞的检测方法，其特征在于，所述漏洞分析安全评估模块中所述判断方式A中数据采用全盘重点扫描，所述判断方式B中数据采用全盘快速扫描，所述判断方式C采用抽样筛选扫描，得出结果进行全盘快速扫描。

8.根据权利要求7所述的一种网络安全漏洞的检测方法，其特征在于，所述漏洞分析安全评估模块对所述Ci中数据信息评估结果采用以下步骤：

S431：对所述Ci中数据信息漏洞分析安全评估；

S433：直至测评完得出所述Ci中数据。

9.根据权利要求4所述的一种网络安全漏洞的检测方法，其特征在于，所述漏洞分析安全评估模块对所述数据判断分类模块输入的数据通过采用分列式同时进行全盘扫描，快速生成相应的漏洞分析安全评估报告，给出风险等级提示、修复建议和预防措施，对风险控制策略进行有效审核，在弱点全面评估的基础上实现对终端的安全自主掌控。