CN115529166A

CN115529166A - 基于多源数据的网络安全扫描风险管控系统及其方法

Info

Publication number: CN115529166A
Application number: CN202211080088.3A
Authority: CN
Inventors: 吴艳; 郭银锋; 刘彦伸; 虞雁群; 陈基展
Original assignee: Zhejiang Yu'an Information Technology Co ltd
Current assignee: Zhejiang Yu'an Information Technology Co ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-12-27

Abstract

公开了一种基于多源数据的网络安全扫描风险管控系统及其方法，其利用基于深度学习的深度神经网络模型作为特征提取器对网络安全系统所产生的安全日志、系统日志、漏洞数据和流量数据进行多源数据编码以充分挖掘其内部隐含信息和关联特征，并将所挖掘的特征表示通过分类器以得到用于表示是否产生网络安全预警提示的分类结果。这样，提高网络安全风险管控能力。

Description

基于多源数据的网络安全扫描风险管控系统及其方法

技术领域

本发明涉及网络安全领域，且更为具体的涉及一种基于多源数据的网络安全扫描风险管控系统及其方法。

背景技术

网络安全是国家安全的重要组成部分，是新形势、新时代国际间竞争对抗的重要方面，是国家社会持续发展、长久安定的重要保障。随着网络规模和复杂性不断增大，网络的攻击技术不断革新，新型攻击工具大量涌现，传统的网络安全技术显得力不从心，网络入侵不可避免，网络安全问题越发严峻。单凭一种或几种安全技术很难应对复杂的安全问题，网络安全人员的关注点也从单个安全问题的解决，发展到研究整个网络的安全状态及其变化趋势。

现有的海量安全数据缺少分析，大量的检测结果只是单一反映某个系统存在的问题，呈现方式也多种多样，对多种安全设备的告警、海量的安全数据无法进行统一展示、关联分析、数据挖掘和攻击溯源，仅靠人工很难识别出众多安全事件中的内在联系，很可能会忽略一些恶意用户的蓄意攻击行为。

因此，期待一种优化的网络安全扫描风险管控方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于多源数据的网络安全扫描风险管控系统及其方法，其分别将安全日志、系统日志和漏洞数据通过上下文编码器得到对应的语义理解特征向量，并分别通过第一卷积神经网络模型和多尺度邻域特征提取模块以得到多尺度二维关联特征向量和多尺度邻域关联特征向量。接着融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量，并计算流量输入向量通过时序编码器得到的流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵，通过分类器就可以得到用于表示是否产生网络安全预警提示的分类结果。这样，对多源数据进行编码以充分挖掘其内部隐含信息和关联，提高网络安全风险管控能力。

根据本申请的一个方面，提供了一种基于多源数据的网络安全扫描风险管控系统，其包括：

扫描数据采集单元，用于获取从网络安全服务器采集的安全日志、系统日志、漏洞数据和流量数据；

安全日志语义理解单元，用于对所述安全日志进行分词处理后通过经训练完成的包含嵌入层的上下文编码器以得到安全日志语义理解特征向量；

系统日志语义理解单元，用于对所述系统日志进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到系统日志语义理解特征向量；

漏洞数据语义理解单元，用于对所述漏洞数据进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到漏洞数据语义理解特征向量；

多源数据二维关联编码单元，用于将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为二维特征矩阵后通过经训练完成的具有多尺度卷积结构的第一卷积神经网络模型以得到多尺度二维关联特征向量；

多源数据一维关联编码单元，用于将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为一维特征向量后通过经训练完成的多尺度邻域特征提取模块以得到多尺度邻域关联特征向量；

特征向量融合单元，用于融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量；

流量数据特征提取单元，用于将所述流量数据按时间维度排列为流量输入向量后通过经训练完成的包含一维卷积层的时序编码器以得到流量特征向量；

转移单元，用于计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵；以及

风险管理结果生成单元，用于将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否产生网络安全预警提示。

根据本申请的另一方面，还提供了一种基于多源数据的网络安全扫描风险管控方法，其包括：

获取从网络安全服务器采集的安全日志、系统日志、漏洞数据和流量数据；

对所述安全日志进行分词处理后通过经训练完成的包含嵌入层的上下文编码器以得到安全日志语义理解特征向量；

对所述系统日志进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到系统日志语义理解特征向量；

对所述漏洞数据进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到漏洞数据语义理解特征向量；

将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为二维特征矩阵后通过经训练完成的具有多尺度卷积结构的第一卷积神经网络模型以得到多尺度二维关联特征向量；

将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为一维特征向量后通过经训练完成的多尺度邻域特征提取模块以得到多尺度邻域关联特征向量；

融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量；

将所述流量数据按时间维度排列为流量输入向量后通过经训练完成的包含一维卷积层的时序编码器以得到流量特征向量；

计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵；以及

将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否产生网络安全预警提示。

与现有技术相比，本申请提供的基于多源数据的网络安全扫描风险管控系统及其方法，其分别将安全日志、系统日志和漏洞数据通过上下文编码器得到对应的语义理解特征向量，并分别通过第一卷积神经网络模型和多尺度邻域特征提取模块以得到多尺度二维关联特征向量和多尺度邻域关联特征向量。接着融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量，并计算流量输入向量通过时序编码器得到的流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵，通过分类器就可以得到用于表示是否产生网络安全预警提示的分类结果。这样，对多源数据进行编码以充分挖掘其内部隐含信息和关联，提高网络安全风险管控能力。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控系统的框图。

图2图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控系统的系统架构图。

图3图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控系统中安全日志语义理解单元的框图。

图4图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控系统中多源数据一维关联编码单元的框图。

图5图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控系统中训练模块的框图。

图6图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控方法的流程图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

在网络安全系统运行中其会产生安全日志、系统日志、漏洞数据和流量数据，也就是，在网络安全系统运行中会产生多源数据，利用适当的方式对所述多源数据进行编码以充分挖掘其内部隐含信息和关联有利于提高网络安全风险管控能力。

具体地，在本申请的技术方案中，首先从网络安全服务器采集的安全日志、系统日志、漏洞数据和流量数据。然后，使用包含嵌入层的上下文编码器分别对所述安全日志、系统日志和漏洞数据进行上下文语义编码以得到安全日志语义理解特征向量、系统日志语义理解特征向量和漏洞数据语义理解特征向量。也就是，将安全日志、系统日志和漏洞数据视为文本数据，并使用基于转换器的上下文编码器分别对所述安全日志、系统日志和漏洞数据进行高维语义编码以充分挖掘安全日志、系统日志和漏洞数据中的高维语义信息以得到所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量。

接着，将将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为二维特征矩阵后通过具有多尺度卷积结构的第一卷积神经网络模型以得到多尺度二维关联特征向量。也就是，在数据层面将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量进行二维结构化，然后使用在局部特征提取领域具有优异性能表现的卷积神经网络作为特征提取器来提取所述二维特征矩阵中的高维局部隐含特征。在本申请的技术方案中，所述二维特征矩阵中的高维局部隐含特征包含安全日志中的数据项与系统日志中的数据项之间的关联信息，系统日志中的数据项与漏洞数据中的数据项之间的关联信息，以及，安全日志中的数据项与漏洞数据中的数据项之间的关联信息。

这里，在本申请的技术方案中，考虑到由所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量组成的所述二维特征矩阵在不同的局部视野内具有不同的关联模式，也就是，所述安全日志、所述系统日志和所述漏洞数据之间的关联具有多尺度和异向性。为了适配于此特征分布，在本申请的技术方案中，对所述卷积神经网络模型的结构进行改进，具体地，使用具有多尺度卷积结构的卷积神经网络模型作为特征提取器，其中，所述多尺度卷积结构表示所述卷积神经网络的各层使用具有不同尺寸的卷积核对输入数据进行基于不同感受野的分组特征提取以提取所述二维特征矩阵中不同尺度的二维关联特征。

同时，将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到多尺度邻域关联特征向量。也就是，将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量视为独立的语义单元，并使用多尺度邻域特征提取模块提取所述多尺度邻域语义关联信息。更具体地，因所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量通过基于转换器的上下文编码器编码生成，其虽然具有能够提取长依赖语义信息的优势，但其在局部语义关联特征的提取性能上表现相对较为弱势。因此，进一步使用所述包含多个一维卷积层的所述多尺度邻域特征提取模块对由所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量组成的一维特征向量进行多尺度一维卷积编码以提取不同尺度的局部语义关联信息，即，所述安全日志内多个数据项之间的高维隐含语义关联信息，所述系统日志内多个数据项之间的高维隐含关联信息，所述漏洞数据内多个数据项之间的高维隐含关联信息，所述安全日志内部分数据项与所述系统日志内部分数据项之间的高维隐含关联信息，以及，所述系统日志内部分数据项和所述漏洞数据内部分数据项之间的高维隐含关联信息。接着，融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量。

在本申请的技术方案中，系统日志、安全日志和漏洞数据从某种程度上来说都是流量数据的响应数据，也就是，所述网络安全服务器基于预设规则对流量数据进行基于规则的处理以生成所述系统日志、所述安全日志和所述漏洞数据。充分利用流量数据与上述三者之间的响应性关联可提高网络安全管理性能。

具体地，首先将所述流量数据按时间维度排列为流量输入向量后通过包含一维卷积层的时序编码器以得到流量特征向量。也就是，利用包含一维卷积层的时序编码器提取流量数据在时间维度上的高维隐含特征。然后，计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵，并将所述分类特征矩阵通过分类器以得到用于表示是否产生网络安全预警提示的分类结果。也就是，在本申请的技术方案中，以所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵来表示流量数据与系统日志、安全日志和漏洞数据之间的高维响应性关联模式。

特别地，在本申请的技术方案中，在计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵时，假定所述流量特征向量和所述多维多尺度关联特征向量均为列向量，则所述转移矩阵的每行之间的行分布对应于所述流量特征向量的时序分布。因此，为了使得所述转移矩阵能够在所述流量特征向量的时序分布方向上具有好的预定方向的分布表达效果，期望所述转移矩阵在列方向上具有较好的维度单调性。

基于此，计算所述转移矩阵的节俭分解(parsimonious decomposition)鼓励损失函数：

其中τ为作为超参数的惩罚因子，且||·||₂表示向量的二范数。

这里，通过对所述转移矩阵的特征沿着列方向进行分组，并对行方向上的组内元素的重叠施加惩罚，可以通过向量的二范数来计算以ReLU激活函数激活的符号化函数的距离式联合，从而促进所述转移矩阵所表示的高维流形的节俭分解，这可以理解为基于沿着列方向分布的凸多面体的集合来构建高维流形的几何形状，以提高高维流形沿列方向的维度单调性。

基于此，本申请提出了一种基于多源数据的网络安全扫描风险管控系统，其包括：扫描数据采集单元，用于获取从网络安全服务器采集的安全日志、系统日志、漏洞数据和流量数据；安全日志语义理解单元，用于对所述安全日志进行分词处理后通过经训练完成的包含嵌入层的上下文编码器以得到安全日志语义理解特征向量；系统日志语义理解单元，用于对所述系统日志进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到系统日志语义理解特征向量；漏洞数据语义理解单元，用于对所述漏洞数据进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到漏洞数据语义理解特征向量；多源数据二维关联编码单元，用于将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为二维特征矩阵后通过经训练完成的具有多尺度卷积结构的第一卷积神经网络模型以得到多尺度二维关联特征向量；多源数据一维关联编码单元，用于将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为一维特征向量后通过经训练完成的多尺度邻域特征提取模块以得到多尺度邻域关联特征向量；特征向量融合单元，用于融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量；流量数据特征提取单元，用于将所述流量数据按时间维度排列为流量输入向量后通过经训练完成的包含一维卷积层的时序编码器以得到流量特征向量；转移单元，用于计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵；以及，风险管理结果生成单元，用于将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否产生网络安全预警提示。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图1图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控系统的框图。如图1所示，根据本申请实施例的基于多源数据的网络安全扫描风险管控系统100，包括：扫描数据采集单元110，用于获取从网络安全服务器采集的安全日志、系统日志、漏洞数据和流量数据；安全日志语义理解单元120，用于对所述安全日志进行分词处理后通过经训练完成的包含嵌入层的上下文编码器以得到安全日志语义理解特征向量；系统日志语义理解单元130，用于对所述系统日志进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到系统日志语义理解特征向量；漏洞数据语义理解单元140，用于对所述漏洞数据进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到漏洞数据语义理解特征向量；多源数据二维关联编码单元150，用于将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为二维特征矩阵后通过经训练完成的具有多尺度卷积结构的第一卷积神经网络模型以得到多尺度二维关联特征向量；多源数据一维关联编码单元160，用于将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为一维特征向量后通过经训练完成的多尺度邻域特征提取模块以得到多尺度邻域关联特征向量；特征向量融合单元170，用于融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量；流量数据特征提取单元180，用于将所述流量数据按时间维度排列为流量输入向量后通过经训练完成的包含一维卷积层的时序编码器以得到流量特征向量；转移单元190，用于计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵；以及，风险管理结果生成单元200，用于将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否产生网络安全预警提示。

图2图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控系统100的系统架构图。如图2所示，在所述基于多源数据的网络安全扫描风险管控系统100的系统架构中，首先，获取从网络安全服务器采集的安全日志、系统日志、漏洞数据和流量数据。接着，分别对所述安全日志、系统日志和漏洞数据进行分词处理后通过经训练完成的包含嵌入层的上下文编码器以得到安全日志语义理解特征向量、系统日志语义理解特征向量和漏洞数据语义理解特征向量。然后，将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为二维特征矩阵后通过经训练完成的具有多尺度卷积结构的第一卷积神经网络模型以得到多尺度二维关联特征向量。接着，将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为一维特征向量后通过经训练完成的多尺度邻域特征提取模块以得到多尺度邻域关联特征向量。然后，融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量。接着，将所述流量数据按时间维度排列为流量输入向量后通过经训练完成的包含一维卷积层的时序编码器以得到流量特征向量。然后，计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵。接着，将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否产生网络安全预警提示。

在上述基于多源数据的网络安全扫描风险管控系统100中，所述扫描数据采集单元110，用于获取从网络安全服务器采集的安全日志、系统日志、漏洞数据和流量数据。在网络安全系统运行中其会产生安全日志、系统日志、漏洞数据和流量数据，也就是，在网络安全系统运行中会产生多源数据，利用适当的方式对所述多源数据进行编码以充分挖掘其内部隐含信息和关联有利于提高网络安全风险管控能力。

在上述基于多源数据的网络安全扫描风险管控系统100中，所述安全日志语义理解单元120，用于对所述安全日志进行分词处理后通过经训练完成的包含嵌入层的上下文编码器以得到安全日志语义理解特征向量。也就是，将安全日志视为文本数据，并使用基于转换器的上下文编码器分别对所述安全日志进行高维语义编码以充分挖掘所述安全日志中的高维语义信息以得到所述安全日志语义理解特征向量。

图3图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控系统中安全日志语义理解单元的框图。如图3所示，所述安全日志语义理解单元120，包括：分词子单元121，用于对所述安全日志进行分词处理以得到词序列；词嵌入子单元122，用于将所述词序列中各个词分别输入所述上下文编码器的嵌入层以由所述嵌入层将所述各个词转化为词嵌入向量以得到词嵌入向量的序列；上下文语义理解子单元123，用于将所述词嵌入向量的序列输入所述上下文编码器的基于转换器的Bert模型以得到多个词语义特征向量；以及，级联子单元124，用于将所述多个词语义特征向量进行级联以得到所述安全日志语义理解特征向量。

在上述基于多源数据的网络安全扫描风险管控系统100中，所述系统日志语义理解单元130，用于对所述系统日志进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到系统日志语义理解特征向量。也就是，将系统日志视为文本数据，并使用基于转换器的上下文编码器分别对所述系统日志进行高维语义编码以充分挖掘所述系统日志中的高维语义信息以得到所述系统日志语义理解特征向量。

在上述基于多源数据的网络安全扫描风险管控系统100中，所述漏洞数据语义理解单元140，用于对所述漏洞数据进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到漏洞数据语义理解特征向量。也就是，将漏洞日志视为文本数据，并使用基于转换器的上下文编码器分别对所述漏洞日志进行高维语义编码以充分挖掘所述漏洞日志中的高维语义信息以得到所述漏洞日志语义理解特征向量。

在上述基于多源数据的网络安全扫描风险管控系统100中，所述多源数据二维关联编码单元150，用于将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为二维特征矩阵后通过经训练完成的具有多尺度卷积结构的第一卷积神经网络模型以得到多尺度二维关联特征向量。也就是，在数据层面将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量进行二维结构化，然后使用在局部特征提取领域具有优异性能表现的卷积神经网络作为特征提取器来提取所述二维特征矩阵中的高维局部隐含特征。在本申请的技术方案中，所述二维特征矩阵中的高维局部隐含特征包含安全日志中的数据项与系统日志中的数据项之间的关联信息，系统日志中的数据项与漏洞数据中的数据项之间的关联信息，以及，安全日志中的数据项与漏洞数据中的数据项之间的关联信息。这里，在本申请的技术方案中，考虑到由所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量组成的所述二维特征矩阵在不同的局部视野内具有不同的关联模式，也就是，所述安全日志、所述系统日志和所述漏洞数据之间的关联具有多尺度和异向性。为了适配于此特征分布，在本申请的技术方案中，对所述卷积神经网络模型的结构进行改进，具体地，使用具有多尺度卷积结构的卷积神经网络模型作为特征提取器，其中，所述多尺度卷积结构表示所述卷积神经网络的各层使用具有不同尺寸的卷积核对输入数据进行基于不同感受野的分组特征提取以提取所述二维特征矩阵中不同尺度的二维关联特征。

在一个示例中，在上述基于多源数据的网络安全扫描风险管控系统100中，所述多源数据二维关联编码单元150，进一步用于：使用所述第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行：使用第一卷积核对所述输入数据进行卷积处理以得到第一卷积特征图；使用第二卷积核对所述输入数据进行卷积处理以得到第二卷积特征图；使用第三卷积核对所述输入数据进行卷积处理以得到第三卷积特征图；使用第四卷积核对所述输入数据进行卷积处理以得到第四卷积特征图；将所述第一卷积特征图、所述第二卷积特征图、所述第三卷积特征图和所述第四卷积特征图进行级联以得到卷积特征图；对所述卷积特征图进行基于特征矩阵的池化处理以得到池化特征图；和，对所述池化特征图进行非线性激活处理以得到激活特征图；其中，所述第一卷积神经网络模型的最后一层的输出为所述多尺度二维关联特征向量。

在一个示例中，在上述基于多源数据的网络安全扫描风险管控系统100中，所述第一卷积核的尺寸为7×7，所述第二卷积核的尺寸为5×5，所述第三卷积核的尺寸为3×3且所述第四卷积核的尺寸为1×1。

在上述基于多源数据的网络安全扫描风险管控系统100中，所述多源数据一维关联编码单元160，用于将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为一维特征向量后通过经训练完成的多尺度邻域特征提取模块以得到多尺度邻域关联特征向量。也就是，将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量视为独立的语义单元，并使用多尺度邻域特征提取模块提取所述多尺度邻域语义关联信息。更具体地，因所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量通过基于转换器的上下文编码器编码生成，其虽然具有能够提取长依赖语义信息的优势，但其在局部语义关联特征的提取性能上表现相对较为弱势。因此，进一步使用所述包含多个一维卷积层的所述多尺度邻域特征提取模块对由所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量组成的一维特征向量进行多尺度一维卷积编码以提取不同尺度的局部语义关联信息，即，所述安全日志内多个数据项之间的高维隐含语义关联信息，所述系统日志内多个数据项之间的高维隐含关联信息，所述漏洞数据内多个数据项之间的高维隐含关联信息，所述安全日志内部分数据项与所述系统日志内部分数据项之间的高维隐含关联信息，以及，所述系统日志内部分数据项和所述漏洞数据内部分数据项之间的高维隐含关联信息。

图4图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控系统中多源数据一维关联编码单元的框图。如图4所示，所述多源数据一维关联编码单元160，包括：第一邻域尺度编码子单元161，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层，其中，所述第一卷积层使用具有第一长度的一维卷积核对所述一维特征向量进行一维卷积编码以得到第一尺度邻域关联特征向量；第二邻域尺度编码子单元162，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层，其中，所述第二卷积层使用具有第二长度的一维卷积核对所述一维特征向量进行一维卷积编码以得到第二尺度邻域关联特征向量；以及，多尺度级联子单元163，用于将所述第一尺度邻域关联特征向量和所述第二尺度邻域关联特征向量进行级联以得到所述多尺度邻域关联特征向量。

在上述基于多源数据的网络安全扫描风险管控系统100中，所述特征向量融合单元170，用于融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量。也就是，多维多尺度关联特征向量融合了上下文编码器能够提取长依赖语义信息的优势和多尺度邻域特征提取模块在提取不同尺度的局部语义关联信息上的优势。

在上述基于多源数据的网络安全扫描风险管控系统100中，所述流量数据特征提取单元180，用于将所述流量数据按时间维度排列为流量输入向量后通过经训练完成的包含一维卷积层的时序编码器以得到流量特征向量。在本申请的技术方案中，系统日志、安全日志和漏洞数据从某种程度上来说都是流量数据的响应数据，也就是，所述网络安全服务器基于预设规则对流量数据进行基于规则的处理以生成所述系统日志、所述安全日志和所述漏洞数据。充分利用流量数据与上述三者之间的响应性关联可提高网络安全管理性能。具体地，首先将所述流量数据按时间维度排列为流量输入向量后通过包含一维卷积层的时序编码器以得到流量特征向量。也就是，利用包含一维卷积层的时序编码器提取流量数据在时间维度上的高维隐含特征。

在上述基于多源数据的网络安全扫描风险管控系统100中，所述转移单元190，用于计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵。也就是，在本申请的技术方案中，以所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵来表示流量数据与系统日志、安全日志和漏洞数据之间的高维响应性关联模式

在一个示例中，在上述基于多源数据的网络安全扫描风险管控系统100中，所述转移单元190，进一步用于以如下公式来计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为所述分类特征矩阵；

其中，所述公式为：

v₁为流量特征向量，v₂为多维多尺度关联特征向量，M_c为分类特征矩阵。

在上述基于多源数据的网络安全扫描风险管控系统100中，所述风险管理结果生成单元200，用于将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否产生网络安全预警提示。

在一个示例中，在上述基于多源数据的网络安全扫描风险管控系统100中，所述风险管理结果生成单元200，进一步用于使用所述分类器以如下公式对所述分类特征矩阵进行处理以得到所述分类结果；其中，所述公式为：O＝sof tmax{(W_n，B_n)：…：(W₁，B₁)|Project(F)}，其中Project(F)表示将所述分类特征矩阵投影为向量，W₁至W_n为各层全连接层的权重矩阵，B₁至B_n表示各层全连接层的偏置矩阵。

在一个示例中，在上述基于多源数据的网络安全扫描风险管控系统100中，所述基于多源数据的网络安全扫描风险管控系统，还包括用于对所述包含嵌入层的上下文编码器、所述第一卷积神经网络模型、所述多尺度邻域特征提取模块和所述包含一维卷积层的时序编码器进行训练的训练模块300。图5图示了根据本申请实施例的基于多源数据的网络安全扫描风险管控系统中训练模块的框图。如图5所示，所述训练模块300，包括：训练数据采集单元310，用于获取训练数据，所述训练数据包括安全日志、系统日志、漏洞数据、流量数据和是否产生网络安全预警的标注值；训练安全日志语义理解单元320，用于对所述安全日志进行分词处理后通过所述包含嵌入层的上下文编码器以得到训练安全日志语义理解特征向量；训练系统日志语义理解单元330，用于对所述系统日志进行分词处理后通过所述包含嵌入层的上下文编码器以得到训练系统日志语义理解特征向量；训练漏洞数据语义理解单元340，用于对所述漏洞数据进行分词处理后通过所述包含嵌入层的上下文编码器以得到训练漏洞数据语义理解特征向量；训练多源数据二维关联编码单元350，用于将所述训练安全日志语义理解特征向量、所述训练系统日志语义理解特征向量和所述训练漏洞数据语义理解特征向量排列为二维特征矩阵后通过所述具有多尺度卷积结构的第一卷积神经网络模型以得到训练多尺度二维关联特征向量；训练多源数据一维关联编码单元360，用于将所述训练安全日志语义理解特征向量、所述训练系统日志语义理解特征向量和所述训练漏洞数据语义理解特征向量排列为一维特征向量后通过所述多尺度邻域特征提取模块以得到训练多尺度邻域关联特征向量；训练特征向量融合单元370，用于融合所述训练多尺度二维关联特征向量和所述训练多尺度邻域关联特征向量以得到训练多维多尺度关联特征向量；训练流量数据特征提取单元380，用于将所述流量数据按时间维度排列为流量输入向量后通过所述包含一维卷积层的时序编码器以得到训练流量特征向量；训练转移单元390，用于计算所述训练流量特征向量相对于所述训练多维多尺度关联特征向量的转移矩阵作为训练分类特征矩阵；分类损失单元400，用于将所述训练分类特征矩阵通过分类器以得到分类损失函数值；节俭分解鼓励损失单元410，用于计算所述转移矩阵的节俭分解鼓励损失函数值；以及，训练单元420，用于以所述节俭分解鼓励损失函数值和所述分类损失函数值的加权和作为损失函数值对所述包含嵌入层的上下文编码器、所述第一卷积神经网络模型、所述多尺度邻域特征提取模块和所述包含一维卷积层的时序编码器进行训练。

在一个示例中，在上述基于多源数据的网络安全扫描风险管控系统100中，所述节俭分解鼓励损失单元410，进一步用于以如下公式来计算所述转移矩阵的节俭分解鼓励损失函数值；

其中，所述公式为：

其中τ为超参数的惩罚因子，||·||₂表示向量的二范数，m_i，j表示所述转移矩阵中各个位置的特征值，ReLU(·)表示非线性激活函数。

综上，根据本申请实施例的所述基于多源数据的网络安全扫描风险管控系统100被阐明，其分别将安全日志、系统日志和漏洞数据通过上下文编码器得到对应的语义理解特征向量，并分别通过第一卷积神经网络模型和多尺度邻域特征提取模块以得到多尺度二维关联特征向量和多尺度邻域关联特征向量。接着融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量，并计算流量输入向量通过时序编码器得到的流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵，通过分类器就可以得到用于表示是否产生网络安全预警提示的分类结果。这样，对多源数据进行编码以充分挖掘其内部隐含信息和关联，提高网络安全风险管控能力。

如上所述，根据本申请实施例的基于多源数据的网络安全扫描风险管控系统100可以实现在各种终端设备中，例如基于多源数据的网络安全扫描风险管控功能的服务器等。在一个示例中，根据本申请实施例的基于多源数据的网络安全扫描风险管控系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于多源数据的网络安全扫描风险管控系统100可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于多源数据的网络安全扫描风险管控系统100同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于多源数据的网络安全扫描风险管控系统100与该终端设备也可以是分立的设备，并且该基于多源数据的网络安全扫描风险管控系统100可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性方法

根据本申请的另一方面，还提供了一种基于多源数据的网络安全扫描风险管控方法。如图6所示，根据本申请实施例的所述基于多源数据的网络安全扫描风险管控方法，包括步骤：S110，获取从网络安全服务器采集的安全日志、系统日志、漏洞数据和流量数据；S120，对所述安全日志进行分词处理后通过经训练完成的包含嵌入层的上下文编码器以得到安全日志语义理解特征向量；S130，对所述系统日志进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到系统日志语义理解特征向量；S140，对所述漏洞数据进行分词处理后通过经训练完成的所述包含嵌入层的上下文编码器以得到漏洞数据语义理解特征向量；S150，将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为二维特征矩阵后通过经训练完成的具有多尺度卷积结构的第一卷积神经网络模型以得到多尺度二维关联特征向量；S160，将所述安全日志语义理解特征向量、所述系统日志语义理解特征向量和所述漏洞数据语义理解特征向量排列为一维特征向量后通过经训练完成的多尺度邻域特征提取模块以得到多尺度邻域关联特征向量；S170，融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量；S180，将所述流量数据按时间维度排列为流量输入向量后通过经训练完成的包含一维卷积层的时序编码器以得到流量特征向量；S190，计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵；以及，S200，将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否产生网络安全预警提示。

综上，根据本申请实施例的所述基于多源数据的网络安全扫描风险管控方法被阐明，其分别将安全日志、系统日志和漏洞数据通过上下文编码器得到对应的语义理解特征向量，并分别通过第一卷积神经网络模型和多尺度邻域特征提取模块以得到多尺度二维关联特征向量和多尺度邻域关联特征向量。接着融合所述多尺度二维关联特征向量和所述多尺度邻域关联特征向量以得到多维多尺度关联特征向量，并计算流量输入向量通过时序编码器得到的流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为分类特征矩阵，通过分类器就可以得到用于表示是否产生网络安全预警提示的分类结果。这样，对多源数据进行编码以充分挖掘其内部隐含信息和关联，提高网络安全风险管控能力。

Claims

1.一种基于多源数据的网络安全扫描风险管控系统，其特征在于，包括：

2.根据权利要求1所述的基于多源数据的网络安全扫描风险管控系统，其特征在于，所述安全日志语义理解单元，包括：

分词子单元，用于对所述安全日志进行分词处理以得到词序列；

词嵌入子单元，用于将所述词序列中各个词分别输入所述上下文编码器的嵌入层以由所述嵌入层将所述各个词转化为词嵌入向量以得到词嵌入向量的序列；

上下文语义理解子单元，用于将所述词嵌入向量的序列输入所述上下文编码器的基于转换器的Bert模型以得到多个词语义特征向量；以及

级联子单元，用于将所述多个词语义特征向量进行级联以得到所述安全日志语义理解特征向量。

3.根据权利要求2所述的基于多源数据的网络安全扫描风险管控系统，其特征在于，所述多源数据二维关联编码单元，进一步用于：使用所述第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行：

使用第一卷积核对所述输入数据进行卷积处理以得到第一卷积特征图；

使用第二卷积核对所述输入数据进行卷积处理以得到第二卷积特征图；

使用第三卷积核对所述输入数据进行卷积处理以得到第三卷积特征图；

使用第四卷积核对所述输入数据进行卷积处理以得到第四卷积特征图；

将所述第一卷积特征图、所述第二卷积特征图、所述第三卷积特征图和所述第四卷积特征图进行级联以得到卷积特征图；

对所述卷积特征图进行基于特征矩阵的池化处理以得到池化特征图；和

对所述池化特征图进行非线性激活处理以得到激活特征图；

其中，所述第一卷积神经网络模型的最后一层的输出为所述多尺度二维关联特征向量。

4.根据权利要求3所述的基于多源数据的网络安全扫描风险管控系统，其特征在于，所述第一卷积核的尺寸为7×7，所述第二卷积核的尺寸为5×5，所述第三卷积核的尺寸为3×3且所述第四卷积核的尺寸为1×1。

5.根据权利要求4所述的基于多源数据的网络安全扫描风险管控系统，其特征在于，所述多源数据一维关联编码单元，包括：

第一邻域尺度编码子单元，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层，其中，所述第一卷积层使用具有第一长度的一维卷积核对所述一维特征向量进行一维卷积编码以得到第一尺度邻域关联特征向量；

第二邻域尺度编码子单元，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层，其中，所述第二卷积层使用具有第二长度的一维卷积核对所述一维特征向量进行一维卷积编码以得到第二尺度邻域关联特征向量；以及

多尺度级联子单元，用于将所述第一尺度邻域关联特征向量和所述第二尺度邻域关联特征向量进行级联以得到所述多尺度邻域关联特征向量。

6.根据权利要求5所述的基于多源数据的网络安全扫描风险管控系统，其特征在于，所述转移单元，进一步用于以如下公式来计算所述流量特征向量相对于所述多维多尺度关联特征向量的转移矩阵作为所述分类特征矩阵；

其中，所述公式为：

7.根据权利要求6所述的基于多源数据的网络安全扫描风险管控系统，其特征在于，所述风险管理结果生成单元，进一步用于使用所述分类器以如下公式对所述分类特征矩阵进行处理以得到所述分类结果；

其中，所述公式为：O＝softmax{(W_n,B_n)：...：(W₁，B₁)|Project(F)，其中Project(F)表示将所述分类特征矩阵投影为向量，W₁至W_n为各层全连接层的权重矩阵，B₁至B_n表示各层全连接层的偏置矩阵。

8.根据权利要求1所述的基于多源数据的网络安全扫描风险管控系统，其特征在于，所述基于多源数据的网络安全扫描风险管控系统，还包括用于对所述包含嵌入层的上下文编码器、所述第一卷积神经网络模型、所述多尺度邻域特征提取模块和所述包含一维卷积层的时序编码器进行训练的训练模块；

其中，所述训练模块，包括：

训练数据采集单元，用于获取训练数据，所述训练数据包括安全日志、系统日志、漏洞数据、流量数据和是否产生网络安全预警的标注值；

训练安全日志语义理解单元，用于对所述安全日志进行分词处理后通过所述包含嵌入层的上下文编码器以得到训练安全日志语义理解特征向量；

训练系统日志语义理解单元，用于对所述系统日志进行分词处理后通过所述包含嵌入层的上下文编码器以得到训练系统日志语义理解特征向量；

训练漏洞数据语义理解单元，用于对所述漏洞数据进行分词处理后通过所述包含嵌入层的上下文编码器以得到训练漏洞数据语义理解特征向量；

训练多源数据二维关联编码单元，用于将所述训练安全日志语义理解特征向量、所述训练系统日志语义理解特征向量和所述训练漏洞数据语义理解特征向量排列为二维特征矩阵后通过所述具有多尺度卷积结构的第一卷积神经网络模型以得到训练多尺度二维关联特征向量；

训练多源数据一维关联编码单元，用于将所述训练安全日志语义理解特征向量、所述训练系统日志语义理解特征向量和所述训练漏洞数据语义理解特征向量排列为一维特征向量后通过所述多尺度邻域特征提取模块以得到训练多尺度邻域关联特征向量；

训练特征向量融合单元，用于融合所述训练多尺度二维关联特征向量和所述训练多尺度邻域关联特征向量以得到训练多维多尺度关联特征向量；

训练流量数据特征提取单元，用于将所述流量数据按时间维度排列为流量输入向量后通过所述包含一维卷积层的时序编码器以得到训练流量特征向量；

训练转移单元，用于计算所述训练流量特征向量相对于所述训练多维多尺度关联特征向量的转移矩阵作为训练分类特征矩阵；

分类损失单元，用于将所述训练分类特征矩阵通过分类器以得到分类损失函数值；

节俭分解鼓励损失单元，用于计算所述转移矩阵的节俭分解鼓励损失函数值；以及

训练单元，用于以所述节俭分解鼓励损失函数值和所述分类损失函数值的加权和作为损失函数值对所述包含嵌入层的上下文编码器、所述第一卷积神经网络模型、所述多尺度邻域特征提取模块和所述包含一维卷积层的时序编码器进行训练。

9.根据权利要求8所述的基于多源数据的网络安全扫描风险管控系统，其特征在于，所述节俭分解鼓励损失单元，进一步用于以如下公式来计算所述转移矩阵的节俭分解鼓励损失函数值；

其中，所述公式为：

10.一种基于多源数据的网络安全扫描风险管控方法，其特征在于，包括：