CN114095225A

CN114095225A - 安全风险评估方法、装置及存储介质

Info

Publication number: CN114095225A
Application number: CN202111346994.9A
Authority: CN
Inventors: 刘东鑫; 秦悦; 黄冬梅; 史国水; 汪来富
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-25

Abstract

本公开涉及安全风险评估方法、装置及存储介质。安全风险评估方法包括：采集包括多个安全域的对象系统的安全告警日志和资产信息，并对采集到的安全告警日志和资产信息进行预处理；将预处理后的安全告警日志和资产信息的文本信息转换成欧式空间向量，基于安全告警日志向量和资产信息向量的余弦相关性进行过滤；基于表示安全域的安全等级的安全标记信息，针对每个安全域分配安全等级权重；以预定时间周期，根据每个安全域的安全告警日志，生成每个安全域的典型特征向量；针对每个安全域，分别根据典型特征向量与预定的多个基准向量来计算夹角余弦相关值；以及将所有安全域的安全等级权重和夹角余弦相关值加权求和，求出安全风险评估结果。

Description

安全风险评估方法、装置及存储介质

技术领域

本公开总体上涉及网络与信息安全领域，更具体地涉及面向安全告警日志的安全风险评估方法、装置及存储介质。

背景技术

当前业界主要采用ISO 27000系列标准中，关于风险的量化计算方法，可以采用以下公式进行计算：

风险＝资产价值×威胁×脆弱性

这种评估方法适合用于小微型企业网络(资产数量少、类型简单，安全威胁事件比较集中)，但是难以适应中大型企业网络的安全风险评估要求。这种评估方法具体存在以下缺点：

1)大量的安全告警、漏洞信息与资产版本无关，海量的“虚假”告警会容易导致风险误判；安全告警的“出现位置”对于风险评估结果非常重要。

2)安全风险评估结果可解释性弱，难以快速提示相关的应急响应处置要求。例如，在大型企业中，由于定性/定量评估方法的串行使用，使得评估结果“远离/模糊”原始的数据源特征，安全运维人员后续仍需花费大量精力排查告警原因。

发明内容

本公开以相关性计算方法，过滤无关的低风险告警，充分利用安全管理员有限的反馈，构建与其风险接受倾向一致的风险评估方法，实现对网络安全风险的科学、合理评估。

在下文中给出了关于本公开的简要概述，以便提供关于本公开的一些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

根据本公开的一个方面，提供一种安全风险评估方法，包括：采集包括多个安全域的对象系统的安全告警日志和资产信息，并对采集到的安全告警日志和资产信息进行预处理以去除无用信息；将预处理后的安全告警日志和资产信息的文本信息转换成欧式空间向量以在向量空间中进行建模，基于安全告警日志向量和资产信息向量的余弦相关性，对安全告警日志和资产信息进行过滤；基于表示安全域的安全等级的安全标记信息，针对每个安全域分配安全等级权重；以预定时间周期，根据每个安全域的安全告警日志，生成每个安全域的典型特征向量；针对每个安全域，分别根据典型特征向量与预定的多个基准向量来计算夹角余弦相关值；以及将所有安全域的安全等级权重和夹角余弦相关值加权求和，求出安全风险评估结果。

根据本公开的另一个方面，提供一种安全风险评估装置，包括：存储器，其上存储有指令；以及处理器，被配置为执行存储在所述存储器上的指令，以执行根据本公开的上述方面所述的方法。

根据本公开的又一个方面，提供一种计算机可读存储介质，其包括计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时，使得所述一个或多个处理器执行根据本公开的上述方面所述的方法。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更清楚地理解本公开，其中：

图1是示出了根据本公开的一个实施例的安全风险评估方法的流程的流程图。

图2是示出了用于生成典型特征向量的一个例子的图。

图3是示出了一个例示性的网络安全域的多个基准向量的例子。

图4是示出了根据本公开的一个具体应用例的实现框图。

图5是示出了根据本公开的一个具体应用例的流程图。

图6是示出了可以实现根据本公开的实施例的计算设备的示例性配置。

具体实施方式

参考附图进行以下详细描述，并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解，但是这些细节仅被认为是示例，而不是为了限制本公开，本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外，为了清楚和简洁起见，可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到，在不脱离本公开的精神和范围的情况下，可以对本文描述的示例进行各种改变和修改。

在以往的中大型企业网络的安全风险评估中，常常会出现大量的安全告警、漏洞信息与资产版本无关，海量的“虚假”告警会容易导致风险误判，而且，在以往的中大型企业网络的安全风险评估结果可解释性弱，难以快速提示相关的应急响应处置要求。例如，在大型企业中，由于定性/定量评估方法的串行使用，使得评估结果“远离/模糊”原始的数据源特征，安全运维人员后续仍需花费大量的精力排查告警原因。

如图1所示，首先，在步骤S01中，采集包括多个安全域的对象系统的安全告警日志和资产信息，并对采集到的安全告警日志和资产信息进行预处理以去除无用信息。在一些实施例中，这里的安全域可以是由硬件划分的网域，也可以是按照功能、目的、安全等级等划分的逻辑域，例如，按照安全等级，一个对象系统可以包括安全等级高的客户信息域、安全等级中等的物流信息域、安全等级低的员工出勤信息域；又例如，按照功能，一个对象系统可以包括经营信息域、财务信息域、人事信息域等。在一个实施例中，预处理可以包括根据资产版本信息过滤安全告警日志和/或根据停用词表对安全告警日志和资产数据过滤无关的关键词，由此初步去除采集信息中的多余信息。

接着，在步骤S03中，将预处理后的安全告警日志和资产信息的文本信息转换成欧式空间向量以在向量空间中进行建模，基于安全告警日志向量和资产信息向量的余弦相关性，对安全告警日志和资产信息进行过滤。将作为文本信息的安全告警日志和资产信息转换成欧式空间向量的方法是能够将文本转换成向量的方法即可，没有特别的限制，在一些实施例中，例如可以采用word2vec算法来进行向量转换。在一些实施例中，基于安全告警日志向量和资产信息向量的余弦相关性对安全告警日志和资产信息进行过滤包括在余弦相关性小于规定的阈值时判定为该安全告警日志的相关性低而将其去除，作为一个例子，规定的阈值可以设为0。

接着，在步骤S05中，基于表示安全域的安全等级的安全标记信息，针对每个安全域i分配安全等级权重Tag_i。在一些实施例中，安全标记信息可以是由网络管理员根据安全域的功能、目的、安全级别等要素预先设定的。在一些实施例中，安全等级可以包括关键、重要、普通这三个等级，关键、重要、普通各自的权重值满足以下条件，

Key-Important＝Important-Common＝alpha (1)

alpha∈[0.2,0.3] (2)

其中，Key表示关键的权重值，Important表示重要的权重值，Common表示普通的权重值，alpha表示各等级间的差值。

在一些实施例中，根据

求得Key、Important、Common的数值，从而得到各安全域的权重数值，N为安全域的总数。由此，得到个安全域的权重系数。

接着，在步骤S07中，以预定时间周期，根据每个安全域的安全告警日志，生成每个安全域的典型特征向量。在一些实施例中，如图2所示，在生成典型特征向量时，安全域i的典型特征向量构成为由事前扫描的低危事件的有无、事前扫描的中危事件的有无、事前扫描的高危事件的有无、事中检测的低危事件的有无、事中检测的中危事件的有无、事中检测的高危事件的有无、事后审计的低危事件的有无、事后审计的中危事件的有无、事后审计的高危事件的有无构成的向量，其中，在有的时候用1表示，在无的时候用0表示，i为安全域的编号，i为自然数，i≤N，N为安全域的总数。

接着，在步骤S09中，针对每个安全域，分别根据典型特征向量与预定的多个基准向量来计算夹角余弦相关值。这里的预定的多个基准向量是针对各个安全域分别预先设定的，在图3中示出了一个例示性的网络安全域的多个基准向量的例子。如图3所示，针对每个安全域设置有3个基准向量，即高风险向量、中风险向量和低风险向量，在各个安全域之间可以根据各自的功能、目的、安全等级的不同而基准向量相互不同，在图3中，网络安全域1包含3个典型特征向量，即高风险向量[0，…，0，1，1]、中风险向量[0，…，1，1，0，1，0，0]和低风险向量[1，1，0，…，0]，其中，...表示连续的“0”。应当理解，典型特征向量的个数不限于3个，可以根据需要设置为2个以上的任意数量。在一些实施例中，关于安全域i，根据典型特征向量与预定的多个基准向量来计算夹角余弦相关值可以分别对典型特征向量与多个基准向量进行余弦相关计算而得到多个余弦相关值，选择其中最大的余弦相关值cosine_i作为夹角余弦相关值。在另一些实施例中，关于安全域i，根据典型特征向量与预定的多个基准向量来计算夹角余弦相关值还可以分别对典型特征向量与多个基准向量进行余弦相关计算而得到多个余弦相关值，将其中最大的余弦相关值cosine_i乘以其对应的权重Level_i得到的值作为夹角余弦相关值。例如，在最大的余弦相关值∈[1/2，1]时，判断为高危的情况，设为权重Level_i＝Level_高＝0.7，在最大的余弦相关值∈[-1/2，1/2]时，判断为中危的情况，设为权重Level_i＝Level_中＝0.5，在最大的余弦相关值∈[-1，-1/2]时，判断为低危的情况，设为权重Level_i＝Level_低＝0.3，安全域i的夹角余弦相关值可以表示为cosine_i×Level_i。应当理解，权重Level_i的等级并不限于高、中、低这三个等级，也可以设为2以上的任意个等级。此外，在一些实施例中，以K-Means聚类计算得到各安全域的3～5个聚类点；安全管理员对这些聚类点进行标记，“高/中/低”，如果“高/中/低”标签没有全部出现，则需要安全管理员构造基准向量。

接着，在步骤S11中，将所有安全域的安全等级权重和夹角余弦相关值加权求和，求出安全风险评估结果。在一些实施例中，安全风险评估结果Score可以表示为：

其中，Tag_i是安全域i的安全等级权重，Cosine_i是分别对安全域i的典型特征向量与多个基准向量进行余弦相关计算而得到多个余弦相关值中最大的余弦相关值。在一些实施例中，安全风险评估结果Score还可以表示为：

其中，Tag_i是安全域i的安全等级权重，Cosine_i是分别对安全域i的典型特征向量与多个基准向量进行余弦相关计算而得到多个余弦相关值中最大的余弦相关值，Level_i是与余弦相关值cosine_i对应的权重，作为一个例子，在最大的余弦相关值∈[1/2，1]时，判断为高危的情况，设为权重Level_i＝Level_高＝0.7，在最大的余弦相关值∈[-1/2，1/2]时，判断为中危的情况，设为权重Level_i＝Level_中＝0.5，在最大的余弦相关值∈[-1，-1/2]时，判断为低危的情况，设为权重Level_i＝Level_低＝0.3。

根据本公开，通过空间向量的相关性计算，对与资产版本信息无关、海量的安全告警信息，能够进行有效的过滤，能够提高安全风险评估精度。

此外，根据本公开，通过以“网络安全域划分+事前扫描/事中检测/事后审计”的方式区分不同网络拓扑、检测能力的安全设备/组件，并以“高危/中危/低危”对具体的安全事件类型进行分类，能够对同一时间窗口的安全告警日志实现统一的向量空间建模。

而且，根据本公开，以客户标记，采用本公开的权重分配方法，能够实现各网络安全域的权重计算，并且，通过“无监督聚类+向量标注”的方式，构建各网络安全域中的以“高危/中危/低危”等为代表的特征向量，得到多个类别的风险模型基线，从而实现风险评估结果可解释性。

图4是示出了根据本公开的一个具体应用例的实现框图。

图5是示出了根据本公开的一个具体应用例的流程图。

步骤一：进行日志采集及预处理。主要包括整理各类安全告警日志、资产数据的停用词表，并对安全告警日志和资产数据过滤无关的关键词。

步骤二：日志过滤。包含两个子步骤：

1)向量空间建模。将文本转换成欧式空间向量。

2)基于夹角余弦相关性计算进行日志过滤。按照用户定义的阈值过滤不相关的安全告警日志，阈值可以设为0。

步骤三：对各安全域进行样本标注，包含两个子步骤：

1)根据安全管理员对于安全域的标记，计算并分配各安全域的安全等级权重Tag_i。具体地，

①安全管理员对各网络安全域的商业影响分析(BIA)进行标记：“关键(Key)/重要(Important)/普通(Common)”，如图2所示，每个网络安全域都有对应的标签Tag；

②满足Key-Important＝Important-Common＝alpha的关系，其中alpha∈[0.2,0.3]；

③根据

可以求得Key、Important、Common的数值，对应步骤①的标记，可以得到各安全域的权重数值。

2)以固定的时间周期，例如1小时，对各安全域的历史告警日志进行分割，并按照图2生成典型特征向量Vector_i。此外，对各安全域的历史告警日志，基于K-Means聚类计算得到各安全域的3～5个聚类点；安全管理员对这些聚类点进行标记，“高/中/低”；如果“高/中/低”标签没有全部出现，则需要安全管理员确认或修改基准向量。

步骤四：风险计算。包含两个子步骤：

1)在各安全域以典型特征向量和基准向量的夹角余弦的相关性Cosine_i，得到所属类别标签Level_i，其中，每个安全域至少包含3个基准向量，如{高：[0，…，0，1，1]，中：[0，…，1，1，0，1，0，0]，低：[1，1，0，…，0]}

2)按步骤三中所得各安全域的权重，对各安全域的评估结果加权求和，即

由此，根据本公开，以相关性计算方法，过滤无关的低风险告警，充分利用安全管理员有限的反馈，构建与其风险接受倾向一致的风险评估方法，实现对网络安全风险的科学、合理评估。

图6示出了能够实现根据本公开的实施例的计算设备1200的示例性配置。

计算设备1200是能够应用本公开的上述方面的硬件设备的实例。计算设备1200可以是被配置为执行处理和/或计算的任何机器。计算设备1200可以是但不限制于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数据助手(PDA)、智能电话、车载计算机或以上组合。

如图6所示，计算设备1200可以包括可以经由一个或多个接口与总线1202连接或通信的一个或多个元件。总线2102可以包括但不限于，工业标准架构(Industry StandardArchitecture，ISA)总线、微通道架构(Micro Channel Architecture，MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及外设组件互连(PCI)总线等。计算设备1200可以包括例如一个或多个处理器1204、一个或多个输入设备1206以及一个或多个输出设备1208。一个或多个处理器1204可以是任何种类的处理器，并且可以包括但不限于一个或多个通用处理器或专用处理器(诸如专用处理芯片)。输入设备1206可以是能够向计算设备输入信息的任何类型的输入设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或远程控制器。输出设备1208可以是能够呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。

计算设备1200还可以包括或被连接至非暂态存储设备1214，该非暂态存储设备1214可以是任何非暂态的并且可以实现数据存储的存储设备，并且可以包括但不限于盘驱动器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。计算设备1200还可以包括随机存取存储器(RAM)1210和只读存储器(ROM)1212。ROM 1212可以以非易失性方式存储待执行的程序、实用程序或进程。RAM 1210可提供易失性数据存储，并存储与计算设备1200的操作相关的指令。计算设备1200还可包括耦接至数据链路1218的网络/总线接口1216。网络/总线接口1216可以是能够启用与外部装置和/或网络通信的任何种类的设备或系统，并且可以包括但不限于调制解调器、网络卡、红外线通信设备、无线通信设备和/或芯片集(诸如蓝牙^TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设施等)。

本公开可以被实现为装置、系统、集成电路和非瞬时性计算机可读介质上的计算机程序的任何组合。可以将一个或多个处理器实现为执行本公开中描述的部分或全部功能的集成电路(IC)、专用集成电路(ASIC)或大规模集成电路(LSI)、系统LSI，超级LSI或超LSI组件。

本公开包括软件、应用程序、计算机程序或算法的使用。可以将软件、应用程序、计算机程序或算法存储在非瞬时性计算机可读介质上，以使诸如一个或多个处理器的计算机执行上述步骤和附图中描述的步骤。例如，一个或多个存储器以可执行指令存储软件或算法，并且一个或多个处理器可以关联执行该软件或算法的一组指令，以根据本公开中描述的实施例提供各种功能。

软件和计算机程序(也可以称为程序、软件应用程序、应用程序、组件或代码)包括用于可编程处理器的机器指令，并且可以以高级过程性语言、面向对象编程语言、功能性编程语言、逻辑编程语言或汇编语言或机器语言来实现。术语“计算机可读介质”是指用于向可编程数据处理器提供机器指令或数据的任何计算机程序产品、装置或设备，例如磁盘、光盘、固态存储设备、存储器和可编程逻辑设备(PLD)，包括将机器指令作为计算机可读信号来接收的计算机可读介质。

举例来说，计算机可读介质可以包括动态随机存取存储器(DRAM)、随机存取存储器(RAM)、只读存储器(ROM)、电可擦只读存储器(EEPROM)、紧凑盘只读存储器(CD-ROM)或其他光盘存储设备、磁盘存储设备或其他磁性存储设备，或可以用于以指令或数据结构的形式携带或存储所需的计算机可读程序代码以及能够被通用或专用计算机或通用或专用处理器访问的任何其它介质。如本文中所使用的，磁盘或盘包括紧凑盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘，其中磁盘通常以磁性方式复制数据，而盘则通过激光以光学方式复制数据。上述的组合也包括在计算机可读介质的范围内。

提供本公开的主题作为用于执行本公开中描述的特征的装置、系统、方法和程序的示例。但是，除了上述特征之外，还可以预期其他特征或变型。可以预期的是，可以用可能代替任何上述实现的技术的任何新出现的技术来完成本公开的部件和功能的实现。

另外，以上描述提供了示例，而不限制权利要求中阐述的范围、适用性或配置。在不脱离本公开的精神和范围的情况下，可以对所讨论的元件的功能和布置进行改变。各种实施例可以适当地省略、替代或添加各种过程或部件。例如，关于某些实施例描述的特征可以在其他实施例中被结合。

另外，在本公开的描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性和顺序。

类似地，虽然在附图中以特定次序描绘了操作，但是这不应该被理解为要求以所示的特定次序或者以顺序次序执行这样的操作，或者要求执行所有图示的操作以实现所希望的结果。在某些情况下，多任务处理和并行处理可以是有利的。

Claims

1.一种安全风险评估方法，包括：

采集包括多个安全域的对象系统的安全告警日志和资产信息，并对采集到的安全告警日志和资产信息进行预处理以去除无用信息；

将预处理后的安全告警日志和资产信息的文本信息转换成欧式空间向量以在向量空间中进行建模，基于安全告警日志向量和资产信息向量的余弦相关性，对安全告警日志和资产信息进行过滤；

基于表示安全域的安全等级的安全标记信息，针对每个安全域分配安全等级权重；

以预定时间周期，根据每个安全域的安全告警日志，生成每个安全域的典型特征向量；

针对每个安全域，分别根据典型特征向量与预定的多个基准向量来计算夹角余弦相关值；以及

将所有安全域的安全等级权重和夹角余弦相关值加权求和，求出安全风险评估结果。

2.根据权利要求1所述的方法，其中，

所述预处理包括根据资产版本信息过滤安全告警日志和/或根据停用词表对安全告警日志和资产数据过滤无关的关键词。

3.根据权利要求1所述的方法，其中，

基于安全告警日志向量和资产信息向量的余弦相关性对安全告警日志和资产信息进行过滤包括在所述余弦相关性小于规定的阈值时判定为安全告警日志的相关性低而将其去除。

4.根据权利要求1所述的方法，其中，

所述安全等级包括关键、重要、普通这三个等级，关键、重要、普通各自的权重值满足以下条件，

Key-Important＝Important–Common＝alpha，

alpha∈[0.2,0.3]，

5.根据权利要求3所述的方法，其中，

根据

求得Key、Important、Common的数值，从而得到各安全域的权重数值，N为安全域的总数。

6.根据权利要求1所述的方法，其中，

在生成典型特征向量时，安全域i的典型特征向量构成为由事前扫描的低危事件的有无、事前扫描的中危事件的有无、事前扫描的高危事件的有无、事中检测的低危事件的有无、事中检测的中危事件的有无、事中检测的高危事件的有无、事后审计的低危事件的有无、事后审计的中危事件的有无、事后审计的高危事件的有无构成的向量，其中，在有的时候用1表示，在无的时候用0表示，i为安全域的编号，i为自然数，i≤N，N为安全域的总数。

7.根据权利要求1所述的方法，其中，

根据典型特征向量与预定的多个基准向量来计算夹角余弦相关值可以分别对典型特征向量与多个基准向量进行余弦相关计算而得到多个余弦相关值，选择其中最大的余弦相关值作为夹角余弦相关值

8.根据权利要求1所述的方法，其中，

根据典型特征向量与预定的多个基准向量来计算夹角余弦相关值还可以分别对典型特征向量与多个基准向量进行余弦相关计算而得到多个余弦相关值，将其中最大的余弦相关值乘以其对应的权重得到的值作为夹角余弦相关值。

9.一种安全风险评估装置，包括：

存储器，其上存储有指令；以及

处理器，被配置为执行存储在所述存储器上的指令，以执行根据权利要求1至8中的任一项所述的方法。

10.一种计算机可读存储介质，包括计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1至8中的任意一项所述的方法。