CN116235190A

CN116235190A - 识别siem事件类型

Info

Publication number: CN116235190A
Application number: CN202180064197.3A
Authority: CN
Inventors: M·塔瓦莱; A·巴蒂亚
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-09-21
Filing date: 2021-07-16
Publication date: 2023-06-06
Also published as: GB202305439D0; WO2022057425A1; DE112021004121T5; GB2618216A; JP2023541235A; US20220094704A1; US11503055B2

Abstract

公开了一种方法。该方法包括确定安全信息和事件管理(SIEM)的事件日志的事件类型不能被识别。该方法还包括使用事件日志的被清理、令牌化和填充的版本来生成经向量化的日志。另外，该方法包括使用深度学习分类模型来生成向量化的日志的分类，该深度学习分类模型被训练以使用多个解析的日志基于深度学习训练来识别该事件日志的潜在事件类型。该方法还包括确定分类的置信度水平满足预定阈值。该方法还包括基于分类解析事件日志。

Description

识别SIEM事件类型

背景技术

本公开涉及安全信息和事件管理(SIEM)，并且更具体地，涉及识别SIEM事件类型。

术语SIEM可以指组合安全信息和安全事件(即，安全性事故)的管理的软件工具和/或服务。这样，SIEM可以分析由计算机系统和/或计算机网络生成的日志，以实时识别潜在的安全性事故。

通常，安全分析员可以通过分析进入联网计算机系统的事务(即，事件)来识别对这些系统的威胁。这些事件被记录在日志中。然而，由于日志的量，对于安全分析员来说，及时处理原始格式的日志数据以减轻任何潜在的损害是具有挑战性的。因此，SIEM可以在称为事件标准化和分类的过程中处理这些日志，由此SIEM生成安全分析员可审查的违规(offense)。违规是SIEM识别为潜在安全事故的事件。在事件标准化和分类中，SIEM识别事件的类型和源，并基于所识别的类型将事件传递到解析器中。解析器可以使用正则表达式(regex)，其将规则应用于日志，其可以确定是否生成违规。

然而，正则表达式寻找与预定义模式的精确匹配，这意味着新事件或旧事件的变化可能未被适当地标准化和分类。这些未知日志缺少重要的信息片段，例如事件名称或分类。因为不能在普通搜索中找到这些日志并且这些日志也不能触发相关规则，这可能导致遗漏破坏性的安全事故，所以这些日志是无用的。在一些场景中，事件中的五个5-20％之间的事件未被适当地标准化和分类，这意味着安全分析师和其他监测工具可能忽略数百万个事件。

发明内容

公开了方法的实施例。该方法包括确定安全信息和事件管理(SIEM)的事件日志的事件类型不能被识别。该方法还包括使用事件日志的被清理、令牌化和填充的版本来生成向量化的日志。另外，该方法包括使用深度学习分类模型来生成向量化的日志的分类，深度学习分类模型被训练以使用多个解析的日志基于深度学习训练来识别事件日志的潜在事件类型。该方法还包括确定分类的置信度水平满足预定阈值。该方法还包括基于分类解析事件日志。有利地，该实施例对于识别SIEM不能识别的日志的事件类型是有用的。

可选地，在一些实施例中，该方法还包括使用卷积神经网络来训练深度学习分类模型。该实施例对于识别SIEM不能识别其解析器的日志的解析器是有用的。

公开了方法的另一实施例。该方法包括使用事件日志的被清理、令牌化和填充的版本来生成向量化的日志。该方法还包括使用深度学习分类模型来生成向量化的日志的分类，深度学习分类模型被训练以使用多个解析的日志基于深度学习训练来识别针对事件日志的潜在事件类型。该方法还包括确定分类的置信度水平满足预定阈值。该方法还包括基于分类解析事件日志。有利地，该实施例对于识别SIEM不能识别的日志的事件类型是有用的。

公开了方法的另一实施例。该方法包括确定安全信息和事件管理(SIEM)的事件日志的事件类型不能被识别。该方法还包括使用事件日志的被清理、令牌化的和填充的版本来生成向量化的日志。该方法还包括使用深度学习分类模型来生成向量化的日志的分类，深度学习分类模型被训练以使用解析的日志基于深度学习训练来识别事件日志的潜在事件类型。该方法还包括确定分类的置信度水平满足预定阈值。该方法还包括基于分类解析事件日志。有利地，该实施例对于识别SIEM不能识别的日志的事件类型是有用的。

本公开的另外的方面涉及具有与上面关于计算机实现的方法讨论的功能性类似的功能性的系统和计算机程序产品。本发明内容不旨在示出本公开的每个实施方式的每个方面和/或每个实施例。

附图说明

本申请中包括的附图并入说明书中并形成说明书的一部分。附图示出了本公开的实施例，并且与说明书一起用于解释本公开的原理。附图仅说明某些实施例，而不限制本公开。

图1是根据本公开的一些实施例的用于识别SIEM事件类型的示例系统的框图。

图2是根据本公开的一些实施例的用于识别SIEM事件类型的示例系统。

图3是根据本公开的一些实施例的用于训练深度学习分类模型的方法的处理流程图。

图4是根据本公开的一些实施例的用于识别SIEM事件类型的方法的处理流程图。

图5是根据本公开的一些实施例的示例性SIEM事件类型识别系统的框图。

图6是根据本公开的一些实施例的云计算环境。

图7是根据本公开的一些实施例的由云计算环境提供的一组功能抽象模型层。

本公开可以具有各种修改和替代形式，同时在附图中以示例的方式示出其细节并且将详细描述其细节。然而，应当理解，其目的不是将本公开限制于所描述的特定实施例。相反，本发明将涵盖落入本公开的范围内的所有修改、等效物和替代方案。

具体实施方式

如前所述，在事件标准化和分类中，SIEM识别事件的源和类型，并基于所标识的类型将事件传递到解析器中。解析器可使用正则表达式(regex)，其对日志应用规则，该规则可确定是否生成违规。然而，正则表达式寻找与预定义模式的精确匹配，这意味着新事件或旧事件的变型可能不被适当地标准化以及分类。这些未知日志缺少重要的信息片段，例如事件名称或分类。因为不能在普通搜索中找到这些日志，并且这些日志也不能触发相关规则，这可能导致遗漏破坏性安全事故，所以这些日志是无用的。在一些场景中，事件中的五个5-20％之间的事件未被适当地标准化和分类，这意味着安全分析师和其他监测工具可能忽略数百万个事件。

因此，本公开的一些实施例可以训练机器学习模型以识别日志不匹配预定义模式的事件类型。此外，当SIEM遇到未被识别的事件类型时，SIEM可将日志传递给经训练的机器学习模型，该经训练的机器学习模型可识别事件类型。这样，SIEM可以分配对应的解析器，解析器可以确定是否生成针对日志的违规。

图1是根据本公开的一些实施例的用于识别SIEM事件类型的示例系统100的框图。系统100包括网络102、SIEM 104和机器学习系统106。

网络102可以包括一个或多个计算机通信网络。示例网络102可以包括因特网、局域网(LAN)、广域网(WAN)、诸如无线LAN(WLAN)的无线网络等。网络102可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。例如，在实现为SIEM 104的一部分的每个计算/处理设备中的网络适配卡或网络接口可以从和/或通过网络102接收消息和/或指令，并且将用于存储或执行(或类似)的消息和/或指令转发到相应计算/处理设备的相应存储器或处理器。尽管出于说明的目的，在图1中将网络102描绘为单个实体，但在其它示例中，网络102可包括系统100的组件可在其上通信的多个专用及/或公共网络。

SIEM 104可以是组合安全信息和安全事件(即安全事故)的管理的软件工具和/或服务的系统。这样，SIEM可以实时分析由计算机系统和/或计算机网络产生的警报(关于潜在的安全事故)。SIEM可以使用具有机器生成的数据的安全事故的相关指示符(例如警报)来执行安全数据的历史分析。利用SIEM，可以在个体的基础上调查安全事故。然而，使用SIEM，基于SIEM对过去的安全事故的两个元素(例如计算机应用程序)的知识，确定这两个元素之间是否存在关系是可能的。

根据本发明的一些实施例，SIEM 104可包括日志108、数据源管理器(DSM)110及关联引擎112。日志108可以是在联网的计算机系统(未示出)上发生的事件的记录。日志108可以包括以特定顺序布置的多个字段(filed)。这些字段可包括基于事件类型的计算机事务中使用的数据。关联引擎112可以包括解析器114，其可对日志108应用关联规则，该关联规则可以生成针对潜在安全事故的违规。

数据源管理器110可以识别每个日志108的事件类型。更具体地，数据源管理器110可以基于由正则表达式定义的已知日志模式将每个日志108映射到标准事件名称、分类和日志源类型。然而，在一些情况下，日志108可能不匹配已知的日志模式。例如，恶意行动者可能试图通过在日志108中插入阻止数据源管理器110识别事件类型的毒药丸(poisonpill)来伪装事件。在这种情况下，数据源管理器110可以基于由深度学习分类模型116识别的事件名称、分类和日志源类型将解析器114分配给日志108。

机器学习系统106可以使用具有被识别的事件的日志108来训练深度学习分类模型116，以用未被识别的事件来标记日志108。因此，深度学习分类模型116可以是用事件类型标记日志108的机器学习模型。机器学习是其中训练计算机算法以进行特定分类的过程。例如，可以训练机器学习算法(学习者)以识别数字照片中的对象的类别、预测市场数据库中的潜在顾客的未来购物选择等。根据本公开的一些实施例，深度学习分类模型116被训练以基于日志108中包括的字段和字段所发生的顺序来用事件类型标记日志108。深度学习是基于神经网络的机器学习方法的更广泛族的一部分—由人脑启发的算法—其从相对大量的数据中学习。深度学习算法通过使用能够进行渐进学习的深层来重复地执行任务和逐渐地改进结果。根据本公开的一些实施例，可以使用日志108来训练深度学习分类模型116，数据存储管理器110使用事件标准化和分类来成功识别该日志108。

图2是根据本公开的一些实施例的用于识别SIEM事件类型的示例系统200。系统200包括日志202、SIEM 204、解析的日志存储206、机器学习系统208、深度学习分类模型210和分类的日志212。日志202、SIEM 204、机器学习系统208和深度学习分类模型210分别类似于参考图1描述的日志108、机器学习系统106、SIEM 104和深度学习分类模型116。此外，SIEM 204包括数据源管理器214和关联引擎216，它们类似于数据源管理器110和关联引擎112。

解析的日志存储206可包括SIEM 204基于已知日志模式成功标记的日志202的集合。因此，机器学习系统208可以对解析的日志存储206连续地执行深度学习以生成深度学习分类模型210。线218-A、218-B表示到解析的日志存储206中的解析的日志的输入以及来自机器学习系统208的深度学习分类模型210的输出。

根据本公开的一些实施例，当数据源管理器214不能确定事件类型时，可将日志202输入到深度学习分类模型210。线220-A、220-B、220-C表示数据源管理器214不能识别的日志的流。线220-A表示到深度学习分类模型210的未被解析的日志的输入。因此，深度学习分类模型210可以分配未被解析的日志可能针对一个或多个事件类型的概率。此外，深度学习分类模型210可以输出被分类的日志212。分类的日志212可包括具有相对最高的概率的事件类型的未被解析的日志。另外，分类的日志212可以包括基于由深度学习分类模型210分配的概率的日志源类型和事件名称。

在本公开的一些实施例中，预定阈值可以指示是否使用分类的日志212来分配解析器。例如，如果深度学习分类模型210指示分类的概率小于预定阈值50％，SIEM 204可以不使用分类的日志用于进一步解析。因此，线220-B可以表示分类的日志212回到SIEM 204以进行人工处理来确定适当的解析器的流。然而，如果分类的概率满足或超过预定阈值，则线220-C可以表示分类的日志212的回到SIEM 204的流，其可基于分类来分配解析器。此外，SIEM 204可以将分类的日志212提供给关联引擎216，关联引擎216可以基于所识别的事件类型来解析分类的日志212。

图3是根据本公开的一些实施例的用于训练深度学习分类模型的方法300的处理流程图。在本公开的一些实施例中，参考图1描述的机器学习系统106可执行方法300。

在操作302，机器学习系统106可对解析的日志执行日志清理。解析的日志可以是数据源管理器110可基于已知日志模式成功识别的日志，诸如日志108。日志清理可涉及从日志108中滤除不相关的信息，诸如日期、时间戳、文件名、统一资源定位符、标点符号等。在滤除此类无关信息之后，日志108可以限于日志108内的字段名和数据。

在操作304，机器学习系统106可对所清理的日志执行日志令牌化。日志令牌化可涉及将日志减少到所清理的日志内的字段名和数据的列表。

在操作306，机器学习系统106可执行对令牌化的日志的日志填充。为了便于日志之间的比较，使日志上的所有字段具有相同的字段长度是有用的。因此，机器学习系统106可以识别令牌化的日志内的最长令牌的字段长度，并且用字符(例如，空格或零)填充比最长字段更短的每个令牌，使得跨所有令牌化的日志的所有令牌是相同的长度。

在操作308，机器学习系统106可对填充的日志执行日志向量化。对于机器学习系统来说，使用文本令牌来执行分类可能是具有挑战性的。因此，机器学习系统106可以对在填充的日志中出现的每个标记分配数字，使得出现在不同日志中的相同令牌具有相同的数字。以这种方式，机器学习系统可基于在日志中出现的令牌和令牌出现的顺序来学习以识别事件类型。

在操作310，机器学习系统106可通过利用向量化的日志进行训练来生成深度学习分类模型116。因为向量化的日志的源日志被成功标记，所以深度学习分类模型116可使用向量化的日志的模式来学习如何识别事件类型。根据本公开的一些实施例，机器学习系统106可使用卷积神经网络(CNN)来训练深度学习分类模型116。

CNN是在层中定义的神经网络，其中第一层识别相对更少的复杂特征，而更后面的层可以基于在更早的层中识别的特征来识别更复杂的特征。CNN中的这种特征检测的一个示例涉及检测图像中的面部。在该示例中，CNN的第一层可识别图像内的垂直和水平线。该CNN中的更后面的层可以基于更早识别的线来识别鼻子和嘴。根据本公开的一些实施例，CNN的前面的层可以识别特定令牌。此外，CNN的更后面的层可以识别特定的令牌组和序列。以此方式，CNN可以使得深度学习分类模型116能够识别向量化的日志中的事件类型。

图4是根据本公开的一些实施例的用于识别SIEM事件类型的方法400的处理流程图。在本公开的一些实施例中，参考图1描述的数据源管理器110可执行方法400。

在操作402，数据源管理器110可确定日志108不能被分类。如前所述，如果日志108不匹配正则表达式的预定义模式，则数据源管理器110可确定日志108不能被分类。例如，恶意行动者可以将毒药数据插入日志108中以防止数据源管理器110识别日志108的事件类型，并且因此防止可生成违规以进行分析的解析。

在操作404，数据源管理器110可使用未被分类的日志的清理、令牌化和填充的版本来生成向量化的日志。数据源管理器110可根据参考图3描述的操作302至308生成向量化的日志。

返回参考图4，在操作406，数据源管理器110可使用深度学习分类模型116来对向量化的日志进行分类。对向量化的日志进行分类可涉及生成针对日志源类型、事件名称和解析器的一个或多个潜在标签，以及潜在标签是正确标签的概率。此外，深入学习分类模型116因此可以提供具有相对最高概率的标签。概率在本文中也被称为分类的置信度。

在操作408，数据源管理器可确定分类的置信度是否满足预定阈值。预定阈值可以表示数据源管理器110可以确定分类是正确的置信度水平。在本公开的一些实施例中，预定阈值可以是50％。因此，如果分类的置信度是50％或更高，则方法400可流向操作410。如果分类的置信度低于50％，则方法400可进行到操作412。

在操作410，数据源管理器110可基于分类来解析日志108。解析日志108可涉及将日志和分类传递到关联引擎，诸如关于图1描述的关联引擎112。

在操作412，数据源管理器可调用用于解析日志的人工处理。因为分类的置信度低于预定阈值，所以基于分类来尝试解析日志可能导致错误。因此，使用人工处理来解析日志可能是有用的。

图5是根据本公开的一些实施例的示例SIEM事件类型识别系统500的框图。在各种实施例中，SIEM事件识别系统500类似于关于图1描述的数据源管理器110和机器学习系统106，并且可以执行图3-4中描述的方法和/或图1和2中讨论的功能。在一些实施例中，SIEM事件识别系统500对客户端机器提供针对上述方法和/或功能性的指令，使得客户端机器基于SIEM事件识别系统500提供的指令执行方法或方法的一部分。在一些实施例中，SIEM事件识别系统500包括在并入多个设备的硬件上执行的软件。

SIEM事件识别系统500包括存储器525、存储530、互连(例如BUS)520、一个或多个CPU 505(这里也称为处理器505)、I/O设备接口510、I/O设备512和网络接口515。

每个CPU 505取得并执行存储在存储器525或存储装置530中的编程指令。互连520用于在CPU 505、I/O设备接口510、存储530、网络接口515和存储器525之间移动数据，诸如编程指令。可使用一个或多个总线来实现互连520。在各种实施例中，CPU 505可以是单个CPU、多个CPU、或具有多个处理核的单个CPU。在一些实施例中，CPU 505可以是数字信号处理器(DSP)。在一些实施例中，CPU 505包括一个或多个3D集成电路(3DIC)(例如，3D晶片级封装(3DWLP)、基于3D中介体的集成、3D堆叠IC(3D-SIC)、单片3D IC、3D异构集成、3D系统级封装(3DSiP)和/或封装上封装(PoP)CPU配置)。存储器525通常被包括以表示随机存取存储器(例如，静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)或闪存)。通常包括存储器530以表示非易失性存储器，例如硬盘驱动器、固态装置(SSD)、可移除存储卡、光学存储器和/或闪存设备。另外，存储装置530可包括存储区域网络(SAN)设备、云或经由I/O设备接口510连接到SIEM事件识别系统500或经由网络接口515连接到网络550的其他设备。

在一些实施例中，存储器525存储指令560。然而，在各种实施例中，指令560部分地存储在存储器525中并且部分地存储在存储装置530中，或者指令560完全地存储在存储器525中或者完全地存储在存储装置530中，或者指令560经由网络接口515通过网络550被访问。

指令560可以是用于执行图1和2中讨论的功能和/或图3-4中描述的方法的任何部分或全部的处理器可执行指令。

在各种实施例中，I/O设备512包括能够呈现信息以及接收输入的接口。例如，I/O设备512可以向与SIEM事件识别系统500交互的收听者呈现信息，并且从收听者接收输入。

SIEM事件识别系统500经由网络接口515连接到网络550。网络550可包括物理、无线、蜂窝或不同的网络。

在一些实施例中，SIEM事件识别系统500可以是多用户大型计算机系统、单用户系统、或者服务器计算机或类似的设备，其具有很少或没有直接用户接口但是从其他计算机系统(客户端)接收请求。此外，在一些实施例中，SIEM事件识别系统500可以被实现为台式计算机、便携式计算机、膝上型或笔记本计算机、平板计算机、口袋计算机、电话、智能电话、网络交换机或路由器、或任何其他适当类型的电子设备。

注意到图5旨在描绘示例性SIEM事件识别系统500的主要代表性组件。然而，在一些实施例中，各个组件可以具有比图5中所表示的更大或更小的复杂度，可以存在与图5中所示的组件不同的组件或作为图5中所示的组件的替代的组件，并且这些组件的数量、类型和配置可以是变化的。

尽管本公开包括关于云计算的详细描述，但是本文所记载的教导的实现不限于云计算环境。相反，本公开的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。

云计算是一种服务递送的模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的、按需的网络访问，所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助：云消费者可以单方面地自动地根据需要提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者进行人工交互。

广域网络接入：能力在网络上可用，并且通过促进由异构的薄或厚客户端平台(例如，移动电话、膝上型计算机和PDA)使用的标准机制来访问。

资源共享：供应商的计算资源被集中以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义，因为消费者通常不控制或不知道所提供的资源的确切位置，但是能够在较高抽象级(例如国家、州或数据中心)指定位置。

快速弹性：在一些情况下，可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对用户而言可用于提供的能力通常看起来不受限制，并且可以在任何时间以任何数量购买。

测量服务：云系统通过利用在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用，从而为所利用服务的提供者和消费者两者提供透明性。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如，基于web的电子邮件)等瘦客户机接口从各个客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构，可能的例外是有限的用户专用应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上，该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但具有对部署的应用和可能的应用托管环境配置的控制。

基础设施即服务(laaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，但具有对操作系统、存储、部署的应用的控制，以及可能对选择的联网组件(例如，主机防火墙)的有限控制。

部署模型如下：

私有云：云基础设施仅为组织操作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础设施由若干组织共享，并且支持具有共享关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：云基础设施可用于一般公众或大型工业群体，并且由销售云服务的组织拥有。

混合云：云基础设施是两个或更多云(私有、共同体或公共)的组合，所述云保持唯一实体，但是通过使数据和应用能够移植的标准化或私有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。

云计算环境是面向服务的，其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。

图6是根据本公开的一些实施例的云计算环境610。如图所示，云计算环境610包括一个或多个云计算节点600。云计算节点600可以执行图3-4中描述的方法和/或图1和2中讨论的功能性。另外，云计算节点600可以与云消费者使用的本地计算设备通信，例如个人数字助理(PDA)或蜂窝电话600A、台式计算机600B、膝上型计算机600C和/或汽车计算机系统600N。此外，云计算节点600可以彼此通信。云计算节点600还可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境610提供基础设施、平台和/或软件作为服务，对于这些服务，云消费者不需要在本地计算设备上维护资源。应当理解，图6中所示的计算设备600A-N的类型仅旨在说明，并且计算节点600和云计算环境610可以在任何类型的网络和/或网络可寻址连接上(例如，使用web浏览器)与任何类型的计算设备通信。

图7是根据本公开的一些实施例的由云计算环境610(图6)提供的一组功能抽象模型层。应当预先理解，图7中所示的组件、层和功能仅旨在说明，并且本公开的实施例不限于此。如下所述，提供了下面的层和相应的功能。

硬件和软件层700包括硬件和软件组件。硬件组件的示例包括：主机702；基于RISC(精简指令集计算机)架构的服务器704；服务器706；刀片服务器708；存储装置710；以及网络和联网组件712。在一些实施例中，软件组件包括网络应用服务器软件714和数据库软件716。

虚拟化层720提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器722；虚拟存储器724；虚拟网络726，包括虚拟专用网络；虚拟应用和操作系统728；以及虚拟客户机730。

在一个示例中，管理层740可以提供以下描述的功能。资源供应742提供被利用来在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价744提供了在云计算环境内利用资源时的成本跟踪，以及针对这些资源的消耗的计费或计价。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户746为消费者和系统管理员提供对云计算环境的访问。服务级别管理748提供云计算资源分配和管理，使得满足所需的服务级别。服务等级管理748可分配适当的处理能力和存储器以处理静态传感器数据。服务水平协议(SLA)计划和履行750提供对云计算资源的预安排和采购，其中根据SLA预期未来需求。

工作负载层760提供了云计算环境可被用于的功能的示例。可以从该层提供的工作负载和功能的示例包括：绘图和导航762；软件开发和生命周期管理764；虚拟教室教育传送766；数据分析处理768；事务处理770；以及SIEM事件类型识别系统772。

本公开可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本公开的方面。

计算机可读存储介质可以是能够保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。更多的非穷举列表计算机可读存储介质的具体示例包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

在此描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如，因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本公开的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言(包括面向对象的编程语言，例如Smalltalk、C++等)和过程式编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，通过使用因特网服务的因特网)提供商)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，以便执行本公开的方面。

本文参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本公开的方面。可理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给计算机的处理器或其它可编程数据处理装置以产生机器，使得经由计算机或其它可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，该计算机可读存储介质可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被装载到计算机、其它可编程数据处理装置或其它设备上，以使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的处理，从而在计算机、其它可编程装置或其它设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些可替换实现中，框中所标注的功能可以是不按照图中所示的顺序发生。例如，连续示出的两个框实际上可以作为一个步骤来完成，同时、基本同时、在一个步骤中执行部分或全部时间重叠的方式，或者有时可以以相反的顺序执行这些块，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

示例1是一种计算机实现的方法。该方法包括确定安全信息和事件管理(SIEM)的事件日志的事件类型不能被识别；使用事件日志的被清理、令牌化和填充的版本来生成向量化的日志；使用深度学习分类模型来生成针对向量化的日志的分类，深度学习分类模型被训练为使用多个解析的日志基于深度学习训练来识别针对事件日志的潜在事件类型；确定分类的置信度水平满足预定阈值；以及基于分类来解析事件日志。

示例2包括示例1的方法，包括或不包括可选的特征。在该示例中，深度学习分类模型通过以下来训练：对解析的日志进行清理；令牌化解析的日志；对解析的日志进行填充；以及向量化解析的日志。可选地，令牌化解析的日志包括：识别解析的日志中的每个日志的多个令牌；以及生成包括令牌的日志。可选地，对解析的日志进行填充包括：识别令牌中的最长令牌的长度；以及用预定字符将每个令牌的原始长度增加到最长令牌的长度。可选地，向量化解析的日志包括：向令牌中的每个令牌分配唯一的数值；以及用所分配的唯一数值替换该令牌。

示例3包括示例1至2中任一项的方法，包括或不包括可选的特征。在该示例中，使用卷积神经网络来训练深度学习分类模型。

示例4包括示例1至3中任一项的方法，包括或不包括可选的特征。在该示例中，解析的日志包括由SIEM的数据源管理器以及基于该分类的事件类型分类的多个日志。

示例5是一种计算机程序产品，包括存储在计算机可读存储介质上的程序指令。该计算机可读介质包括指令，该指令指导处理器确定安全信息和事件管理(SIEM)的事件日志的事件类型不能识别；使用事件日志的被清理、令牌化和填充的版本来生成经向量化的日志；使用深度学习分类模型来生成针对向量化的日志的分类，深度学习分类模型被训练为使用多个解析的日志基于深度学习训练来识别事件日志的潜在事件类型；确定分类的置信度水平满足预定阈值；以及基于分类解析事件日志。

示例6包括示例5的计算机可读介质，其包括或不包括可选的特征。在该示例中，深度学习分类模型通过以下来训练：对解析的日志进行清理；令牌化解析的日志；对解析的日志进行填充；以及向量化解析的日志。可选地，令牌化解析的日志包括：识别解析的日志中的每个日志的多个令牌；以及生成包括令牌的日志。可选地，对解析的日志进行填充包括：识别令牌中的最长令牌的长度；以及用预定字符将每个令牌的原始长度增加到最长令牌的长度。可选地，向量化解析的日志包括：向令牌中的每个令牌分配唯一的数值；以及用所分配的唯一数值替换令牌。

示例7包括示例5至6中任一项的计算机可读介质，其包括或不包括可选的特征。在该示例中，使用卷积神经网络来训练深度学习分类模型。

示例8包括示例5至7中任一项的计算机可读介质，其包括或不包括可选的特征。在该示例中，解析的日志包括由SIEM的数据源管理器以及基于该分类的事件类型分类的多个日志。

示例9是一种系统。该系统包括将处理器引导到计算机处理电路的指令；以及存储指令的计算机可读存储介质，指令在由计算机处理电路执行时被配置为使得计算机处理电路执行一种方法，方法包括：确定安全信息和事件管理(SIEM)的事件日志的事件类型不能被识别；使用事件日志的被清理、令牌化和填充的版本来生成向量化的日志；使用深度学习分类模型来生成向量化的日志的分类，深度学习分类模型被训练为使用多个解析的日志基于深度学习训练来识别事件日志的潜在事件类型；确定分类的置信度水平满足预定阈值；以及基于分类解析事件日志。

示例10包括示例9的系统，其包括或不包括可选的特征。在该示例中，深度学习分类模型通过以下来训练：对解析的日志进行清理；令牌化解析的日志；对解析的日志进行填充；以及向量化解析的日志。可选地，令牌化解析的日志包括：识别解析的日志中的每个日志的多个令牌；以及生成包括令牌的日志。可选地，对解析的日志进行填充包括：识别令牌中的最长令牌的长度；以及用预定字符将每个令牌的原始长度增加到最长令牌的长度。可选地，向量化解析的日志包括：向令牌中的每个令牌分配唯一的数值；以及用所分配的唯一数值替换令牌。

示例11包括示例9至10中任一项的系统，其包括或不包括可选的特征。在该示例中，使用卷积神经网络来训练深度学习分类模型。

示例12是一种计算机实现的方法。该方法包括指令，该指令引导处理器使用事件日志的被清理、令牌化和填充的版本来生成向量化的日志；使用深度学习分类模型来生成针对向量化日志的分类，深度学习分类模型被训练为使用多个解析的日志基于深度学习训练来识别事件日志的潜在事件类型；确定分类的置信度水平满足预定阈值；以及基于分类解析事件日志。

示例13包括示例12的方法，包括或不包括可选的特征。在该示例中，使用卷积神经网络来训练深度学习分类模型。可选地，该方法包括确定安全信息和事件管理(SIEM)的事件日志的事件类型不能被识别。

示例14是一种计算机实现的方法。该方法包括指令，该指令指导处理器确定安全信息和事件管理(SIEM)的事件日志的事件类型不能被识别；使用事件日志的被清理、令牌化和填充的版本来生成向量化的日志；使用深度学习分类模型来生成针对向量化日志的分类，深度学习分类模型被训练为使用多个解析的日志基于深度学习训练来识别事件日志的潜在事件类型；确定分类的置信度水平满足预定阈值；以及基于分类解析事件日志。

示例15包括示例14的方法，包括或不包括可选的特征。在该示例中，该方法包括识别与解析的日志对应的多个事件类型；训练深度学习分类模型。

Claims

1.一种计算机实现的方法，包括：

使用事件日志的被清理、令牌化和填充的版本来生成向量化的日志；

使用深度学习分类模型来生成所述向量化的日志的分类，所述深度学习分类模型被训练以使用多个解析的日志基于深度学习训练来识别所述事件日志的潜在事件类型；

确定所述分类的置信度水平满足预定阈值；以及

基于所述分类解析所述事件日志。

2.根据权利要求1所述的方法，还包括确定安全信息和事件管理(SIEM)的所述事件日志的事件类型不能被识别。

3.根据权利要求2所述的方法，其中，所述深度学习分类模型是通过以下来训练的：

清理所述解析的日志；

令牌化所述解析的日志；

填充所述解析的日志；以及

向量化所述解析的日志。

4.根据权利要求3所述的方法，其中，令牌化所述解析的日志包括：

识别所述解析的日志中的每个日志的多个令牌；以及

生成包括所述令牌的日志。

5.根据权利要求3所述的方法，其中，填充所述解析的日志包括：

识别多个令牌中的最长令牌的长度；以及

用预定字符将所述令牌中的每个令牌的原始长度增加到所述最长令牌的长度。

6.根据权利要求3所述的方法，其中，向量化所述解析的日志包括：

向所述令牌中的每个令牌分配唯一的数值；以及

用所分配的唯一的数值替换所述令牌。

7.根据权利要求2所述的方法，还包括：

识别与所述解析的日志相对应的多个事件类型；以及

基于所识别的事件类型来训练深度学习分类模型。

8.根据权利要求1所述的方法，其中，使用卷积神经网络来训练所述深度学习分类模型。

9.根据权利要求2所述的方法，其中，所述解析的日志包括由SIEM的数据源管理器以及基于所述分类的事件类型分类的多个日志。

10.一种计算机程序产品，包括存储在计算机可读存储介质上的程序指令，所述程序指令能够由处理器执行以使所述处理器执行一种方法，所述方法包括：

确定所述分类的置信度水平满足预定阈值；以及

基于所述分类解析所述事件日志。

11.根据权利要求10所述的计算机程序产品，其中，所述方法还包括确定安全信息和事件管理(SIEM)的所述事件日志的事件类型不能被识别。

12.根据权利要求11所述的计算机程序产品，其中，所述深度学习分类模型是通过以下来训练的：

清理所述解析的日志；

令牌化所述解析的日志；

填充所述解析的日志；以及

向量化所述解析的日志。

13.根据权利要求12所述的计算机程序产品，其中，令牌化所述解析的日志包括：

识别所述解析的日志中的每个日志的多个令牌；以及

生成包括所述令牌的日志。

14.根据权利要求12所述的计算机程序产品，其中，填充所述解析的日志包括：

识别多个令牌中的最长令牌的长度；以及

15.根据权利要求12所述的计算机程序产品，其中，向量化所述解析的日志包括：

向所述令牌中的每个令牌分配唯一的数值；以及

用所分配的唯一的数值替换所述令牌。

16.根据权利要求10所述的计算机程序产品，其中，使用卷积神经网络来训练所述深度学习分类模型。

17.根据权利要求11所述的计算机程序产品，其中，所述解析的日志包括由SIEM的数据源管理器以及基于所述分类的事件类型分类的多个日志。

18.一种系统，包括：

计算机处理电路；以及

计算机可读存储介质，其存储指令，在由所述计算机处理电路执行所述指令时所述指令被配置为使得所述计算机处理电路执行一种方法，所述方法包括：

使用事件日志的被清理、令牌化的和填充的版本来生成向量化的日志；

确定所述分类的置信度水平满足预定阈值；以及

基于所述分类解析所述事件日志。

19.根据权利要求18所述的系统，所述方法还包括确定安全信息和事件管理(SIEM)的所述事件日志的事件类型不能被识别。

20.根据权利要求19所述的系统，其中，所述深度学习分类模型是通过以下来训练的：

清理所述解析的日志；

令牌化所述解析的日志；

填充所述解析的日志；以及

向量化所述解析的日志。

21.根据权利要求20所述的系统，其中，令牌化所述解析的日志包括：

识别所述解析的日志中的每个日志的多个令牌；以及

生成包括所述令牌的日志。

22.根据权利要求20所述的系统，其中，填充所述解析的日志包括：

识别多个令牌中的最长令牌的长度；以及

23.根据权利要求20所述的系统，其中，向量化所述解析的日志包括：

向所述令牌中的每个令牌分配唯一的数值；以及

用所分配的唯一的数值替换所述令牌。

24.根据权利要求18所述的系统，其中，使用卷积神经网络来训练所述深度学习分类模型。