CN117546443A

CN117546443A - 针对传统网络安全的机器学习替代

Info

Publication number: CN117546443A
Application number: CN202280044488.0A
Authority: CN
Inventors: I·Y·亨; R·莱文
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-06-22
Filing date: 2022-05-20
Publication date: 2024-02-09
Also published as: EP4360255A1; WO2022271356A1; US20220405632A1

Abstract

本文一般讨论的是用于改进传统网络安全解决方案的设备、系统和方法。一种方法可以包括：接收流量数据序列，该流量数据序列表示由在网络中通信地耦合的设备执行的操作，通过网络安全事件检测逻辑生成与流量数据序列对应的动作，该动作与网络中的网络安全事件相对应，基于流量数据序列创建训练数据集，该训练数据集包括作为标签的动作，基于训练数据集训练机器学习模型，以生成指示网络安全事件的可能性的分类，以及分发经训练的机器学习模型来代替网络安全事件检测逻辑。

Description

针对传统网络安全的机器学习替代

背景技术

许多现有针对计算机网络的网络安全解决方案都是基于主题专家定义的规则来运行。这些规则本质上是将输入(“如果X”)映射到动作(“然后Y”)的if-then语句。对于每种不同的输入类型，都会收集和分析数据，以确定基于该输入类型的规则是否指示要执行动作。随着日期类型的扩展，输入规模的扩展，存储输入所需的存储容量增加，规则的复杂性增加，主题专家很可能错过了一些输入和恶意行为之间的相关性。此外，给定的计算机网络可能需要重新设计，以提供新类型的数据作为输入，或者实现检测可能需要动作的网络安全事件的新规则。提供数据作为输入的额外工作增加了网络活动并消耗了宝贵的带宽。

发明内容

一种用于云资源安全管理的方法、设备或机器可读介质可以改进针对网络安全的现有技术。该方法、设备或机器可读介质可以用机器学习模型解决方案替换基于规则的网络安全事件检测逻辑解决方案。针对机器学习模型生成训练数据可以是耗时的或人力密集型的过程。可以利用网络安全事件检测逻辑的操作来生成针对机器学习模型训练的输入/输出示例。机器学习模型解决方案可以找到并操作以检测在基于规则的网络安全事件检测逻辑中不存在的网络安全事件相关性。与基于规则的网络安全事件检测逻辑相比，机器学习模型解决方案可以需要更少的数据和更少的数据类型来操作。数据的减少减轻了数据监视器和用于收集数据的网络流量的负担。因此，当机器学习模型代替基于规则的网络安全事件检测逻辑时可以改善网络运行。

一种用于云资源安全管理的方法、设备或机器可读介质，可以包括操作，该操作包括接收流量数据序列，该流量数据序列表示由在网络中通信地耦合的设备执行的操作。该操作还可以包括通过网络安全事件检测逻辑生成与流量数据序列对应的动作。该动作可以与网络中的网络安全事件相对应。该操作还可以包括基于流量数据序列创建训练数据集。训练数据集可以包括作为标签的动作。该操作还可以包括基于训练数据集训练机器学习模型。该机器学习模型可以被训练以生成指示网络安全事件的可能性的分类。该操作还可以包括分发经训练的机器学习模型来代替网络安全事件检测逻辑。

创建训练数据集可以包括将流量数据序列减少到流量数据序列的真子集。减少流量数据序列可以包括对流量数据序列进行下采样。该操作还可以包括确定流量数据序列的特征，并且其中训练机器学习模型是基于确定的特征来执行的。减少流量数据序列可以包括对确定的特征执行特征选择，产生选择的特征，选择的特征是确定的特征的真子集。训练机器学习模型是基于选择的特征来执行的。

机器学习模型可以包括神经网络、最近邻分类器或者贝叶斯分类器。网络安全事件检测逻辑可以对流量数据序列应用人为定义的规则以确定动作。

附图说明

图1通过示例示出了传统网络检测系统的实施例的框图。

图2通过示例示出了用于检测网络安全事件的机器学习模型的监督训练的系统的实施例的示图。

图3通过示例示出了用于检测网络安全事件的另一机器学习模型的监督训练的系统的实施例的示图，该系统相对于图1的系统具有减少的商品销售成本(COGS)。

图4通过示例示出了系统的另一实施例的框图，该系统包括相对于图1的系统的减少的COGS。

图5通过示例示出了用于改进的网络安全的方法的实施例的框图。

图6通过示例示出了包括用于神经网络训练的系统的环境的实施例的框图。

图7通过示例示出了实现一个或多个实施例的机器(例如，计算机系统)的实施例的框图。

具体实施方式

在下面的描述中，参考构成本文一部分的附图，并且在附图中以说明的方式示出了可以实践的具体实施例。对这些实施例进行了足够详细的描述，以使本领域技术人员能够实践这些实施例。应当理解，可以利用其它实施例，并且可以在不脱离实施例的范围的情况下进行结构、逻辑和/或电气上的改变。因此，对实施例的以下描述不被认为是有限制的意义，并且实施例的范围由所附权利要求限定。

一个或多个实施例可以减少当前基于规则的网络安全解决方案的数据收集、计算复杂性、带宽消耗、存储要求或其组合。网络安全事件检测是安全产品的组成部分。许多网络安全事件检测器提醒客户潜在的恶意活动或对其计算机资源的攻击。计算机资源可以包括云资源，例如在虚拟机上运行的计算资源、数据存储组件、应用功能、应用服务器、开发平台等，以及本地资源，例如防火墙、网关、打印机、台式计算机、接入点、移动计算设备(例如，智能手机、膝上型计算机、平板计算机等)、安全系统、物联网(IoT)设备等，或其他计算机资源，诸如外部硬盘驱动器、智能电器或其他能够上网的设备等。

检测网络安全事件可以包括在检测逻辑处接收输入数据。这种检测逻辑通常依赖于要收集的相对大量的输入数据才能正常运行，例如网络活动，包括经由网络连接接收数据、进程创建事件和控制面事件。网络活动可以包括用户访问资源、设备通信、应用通信、数据的存储或访问、证书或机密检查，以及与用户和计算资源或数据平面事件的交互相关的其他活动。进程创建事件可以包括应用部署、用户认证进程、启动应用程序以供执行等。控制平面事件可以包括适当或不适当的用户认证、数据路由、负载均衡、负载分析，或其他网络流量管理。

许多现有针对计算机网络的网络安全解决方案基于主题专家定义的规则来运行。这些规则本质上是将输入(“如果X”)映射到动作(“则Y”)的if-then语句。这些规则有时被称为检测逻辑。对于每种不同的输入类型，使用检测逻辑收集和分析数据，以确定基于该输入类型的规则是否指示要执行动作。随着日期类型的扩展，输入的扩展，存储输入所需的存储容量增加，规则的复杂性增加，主题专家很可能错过了一些输入和恶意行为之间的相关性。此外，给定的计算机网络可能需要重新设计，以提供新类型的数据作为输入，或者实现检测可能需要动作的网络安全事件的新规则。提供数据作为输入的额外工作增加了网络活动并消耗了宝贵的带宽。

收集和保存这些数据的过程需要管理大量数据。处理大量数据需要高吞吐量的数据管道、增加的网络活动、增加的计算容量和增加的存储容量。这最终导致网络安全事件检测的高销售成本(COGS)，并增加了网络安全事件检测的复杂性。

在一般情况下，考虑D，一个现有的检测逻辑。D需要数据集X来检测网络安全事件。D可以是传统的检测逻辑，需要大量的数据来操作。目标可以是在不牺牲检测率或准确性的情况下减少操作检测逻辑中的COGS。

实施例可以通过将D应用于完整数据集X来操作。这将导致预测集合L，L可以在D'的训练期间用作标签。在一些实施例中，可以对X进行采样。采样可以包括减少X的特征的数目，例如通过使用特征选择、下采样网络数据或其组合来产生X'。

为了产生D'，可以基于X'和L训练机器学习模型。由于该过程是监督的，因此可以使用标准质量指标，例如精度、召回率、曲线下面积(AUC)或其他指标，以确保机器学习模型具有足够的质量。足够的质量指标意味着模型运行以满足基于质量指标的标准。该标准可以包括用户定义的阈值或每个质量指标的阈值组合。如果有益，实施例可以包括微调训练。所得到的模型D'可以在更小的(例如，采样的)数据集上操作，从而与原始检测逻辑相比减少COGS。最终结果可以是D'，可以用更少的数据收集、数据分析或其组合来重现D的结果的机器学习模型。

实施例可以降低现有网络安全检测的数据采集成本。实施例可以通过训练监督模型以在减少的数据集上重现现有网络安全事件检测逻辑的结果来降低数据收集成本。

一种减少现有网络安全事件检测逻辑的COGS的不同方法，可以包括从零开始开发基于采样的检测(不考虑先前生成的检测逻辑)，但是这种方法将需要大量的专家手工劳动，甚至可能是难以处理的，从而浪费专家手工劳动。实施例不需要重新开发网络安全事件检测逻辑。实施例可以使用机器学习工具，并且比先前的解决方案少得多的手工工作。实施例可以利用先前的工作来生成网络安全事件检测逻辑。实施例可以以允许质量验证并减少原始网络安全事件检测逻辑的COGS的方式替换网络安全事件检测逻辑。

现在将参考附图来描述实施例的进一步细节。附图说明了实施例的示例，并且一个实施例的一个或多个组件可以与不同实施例的组件一起使用或代替不同实施例的组件。

图1通过示例示出了可操作以提供训练数据的基于规则的网络检测系统100的实施例的框图。如图所示，系统100包括联网计算设备，包括客户端102A、102B、102C，服务器108以及通过通信集线器104彼此通信耦合的数据存储单元110。监视器106可以分析客户端102A-102C、服务器108以及数据存储单元110与通信集线器104之间的流量118。网络安全事件检测逻辑114可以通信耦合到监视器106。网络安全事件检测逻辑可以从监视器106接收流量数据112。

客户端102A-102C是能够与通信集线器104通信的相应的计算设备。客户端102A-102C可以包括智能电话、平板电脑、膝上型计算机、台式计算机、服务器、智能电视、恒温器、相机或其他智能电器、车辆(例如有人或无人驾驶车辆)等。客户端102A-102C可以访问耦合到通信集线器104的另一个计算设备的功能或与之通信。

通信集线器104可以支持客户端102A-102C、服务器108和数据存储单元110之间的通信。通信集线器104可以执行访问策略，该策略定义允许哪些实体(例如，客户端设备102A-102C、服务器108、数据存储单元110或其他设备)彼此通信。通信集线器104可以将满足访问策略(如果存在这样的访问策略)的流量118路由到相应的目的地。

监视器106可以分析流量118。监视器106可以基于流量118的主体、头部、元数据或其组合来确定流量118是否与网络安全事件检测逻辑114执行的规则(例如，人为定义的规则)相关。监视器106可以提供与网络安全事件检测逻辑114执行的规则相关的流量118作为流量数据112。流量数据112可以仅包括流量118的部分、流量118的修改版本、流量118的增强版本等。监视器106可以将流量118过滤为仅与针对网络安全事件检测逻辑114的规则相关的数据。然而，即使使用这种过滤，由网络安全事件检测逻辑114分析的流量数据112的量也可能是巨大的，因此降低了由网络安全事件检测逻辑114进行分析的及时性。

服务器108可以响应于计算请求来提供结果。服务器108可以是响应于对文件的请求而提供文件的文件服务器、响应于对网站访问的请求而提供网页的网络服务器、响应于请求而提供电子邮件内容的电子邮件服务器(email server)、响应于验证请求而提供用户名、口令或其它鉴别数据是否正确的指示的登录服务器。

存储/数据单元110可以包括一个或多个用于存储器访问的数据库、容器等。存储/数据单元110可以被分区，使得给定用户具有专用的存储器空间。服务级别协议(SLA)通常定义正常运行时间、停机时间、访问数据的最大或最小延迟等量。

网络安全事件检测逻辑114可以执行流量数据112分析的操作。网络安全事件检测逻辑114可以标识与网络安全事件相关联的预定义条件何时确定流量数据112是否满足为针对动作116定义的一个或多个条件。这些条件可以包括在彼此指定的时间内发生一系列操作、在彼此指定的时间内发生指定数量的相同或相似操作、发生单个操作等。动作116可以指示网络安全事件。网络安全事件的示例包括：(i)数据泄露，(ii)未经授权的访问，(iii)恶意攻击(或潜在的恶意攻击)，例如零日攻击、病毒、蠕虫、木马、勒索软件、缓冲区溢出、恶意软件(rootkit)，拒绝服务、中间人、网络钓鱼、数据库注入、窃听、端口扫描等，或其组合。每个网络安全事件可以对应于标签(关于图2更详细地讨论)。每个动作116可以对应于用于训练机器学习模型的标签，该机器学习模型改进了网络安全事件检测逻辑114的COGS。

数据存储120可以是数据/存储单元110的一个或一部分。针对每个动作116，数据存储120可以存储导致动作116被检测到的对应流量数据112。动作116指示在系统100中发生的网络安全相关事件。动作116可以用作机器学习模型的监督训练的标签(参见图2-3)。

图2通过示例示出了用于检测网络安全事件的机器学习模型224A的监督训练的系统200的实施例的示图。使用机器学习模型224A代替网络安全事件检测逻辑114可以改进系统100的操作。这种改进可以来自用于检测网络安全事件的流量数据112的量的减少。流量数据量的这种减少减轻了监视器106的负担，并且提供了在比网络安全事件检测逻辑114更少的数据上操作的检测机制。这样的减少降低了系统的COGS。

数据存储120可以提供用于生成输入/输出示例的数据。在图2的示例中，输入/输出示例可以包括采样的流量数据222作为输入和相应的动作116作为输出。输入/输出示例可以用于训练机器学习模型224A。输入/输出示例可以包括动作116作为机器学习模型224A的监督训练的标签。

流量数据112可以被提供给下采样器220。下采样器220可以对流量数据112执行下采样，以生成采样的流量数据222。下采样是对数据的样本序列执行的数字信号处理(DSP)技术。对样本序列进行下采样会产生序列的近似值，该近似值是通过以较低速率对信号进行采样获得的。下采样可以包括对样本序列进行低通滤波，并通过整数或有理因子对滤波后的信号进行抽取。

机器学习模型224A可以接收采样的流量数据222和作为采样的流量数据222的标签的对应的动作116。采样的流量数据222可以包括数值向量，数值向量包括二进制数、整数或实数或它们的组合的。机器学习模型224可以生成类226A估计。类226A可以是分类的置信向量，针对每个分类，指示采样的流量数据222对应于分类的可能性。分类可以对应于相应的动作116。

分类226A和动作116之间的差异可用于调整机器学习模型224A的参数(例如，神经元的权重，如果机器学习模型224A是神经网络(NN))。权重调整可以帮助机器学习模型224A在给定采样的流量数据222的情况下产生正确的输出(类226A)。关于NN形式的机器学习模型的训练和操作的更多细节在其他地方提供。

图3通过示例示出了用于检测网络安全事件的另一机器学习模型224B的监督训练的系统300的实施例的示图。使用机器学习模型224B代替网络安全事件检测逻辑114可以改进系统100的操作。这种改进可以来自用于检测网络安全事件的流量数据112的量的减少。流量数据量的这种减少减轻了监视器106的负担，并提供了对比网络安全事件检测逻辑114更少的数据进行操作的检测机制。这样的减少降低了系统的COGS。

类似于系统200，数据存储120可以提供用于生成输入/输出示例的数据。输入/输出示例，在图3的示例中可以包括选择的特征336作为输入以及相应的动作116作为输出。输入/输出示例可以用于训练机器学习模型224B。

流量数据112可以提供给特征化器330。特征化器330可以将N维流量数据112投影到M维特征332，其中M<N。特征是现象的单个可测量属性或特征。特征通常是数值。数值特征可以方便地由特征向量描述。实现分类的一种方法是使用线性预测器函数(与感知器相关)，以特征向量作为输入。该方法包括计算特征向量和权重向量之间的标量积，使结果超过阈值的那些观察满足条件。机器学习模型224B可以包括最近邻分类、NN或统计技术，例如贝叶斯方法。

特征332可以被提供给特征选择器334。特征选择器334实施特征选择技术以仅标识和保留特征332的真子集。

特征选择技术有助于从流量数据112中标识相关特征，并从流量数据112中移除不相关或不太重要的特征。不相关或仅部分相关的特征会对机器学习模型224B的性能产生负面影响。特征选择减少了数据过度拟合机器学习模型224B的机会，减少了机器学习模型224B的训练时间，并且提高了机器学习模型224B的准确性。

特征选择技术是用于提出新特征子集的搜索技术与对不同特征子集进行评分的评估措施的组合。暴力特征选择技术测试每个可能的特征子集，找到最小化错误率的子集。这是对空间的详尽搜索，对于大多数特征集合来说在计算上是难以处理的。评估指标的选择严重影响特征选择技术。特征选择技术的示例包括包装方法、嵌入式方法和过滤方法。

包装方法使用预测模型对特征子集进行评分。每个新的子集用于训练一个模型，该模型在保留集上进行测试。计算在该保留集上犯的错误数量(模型的错误率)给出该子集的分数。由于包装方法为每个子集训练一个新模型，因此它们的计算量非常大，但为该特定类型的模型或典型问题提供了性能最佳的特征集。

过滤方法使用代理度量而不是错误率来对特征子集进行评分。代理度量可以快速计算，同时仍然捕获特征集的有用性。常见的度量包括互信息、逐点互信息、皮尔逊积矩相关系数、基于relief的技术和类间/类内距离。过滤方法通常比包装方法计算强度低，但过滤方法产生的特征集不适用于特定类型的预测模型。许多过滤方法提供特征排名，而不是显式的最佳特征子集。过滤方法也被用作包装方法的预处理步骤，允许在更大的问题上使用包装。另一种特征包装方法包括使用递归特征消除技术来重复构建模型并移除具有低权重的特征。

嵌入式方法是一组包罗万象的技术，将特征选择作为模型构建过程的一部分。用于构建线性模型的最小绝对收缩和选择算子(LASSO)方法可以用L1惩罚来惩罚回归系数，将其中许多缩减为零。任何具有非零回归系数的特征都由LASSO方法“选择”。LASSO方法已有改进。嵌入式方法在计算复杂度方面往往介于过滤和包装之间。

机器学习模型224B可以接收选择的特征336。对应的动作116可以作为选择的特征336的标签。机器学习模型224B可以生成类226B估计。类226B可以是分类的置信向量，该置信向量指示，针对选择的特征336的每个分类，选择的特征336对应于分类226B的可能性有多大。分类226B可以对应于相应的动作116。

分类226B和动作116之间的差异可以用于调整机器学习模型224B的参数(例如，神经元的权重，如果机器学习模型224B是NN、统计技术、最近邻分类器等)。权重调整可以帮助机器学习模型224B在给定选择的特征336的情况下产生正确的输出(类226B)。

图4通过示例示出了系统400的实施例的框图，系统400包括相对于图1的系统100的减少的COGS。系统400类似于系统100，其中机器学习模型系统440代替了网络安全事件检测逻辑114。机器学习模型系统440可以包括(i)图2的系统200的下采样器220和机器学习模型224A或(ii)图3的系统300的特征化器330、特征选择器334和机器学习模型224B。此外，系统400可以包括代替监视器106的监视器442。监视器442可以类似于监视器106，但被配置为提供流量数据444，流量数据444包括比流量数据112更少的流量数据类型。这是因为机器学习模型224A，224B操作相对于网络安全事件检测逻辑114的减少的数据集。减少的数据集是下采样或特征选择的结果。例如，如果特征选择技术确定流量数据类型的特征与准确地确定类226A、226B无关并且该流量数据类型由监视器106保留以仅满足该特征，则流量数据类型可以由监视器442传递，而不提供给机器学习模型系统440。

在图中，具有相同附图标记和不同后缀的组件表示与相同附图标记相关联而没有后缀的相同通用组件的不同实例。因此，例如，类226A和226B是通用类226的相应的实例。

监视器106、442、通信集线器104、下采样器220、机器学习模型224A、224B、特征化器330、特征选择器334或其它部件，可以包括软件、固件、硬件或其组合。硬件可以包括一个或多个被配置为实现该部件的操作的电气或电子部件。电气或电子部件可以包括一个或多个晶体管、电阻器、电容器、二极管、电感器、放大器、逻辑门(例如，和、或、异或、缓冲器、取反等)、开关、多路复用器、存储设备、电源、模数转换器、数模转换器、处理电路(例如，中央处理器(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理器(GPU)等)、其组合等。

图5通过示例示出了用于改进的网络安全的方法500的实施例的框图。如图所示的方法500包括：在操作550处，接收流量数据序列；在操作552处，通过网络安全事件检测逻辑生成与流量数据序列对应的动作；在操作554处，基于流量数据序列创建训练数据集；在操作556处，基于训练数据集训练机器学习模型；以及在操作558处，分发经训练的机器学习模型来代替网络安全事件检测逻辑。流量数据序列可以表示由在网络中通信地耦合的设备执行的操作。动作可以与网络中的网络安全事件相对应。训练数据集可以包括作为标签的动作。机器学习模型可以被训练以生成指示网络安全事件可能性的分类。

操作554可以包括将流量数据序列减少到流量数据序列的真子集。减少流量数据序列可以包括对流量数据序列进行下采样。方法500还可以包括确定流量数据序列的特征。可以基于确定的特征进一步执行操作556。减少流量数据序列可以包括对确定的特征执行特征选择，产生选择的特征，选择的特征是确定的特征的真子集。可以基于选择的特征进一步执行操作556。

机器学习模型可以是神经网络、最近邻分类器或贝叶斯分类器。网络安全事件检测逻辑可以对流量数据序列应用人为定义的规则以确定这些动作。操作558可以包括在生成模型的相同或不同机器(或多个机器)上使用机器学习模型。

人工智能(AI)是一个涉及开发决策系统来执行传统上需要活着的参与者(例如人)的认知任务的领域。NN是松散建模于生物神经元的计算结构。通常，NN经由节点(例如神经元)之间的加权连接(例如突触)对信息(如数据或决策)进行编码。现代NN是许多人工智能应用的基础，例如语音识别。

许多NN被表示为对应于建模连接的权重矩阵。NN通过将数据接收到一组输入神经元中来操作，这些神经元通常与其他神经元有许多外发连接。在神经元之间的每次遍历中，相应的权重会修改输入，并根据目标神经元的阈值进行测试。如果加权值超过阈值，则再次对该值进行加权，或通过非线性函数进行变换，并传输到NN图下方的另一个神经元-如果未超过阈值，则通常不会将该值传输到下图神经元，突触连接保持不活动状态。加权和测试的过程将继续进行，直到达到输出神经元；输出神经元的模式和值构成人工神经网络(ANN)处理的结果。

大多数NN的正确操作依赖于准确的权重。然而，NN设计者通常不知道哪些权重适用于给定的应用程序。NN设计者通常选择多个神经元层或层之间的特定连接，包括循环连接。可以通过选择初始权重使用训练过程来确定适当的权重。在一些示例中，可以随机选择初始权重。训练数据被馈送到NN中，并将结果与提供错误指示的目标函数进行比较。错误指示是衡量NN的结果与预期结果相比错误成都的度量。然后使用该错误来纠正权重。经过多次迭代，权重将共同收敛以将操作数据编码到NN中。这个过程可以称为目标函数的优化(例如，成本或损失函数)，从而使成本或损失最小化。

梯度下降技术通常用于执行目标函数优化。梯度(例如，偏导数)是相对于层参数(例如，权重的方面)计算的，以提供方向和可能的校正程度，但不会导致单个校正以将权重设置为“正确”的值。也就是说，经由几次迭代，权重将朝着“正确”或操作上有用的值移动。在一些实施方式中，移动的量或步长是固定的(例如，从迭代到迭代是相同的)。小步长往往需要很长时间才能收敛，而大步长可能围绕正确的值振荡或表现出其他不良行为。可以尝试使用可变步长来提供更快的收敛，而不会出现大步长的缺点。

反向传播是一种通过NN向前馈送训练数据的技术——这里的“向前”意味着数据从输入神经元开始，遵循神经元连接的有向图，直到到达输出神经元——目标函数通过NN向后应用，以校正突触权重。在反向传播过程的每个步骤中，前一步的结果被用来校正权重。因此，输出神经元校正的结果被应用于连接到输出神经元的神经元，依此类推，直到到达输入神经元。反向传播已经成为训练各种NN的流行技术。可以使用任何众所周知的反向传播优化算法，如随机梯度下降(SGD)、自适应性矩估计(Adam)等。

图6是根据一个实施例的包括用于神经网络训练的系统的环境的示例的框图。该系统可以帮助训练根据一个或多个实施例的网络安全解决方案。该系统包括使用处理节点610训练的人工神经网络(ANN)605。处理节点610可以是中央处理器(CPU)、图形处理器(GPU)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、专用集成电路(ASIC)或其他处理电路。在示例中，可以采用多个处理节点来训练ANN 605的不同层，甚至是层内的不同节点607。因此，处理节点610的集合被布置来执行ANN 605的训练。

处理节点610的集合被布置为接收用于ANN 605的训练集615。ANN 605包括分层布置的节点607的集合(图示为节点607的行)和节点集合中的节点之间的节点间权重608(例如，参数)的集合。在示例中，训练集615是完整的训练集的子集。这里，该子集可以使具有有限存储资源的处理节点能够参与训练ANN 605。

训练数据可以包括代表一个域的多个数值，例如词、符号、其他词性等，一旦ANN605被训练，要分类的训练或输入617的每个值被提供给ANN 605的第一层或输入层中的对应节点607。这些值通过层传播，并由目标函数改变。

如上所述，处理节点的集合被布置为训练神经网络以创建经训练的神经网络。一旦经训练，例如,输入到ANN中的数据将产生有效的分类620(例如，输入数据617将被分配到类别中)。由处理节点607的集合执行的训练是迭代的。在示例中，训练神经网络的每个迭代在ANN 605的层之间独立地执行。因此，两个不同的层可以由处理节点的集合的不同成员并行处理。在示例中，ANN 605的不同层在不同的硬件上训练。处理节点的集合的不同成员中的成员可以位于不同的封装、外壳、计算机、基于云的资源等中。在示例中，训练的每个迭代在节点的集合中的节点之间独立地执行。该示例是附加的并行化，其中各个节点607(例如，神经元)被独立地训练。在示例中，节点在不同的硬件上进行训练。

图7通过示例示出了实现一个或多个实施例的机器700(例如，计算机系统)的框图。机器700可以实现用于改进云资源安全性的技术。客户端102A-102C、通信集线器104、服务器108、存储单元110、监视器106、442、机器学习模型系统440或其组件可以包括机器600的组件中的一个或多个。客户端102A-102C、通信集线器104、服务器108、存储单元110、监视器106、442、机器学习模型系统440、方法500或其组件或操作中的一个或多个可以至少部分地使用机器700的组件来实现。一个示例机器700(以计算机的形式)可以包括处理单元702、存储器703、可移动存储器710和不可移动存储器712。尽管示例计算设备被图示和描述为机器700，但是在不同的实施例中计算设备可以是不同的形式。例如，计算设备可以代之以智能手机、平板计算机、智能手表或包括与关于图7图示和描述的相同或类似的元件的其他计算设备。诸如智能手机、平板计算机和智能手表的这样设备通常被统称为移动设备。此外，尽管各种数据存储元件被图示为机器700的一部分，但是存储还可以或备选地包括可经由网络(例如因特网)访问的基于云的存储。

存储器703可以包括易失性存储器714和非易失性存储器708。机器700可以包括或可以访问包括多种计算机可读介质的计算环境，例如易失性存储器714和非易失性存储器708、可移动存储器710和不可移动存储器712。计算机存储器包括随机存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM)、闪存存储器或其他存储器技术、光盘只读存储器(CD ROM)、数字多功能盘(DVD)或其他光盘存储器、盒式磁带、磁带、磁盘存储器或其他能够存储用于执行以执行本文所述功能的计算机可读指令的磁存储设备。

机器700可以包括或可以访问包括输入706、输出704和通信连接716的计算环境。输出704可以包括显示设备，例如触摸屏，其也可以用作输入设备。输入706可以包括触摸屏、触摸板、鼠标、键盘、相机、一个或多个设备专用按钮、集成在机器700内或经由有线或无线数据连接耦合到机器700的一个或多个传感器、以及其他输入设备中的一个或多个。计算机可以使用通信连接在联网环境中操作，以连接到一个或多个远程计算机，例如数据库服务器，包括基于云的服务器和存储器。远程计算机可以包括个人计算机(PC)、服务器、路由器、网络PC、对等设备或其他公共网络节点等。通信连接可以包括局域网(LAN)、广域网(WAN)、蜂窝、电气和电子工程师协会(IEEE)802.11(Wi-Fi)、蓝牙或其他网络。

存储在计算机可读存储设备上的计算机可读指令可由机器700的处理单元702(有时称为处理电路)执行。硬盘驱动器、CD-ROM和RAM是包括诸如存储设备的非暂时性计算机可读介质的物品的一些示例。例如，计算机程序718可以用于使处理单元702执行本文描述的一个或多个方法或算法。

在一些实施例中，本文描述的操作、功能或算法可以用软件实现。软件可以包括存储在计算机或其他机器可读介质或存储设备上的计算机可执行指令，例如一个或多个非暂时性存储器(例如，非暂时性机器可读介质)或其他类型的基于硬件的存储设备，无论是本地的还是联网的。此外，这样的功能可以对应于子系统，子系统可以是软件、硬件、固件或其组合。可以根据需要在一个或多个子系统中执行多个功能，所描述的实施例仅仅是示例。软件可以在数字信号处理器、ASIC、微处理器、中央处理器(CPU)、图形处理器(GPU)、现场可编程门阵列(FPGA)或在计算机系统上运行的其他类型的处理器上执行，例如个人计算机、服务器或其他计算机系统，将这样的计算机系统转换为专门编程的机器。功能或算法可以使用处理电路来实现，例如可以包括电气和/或电子元件(例如，一个或多个晶体管、电阻器、电容器、电感器、放大器、调制器、解调器、天线、无线电、调节器、二极管、振荡器、多路复用器、逻辑门、缓冲器、高速缓存器、存储器、GPU、CPU、现场可编程门阵列(FPGA)等)。

附加说明和示例

示例1可以包括用于网络安全的方法，该方法包括接收流量数据序列，流量数据序列表示由在网络中通信地耦合的设备执行的操作，通过网络安全事件检测逻辑生成与流量数据序列对应的动作，该动作与网络中的网络安全事件相对应，基于流量数据序列创建训练数据集，训练数据集包括作为标签的动作，基于训练数据集训练机器学习模型，以生成指示网络安全事件的可能性的分类，以及分发经训练的机器学习模型来代替所述网络安全事件检测逻辑。

在示例2中，示例1还可以包括，其中创建训练数据集包括将流量数据序列减少到流量数据序列的真子集。

在示例3中，示例2还可以包括，其中减少流量数据序列包括对流量数据序列进行下采样。

在示例4中，示例2-3中的至少一个还可以包括确定流量数据序列的特征，并且其中训练机器学习模型是基于确定的特征来执行的。

在示例5中，示例4还可以包括，其中减少流量数据序列包括对确定的特征执行特征选择，产生选择的特征，选择的特征是确定的特征的真子集，以及其中训练机器学习模型是基于选择的特征来执行的。

在示例6中，示例1-5中的至少一个还可以包括，其中机器学习模型是神经网络、最近邻分类器或者贝叶斯分类器。

在示例7中，示例1-6中的至少一个还可以包括，其中网络安全事件检测逻辑对流量数据序列应用人为定义的规则以确定动作。

示例8可以包括设备，该设备用于执行示例1-7中至少一个的方法。

示例9可以包括非暂时性机器可读介质，包括指令，该指令当由机器执行时，使机器执行包括示例1-7中的至少一个的方法的操作。

虽然上面已经详细描述了几个实施例，但是其他修改是可能的。例如，图中描绘的逻辑流程不需要所示的顺序，或者顺序次序，以实现期望的结果。可以从所描述的流程中提供其他步骤，或者可以消除步骤，并且可以将其他组件添加到所描述的系统中，或者从所描述的系统中移除。其他实施例可以在以下权利要求的范围内。

Claims

1.一种网络安全事件检测方法，包括：

接收流量数据序列，所述流量数据序列表示由在网络中通信地耦合的设备执行的操作；

通过网络安全事件检测逻辑生成与所述流量数据序列对应的动作，所述动作与所述网络中的网络安全事件相对应；

基于所述流量数据序列创建训练数据集，所述训练数据集包括作为标签的所述动作；

基于所述训练数据集训练机器学习模型，以生成指示所述网络安全事件的可能性的分类；以及

分发经训练的机器学习模型来代替所述网络安全事件检测逻辑。

2.根据权利要求1所述的方法，其中创建所述训练数据集包括将所述流量数据序列减少到所述流量数据序列的真子集。

3.根据权利要求2所述的方法，其中减少所述流量数据序列包括对所述流量数据序列进行下采样。

4.根据权利要求2所述的方法，还包括：

确定所述流量数据序列的特征；并且

其中训练所述机器学习模型是基于确定的特征来执行的。

5.根据权利要求4所述的方法，其中：

减少所述流量数据序列包括对所述确定的特征执行特征选择，产生选择的特征，所述选择的特征是所述确定的特征的真子集；以及

训练所述机器学习模型是基于所述选择的特征来执行的。

6.根据权利要求1所述的方法，其中所述机器学习模型是神经网络、最近邻分类器或者贝叶斯分类器。

7.根据权利要求1所述的方法，其中所述网络安全事件检测逻辑对所述流量数据序列应用人为定义的规则以确定所述动作。

8.一种计算设备，包括：

处理电路；

耦合到所述处理电路的存储器，所述存储器包括指令，所述指令当由所述处理电路执行时，使所述处理电路执行用于网络安全事件检测的操作，所述操作包括：

9.根据权利要求8所述的设备，其中创建所述训练数据集包括将所述流量数据序列减少到所述流量数据序列的真子集。

10.根据权利要求9所述的设备，其中减少所述流量数据序列包括对所述流量数据序列进行下采样。

11.根据权利要求9所述的设备，其中所述操作还包括：

确定所述流量数据序列的特征；并且

其中训练所述机器学习模型是基于确定的特征来执行的。

12.根据权利要求11所述的设备，其中：

训练所述机器学习模型是基于所述选择的特征来执行的。

13.根据权利要求9所述的设备，其中所述机器学习模型是神经网络、最近邻分类器或者贝叶斯分类器。

14.根据权利要求9所述的设备，其中所述网络安全事件检测逻辑对所述流量数据序列应用人为定义的规则以确定所述动作。

15.一种机器可读介质，包括指令，所述指令当由机器执行时，使所述机器执行如权利要求1-7中的一项所述的方法。