CN110717551B

CN110717551B - 流量识别模型的训练方法、装置及电子设备

Info

Publication number: CN110717551B
Application number: CN201910992658.8A
Authority: CN
Inventors: 张大松; 姜洪朝
Original assignee: 6th Research Institute of China Electronics Corp
Current assignee: 6th Research Institute of China Electronics Corp
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2023-01-20
Anticipated expiration: 2039-10-18
Also published as: CN110717551A

Abstract

本发明实施例提出一种流量识别模型的训练方法、装置及电子设备，涉及工业控制技术领域。其中，上述流量识别模型的训练方法包括获取样本流量集合；所述样本流量集合包括侦测到的多个协议流量的样本特征信息；依据所述样本流量集合中的样本特征信息，动态确定聚类中心的第一数量，以便依据得到的所述第一数量将所述样本流量集合划分为多个样本聚类；利用得到的所述样本聚类，对预设的机器学习模型进行训练，得到所述流量识别模型。如此，即使不具有先验知识，也能够自动、准确地对样本流量集合内的样本分类。从而，提高得到的流量识别模型的识别精度。

Description

流量识别模型的训练方法、装置及电子设备

技术领域

本发明涉及工业控制技术领域，具体而言，涉及一种流量识别模型的训练方法、装置及电子设备。

背景技术

随着工业控制领域的网络化和信息化的推进，工控网络系统越来越庞大，开放性越来越高。然而，工控网络系统对数据传输的质量有较高的要求，对病毒等影响系统安全的事件极其敏感。因此，工控网络安全成为了工业控制领域的严峻的挑战。

对工控协议流量是否正常的识别是实现保障工控网络安全的第一步。基于机器学习的流量识别是极具前景的流量识别方法。但是，目前为了确保机器学习的准确性，需要大量的样本对流量识别模型进行训练。训练前需要人为指定样本类别数量，对于表征新出现且少量的异常流量的样本，由于缺乏先验知识，使得对样本分类不够准确，导致训练得到的流量识别模型在实际应用中准确性不够理想。

发明内容

有鉴于此，本发明的目的在于提供一种流量识别模型的训练方法、装置及电子设备。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供一种流量识别模型的训练方法，所述方法包括：获取样本流量集合，其中，所述样本流量集合包括侦测到的多个协议流量的样本特征信息；依据所述样本流量集合中的样本特征信息，动态确定聚类中心的第一数量，以便依据得到的所述第一数量将所述样本流量集合划分为多个样本聚类；利用得到的所述样本聚类，对预设的机器学习模型进行训练，得到所述流量识别模型。

第二方面，本发明实施例提供一种流量识别模型的训练装置，所述装置包括：获取模块，用于获取样本流量集合；所述样本流量集合包括侦测到的多个协议流量的样本特征信息；处理模块，用于依据所述样本流量集合中的样本特征信息，动态确定聚类中心的第一数量，以便依据得到的所述第一数量将所述样本流量集合划分为多个样本聚类；训练模块，用于利用得到的所述样本聚类，对预设的机器学习模型进行训练，得到所述流量识别模型。

第三方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现前述实施方式任一所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的方法。

与现有技术相比，本发明实施例提供的流量识别模型的训练方法，通过依据获取的样本流量集合中的样本特征信息，动态确定聚类中心的第一数量，以便依据第一数量将所述样本流量集合划分为多个样本聚类。通过实现自适应地确定聚类数量，确保对样本流量集合的准确聚类。然后，利用聚类得到的样本聚类，对预设的机器学习模型进行训练，得到流量识别模型。如此，即使不具有先验知识，也能够自动、准确地对样本流量集合内的样本分类。从而，提高得到的流量识别模型的识别精度。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的电子设备的示意图。

图2示出了本发明实施例提供的流量识别模型的训练方法的步骤流程图。

图3为图2中示出的步骤S102的子步骤流程图。

图4示出了本发明实施例提供的流量识别模型的训练装置的示意图。

图标：100-电子设备；110-存储器；120-处理器；130-通信模块；200-流量识别模型的训练装置；201-获取模块；202-处理模块；203-训练模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

随着工业控制领域的网络化和信息化的推进，工控网络系统越来越庞大，开放性越来越高。然而，工控网络系统对数据传输的质量有较高的要求，对病毒等影响系统安全的事件极其敏感。针对工控网络系统中流量是否正常的识别是保障工控网络安全的关键。

相关技术中，识别流量是否正常主要有两类方法：基于统计分析的方法和基于机器学习的方法。

上述基于统计分析的方法对安全漏洞或者网络攻击的先验知识要求较少，但是对事件发生的时间顺序不够敏感，漏报和误报率也较高，而且要满足训练样本较为纯净、数量足够多的严格条件。在实际的工控网络环境中很难获取纯净的大训练样本，因此该方法在应用中受到很大限制。

上述机器学习方法主要是采用监督学习或者半监督学习，但是无论是监督学习还是半监督学习均需要采用大量被标记的训练样本进行训练，学习代价较大，而且无法识别未知类别的协议。

为了解决相关技术存在的问题，本发明实施例提供了一种流量识别模型的训练方法、装置及电子设备。

可选地，上述流量识别模型的训练方法及装置可应用于图1的电子设备100。电子设备100可以是接入工控网络系统中的设备，其可以实时监测工控网络系统中传输的协议流量。

请参照图1，是电子设备100的方框示意图。所述电子设备100包括存储器110、处理器120及通信模块130。所述存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器110用于存储程序或者数据。比如，可以用于存储预先选择的机器学习模型、训练得到的流量识别模型及侦测到的流量信息。所述存储器110可以是，但不限于，随机存取存储器110(Random Access Memory，RAM)，只读存储器110(Read Only Memory，ROM)，可编程只读存储器110(Programmable Read-Only Memory，PROM)，可擦除只读存储器110(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器110(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器120用于读/写存储器110中存储的数据或程序，并执行相应地功能。

通信模块130用于通过所述网络建立所述电子设备100与其它通信终端之间的通信连接，并用于通过所述网络收发数据。

应当理解的是，图1所示的结构仅为电子设备100的结构示意图，所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

第一实施例

请参考图2，图2示出了本发明实施例提供的一种流量识别模型的训练方法，上述流量识别模型的训练方法应用于电子设备100。如图2所示，上述流量识别模型的训练方法的步骤包括：

步骤S101，获取样本流量集合。

上述样本流量集合包括侦测到的多个协议流量的样本特征信息。可以理解地，上述电子设备100接入工业控制网络中，用于监测工业控制网络中实时的协议流量，并实时地获取工业控制网络中表征该协议流量的流量信息。也就是，样本流量集合中的样本可以直接来自实际运行的工控网络系统，无需人工赋予标识。

在本发明实施例中，上述电子设备100可以将实时获得的流量信息进行存储。作为一种实施方式，在流量识别模型还未投入使用前，上述步骤S101可以是：从存储的每一流量信息中提取其特征参数作为样本特征信息，并基于得到的样本特征信息构建样本流量集合。上述特征参数可以是从流量数据中获取的表征工控协议流量至少一个维度的数据。比如，上述特征参数可以是IP地址、端口号、发送时间、时延、平均包间隔、包大小、报文类型、报文序列等。

步骤S102，依据样本流量集合中的样本特征信息，动态确定聚类中心的第一数量。

上述聚类中心为对样本特征信息进行聚类后，得到的样本聚类的中心数据。

可以理解地，相关技术中需要在对样本流量集合进行聚类前已基于先验知识确定聚类中心的数量。但是，在工控网络系统中异常流量作为突发的事件，一方面样本量少，另一方面技术人员面对首次出现的异常流量缺乏先验知识。因此，相关技术中利用基于先验知识确定的聚类中心进行聚类，将影响到对突发异常流量的分类，从而，影响训练得到的流量识别模型的识别精度。

为了解决相关技术存在的问题，本发明实施例中，在对样本流量集合进行聚类时，结合样本流量集合中的样本特征信息，动态确定聚类中心的第一数量。也即，自适应地确定适合样本流量集合的最佳的聚类中心的数量。

可选地，如图3所示，上述步骤S102可以包括以下步骤：

步骤S102-1，将样本流量集合划分为待处理样本集和未标记样本集。

在本发明实施例中，可以是从样本流量集合中随机选出少量的样本特征信息作为待处理样本集内，并将样本流量集合中剩下的样本特征信息作为未标记样本集。可以理解地，当要增加新的样本特征信息到样本流量集合时，可以将该新增加的样本特征信息将入未标样本集中。

步骤S102-2，依据预设的初始聚类中心数量，对待处理样本集中的样本特征信息进行聚类，并评估对应的聚类质量指标。

上述初始聚类中心数量可以是检查具有少量样本特征信息的待处理样本集后初步估计的值；上述初始聚类中心数量也可以是预先设置的值。上述聚类质量指标可以是用于评估聚类结果的聚类质量的数值。可以理解地，聚类质量越高代表聚类结果越准确。

可选地，上述聚类质量指标可以通过以下方式得到：计算待处理样本集中每一个样本特征信息与该样本特征信息所属的样本聚类的聚类中心之间的差异值；再计算得到的差异值之间的平方和，以作为聚类质量指标。可以理解地，聚类质量指标对应的数值越低，表征聚类质量越高。可以理解地，上述差异值可以是将样本特征信息与聚类中心映射到同一指定平面后，二者之间的距离值。

在本发明实施例中，上述依据预设的初始聚类中心数量，对待处理样本集中的样本特征信息进行聚类的步骤可以包括：

1)按照初始聚类中心数量，将待处理样本集随机分为第二数量的初始样本聚类。

在本发明实施例中，上述第二数量为初始聚类中心数量。每一个初始样本聚类对应一个聚类中心，每一个初始样本聚类包括至少一个样本特征信息。

2)计算每个初始样本聚类的均值，作为聚类中心。

在本发明实施例中，上述初始样本聚类的均值可以是该初始样本聚类中的多个样本特征信息的均值。如此便得到第二数量的聚类中心。

3)依据样本特征信息与聚类中心之间的差异值，将待处理样本集划分为第二数量的所述样本聚类。

在本发明实施例中，基于确定的第二数量的聚类中心，依据聚类中的就近原则，重新对待处理样本集进行聚类。

在一些实施例中，对待处理样本集中的样本特征信息进行聚类，得到第二数量的样本聚类之后。基于本次聚类后得到的第二数量的样本聚类，评估对应的聚类质量指标。

步骤S102-3，逐次将未标记样本集中的一样本特征信息作为待定聚类中心划入待处理样本集。

在本发明实施例中，每一次将一个样本特征信息从未标记样本集中删除并放入待处理样本集中。并将新加入待处理样本集的样本特征信息作为待定聚类中心。可以理解地，上述待定聚类中心是临时的聚类中心，将样本特征信息作为临时的聚类中心是检验该样本特征信息是否属于新出现的未知类别的协议流量的流量数据。

步骤S102-4，基于每次划入待处理样本集的待定聚类中心，对待处理样本集重新进行聚类，并重新评估对应的所述聚类质量指标。

在本发明实施例中，将待定聚类中心加入后，依然按照就近聚类原则，重新对待处理样本集中的样本特征信息进行聚类。作为一种实施方式，可以是将现有的样本聚类中存在的目标样本特征信息暂时划出，与待定聚类中心组成临时的样本聚类。上述目标样本特征信息可以是与所属的样本聚类的聚类中心之间的差异值大于与所述待定聚类中心之间的所述差异值的样本特征信息。

比如，可以从相邻上一次对待处理样本集进行聚类得到样本聚类中寻找目标样本特征信息。将目标样本特征信息从所属的样本聚类中去除。将目标样本特征信息与待定聚类中心组成新增的样本聚类，以完成对待处理样本集的重新聚类。可以理解地，重新聚类后得到的样本聚类的数量比相邻上一次聚类得到的样本聚类的数量多一。重新聚类后，基于新得到的样本聚类，重新评估重新聚类后聚类质量指标。

步骤S102-5，依据最新得到的聚类质量指标及相邻上一次评估得到的聚类质量指标，动态确定聚类中心的第一数量。

在本发明实施例中，上述最新得到的聚类质量指标可以理解为流程进入步骤S102-5前对待处理样本集进行聚类后，对聚类结果进行评估得到的用于表征聚类质量的值。比如，如果第一次将待定聚类中心到待处理样本集，那么最新得到的聚类质量指标为本次流程经过步骤S102-4得到的聚类质量指标，相邻上一次评估得到的聚类质量指标为步骤S102-2得到的聚类质量指标；如果非第一次将待定聚类中心到待处理样本集，那么最新得到的聚类质量指标为本次流程经过步骤S102-4得到的聚类质量指标，相邻上一次评估得到的聚类质量指标为相邻上一次流程经过步骤S102-4得到的聚类质量指标。

通过比较相邻两次聚类质量指标，以判断新增的聚类中心是否有提高聚类质量，从而确定新增加的待定聚类中心是否能够优化聚类。如此，可以逐步得到最优的聚类中心数量。可选地，上述步骤S102-5可以包括以下步骤：

(1)将聚类质量指标与相邻上一次评估得到的聚类质量指标进行比较。

(2)再依据比较结果，判定是否将待定聚类中心作为待处理样本集的新增的聚类中心。可以理解地，通过将步骤S102-4得到的聚类质量指标与上一次聚类得到的聚类质量指标进行比较，可以判断出待处理样本集加入了待定聚类中心后是否聚类效果得到优化，进而判定是否将待定聚类中心确定为待处理样本集中真正的聚类中心。

在一些实施例中，若比较结果为聚类质量指标小于相邻上一次评估得到的聚类质量指标，则判定将待定聚类中心作为新增的聚类中心。若比较结果为聚类质量指标不小于相邻上一次评估得到的聚类质量指标，则判定不将待定聚类中心作为聚类中心，也即，判定将待定聚类中心作为非聚类中心。

上述非聚类中心可以是待处理样本集中普通的样本特征信息。当然，为了避免待定聚类中心为异常协议流量时，待定聚类中心在重新聚类时被错误地划分到正常的样本聚类中，影响样本聚类划分的准确性。上述非聚类中心还可以是不属于待处理样本集的样本特征信息。也即，判断待定聚类中心属于异常协议流量时，还需将待定聚类中心从样本特征信息中删除。

可选地，判断待定聚类中心是否属于异常协议流量的方式可以是根据待定聚类中心所属的样本聚类是否为单点孤立聚类进行判断。比如，判定将所述待定聚类中心作为非聚类中心的步骤包括：当待定聚类中心所在的样本聚类不是单点孤立聚类时，判定将待定聚类中心作为待处理样本集中普通的样本特征信息；当待定聚类中心所在的样本聚类是单点孤立聚类时，判定将待定聚类中心作为不属于待处理样本集的样本特征信息，并将待定聚类中心从待处理样本集中移除。

可以理解地，异常协议流量在工控网络系统中的出现具有突发性和偶然性，也就是，异常协议流量作为个例，其样本量少且与正常协议流量之间的特征差距较大。那么，将异常协议流量对应的样本特征信息作为待定聚类中心放入待处理样本集中进行聚类时，难以和其他样本特征信息组成聚类。因此，可以通过检验待定聚类中心所属的样本聚类是否为单点孤立聚类判断待定聚类中心是否属于异常协议流量。

(3)依据判断结果更新第一数量。

可以理解地，判定将待定聚类中心作为新增的聚类中心，待处理样本集对应的聚类中心的数量加1。也就是，如果此时是第一次更新第一数量，那么在第二数量的基础上加1。如果此时不是第一次更新第一数量，那么相较于上一次更新后的第一数量加1。

若判定将待定聚类中心作为非聚类中心，那么待处理样本集的聚类中心的数量不变。也就是，如果此时是第一次更新第一数量，则将第二数量作为第一数量。如果此时并非第一次更新第一数量，则相较于上一次更新后的第一数量保持不变。

(4)第一数量更新之后，以更新后的第一数量的聚类中心对待处理样本集重新聚类，并评估对应的聚类质量指标。在评估了重新聚类后的聚类质量指标后，若未标定样本集中还存在样本特征信息，则流程回到步骤S102-3。否则，流程进入步骤S102-6。可以理解地，通过不断地将未标记样本集中的样本特征信息加入待处理样本集中作为待定聚类中心，并不断进行重分配，能够使聚类中心会保持稳定收敛，一直到聚类质量指标达到最小，也就是得到聚类质量最高，从而确定出最佳的第一数量。

在一些实施例中，重新聚类时，如果第一数量相较于更新前增加，则将本次的待定聚类中心确定为待处理样本集的聚类中心。在一些实施例中，为了避免不必要的计算，如果第一数量相较于更新前增加，可以直接将步骤S102-4得到的样本聚类作为重新聚类后得到的聚类结果。

在一些实施例中，重新聚类时，如果第一数量相较于更新前未变化，则将本次作为待定聚类中心的样本特征信息确定为待处理样本集中的非聚类中心进行聚类。

步骤S102-6，基于得到的第一数量的聚类中心，将样本流量集合划分为多个样本聚类。

在本发明实施例中，上述多个样本聚类可以包括正常样本聚类和异常样本聚类。上述正常样本聚类可以是将待处理样本集进行聚类得到的第一数量的聚类样本。上述异常样本聚类为判断属于异常协议流量的单点孤立聚类。

可选地，上述步骤S102-6可以包括：将从待处理样本集中去除的待定聚类中心作为异常样本聚类。基于最终得到的第一数量对待处理样本集聚类，得到第一数量的所述正常样本聚类。可选地，上述最终得到的第一数量为未标记样本集中不存在样本特征信息后，更新得到的第一数量。

步骤S103，利用得到的样本聚类，对预设的机器学习模型进行训练，得到流量识别模型。

在本发明实施例中，上述机器学习模型可以是单类支持向量机(OCSVM)。上述步骤S102自适应地确定出聚类中心的第一数量后，则能够准确地对样本流量集合进行聚类，特别是，能够确保各类异常协议流量被聚类到单独的样本聚类。同时，异常协议流量由于样本量且与正常协议流量之间特征差异大而难以聚类到同一样本聚类中，而正常协议流量样本量大且特征相近。因此，异常协议流量的样本特征信息通常会被聚类到单点孤立聚类中，而正常协议流量的样本特征信息则不会被聚类到单点孤立聚类中。如此，无须人工标记各个样本聚类，仅需根据各个样本聚类中样本特征信息的数量，则可以区分正常协议流量和异常协议流量。利用无人工标签的样本聚类对机器学习模型进行训练，不仅确保得到的流量识别模型能够用于对正常协议流量的准确识别，还解决了对先验知识的依赖的问题。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种流量识别模型的训练装置200的实现方式，可选地，该流量识别模型的训练装置200可以采用上述图1所示的电子设备100的器件结构。进一步地，请参阅图4，图4为本发明实施例提供的一种流量识别模型的训练装置200的功能模块图。需要说明的是，本实施例所提供的流量识别模型的训练装置200，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该流量识别模型的训练装置200包括：获取模块201、处理模块202及训练模块203。

获取模块201，用于获取样本流量集合；所述样本流量集合包括侦测到的多个协议流量的样本特征信息。

在本发明实施例中，上述步骤S101可以由上述获取模块201执行。

处理模块202，用于依据所述样本流量集合中的样本特征信息，动态确定聚类中心的第一数量，以便依据得到的所述第一数量将所述样本流量集合划分为多个样本聚类。

在本发明实施例中，上述步骤S102可以由上述处理模块202执行。

训练模块203，用于利用得到的所述样本聚类，对预设的机器学习模型进行训练，得到所述流量识别模型。

在本发明实施例中，上述步骤S103可以由上述处理模块202执行。

可选地，上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器110中或固化于该电子设备100的操作系统(Operating System，OS)中，并可由图1中的处理器120执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器110中。

综上所述，本发明实施例提供了流量识别模型的训练方法、装置及电子设备。其中，上述流量识别模型的训练方法包括获取样本流量集合；所述样本流量集合包括侦测到的多个协议流量的样本特征信息；依据所述样本流量集合中的样本特征信息，动态确定聚类中心的第一数量，以便依据得到的所述第一数量将所述样本流量集合划分为多个样本聚类；利用得到的所述样本聚类，对预设的机器学习模型进行训练，得到所述流量识别模型。通过自适应最优化的方法找到最佳的聚类数量，提高聚类的准确性，并结合OCSVM算法，能够精准识别比率极少的异常流量协议。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种流量识别模型的训练方法，其特征在于，所述方法包括：

获取样本流量集合；所述样本流量集合包括侦测到的多个协议流量的样本特征信息；

依据所述样本流量集合中的样本特征信息，动态确定聚类中心的第一数量，以便依据得到的所述第一数量将所述样本流量集合划分为多个样本聚类；

利用得到的所述样本聚类，对预设的机器学习模型进行训练，得到所述流量识别模型；

其中，所述依据所述样本流量集合中的样本特征信息，动态确定聚类中心的第一数量的步骤包括：

将所述样本流量集合划分为待处理样本集和未标记样本集；

依据预设的初始聚类中心数量，对所述待处理样本集中的所述样本特征信息进行聚类，并评估对应的聚类质量指标；

逐次将所述未标记样本集中的每一所述样本特征信息作为待定聚类中心划入所述待处理样本集；

基于每次划入所述待处理样本集的所述待定聚类中心，对所述待处理样本集重新进行聚类，并重新评估对应的所述聚类质量指标；

依据最新得到的所述聚类质量指标及相邻上一次评估得到的聚类质量指标，动态确定所述聚类中心的第一数量，直到所述未标记样本集中不存在所述样本特征信息。

2.根据权利要求1所述的流量识别模型的训练方法，其特征在于，所述依据最新得到的所述聚类质量指标及相邻上一次评估得到的聚类质量指标，动态确定所述聚类中心的第一数量的步骤包括：

将所述聚类质量指标与相邻上一次评估得到的聚类质量指标进行比较，得到比较结果；

依据所述比较结果，判定是否将所述待定聚类中心作为新增的所述聚类中心，以得到判断结果；

依据所述判断结果更新所述第一数量，以便基于更新后的所述第一数量对所述待处理样本集重新聚类，并评估对应的所述聚类质量指标。

3.根据权利要求2所述的流量识别模型的训练方法，其特征在于，所述判定是否将所述待定聚类中心作为新增的所述聚类中心的步骤包括：

若所述比较结果为所述聚类质量指标小于所述相邻上一次评估得到的聚类质量指标，则判定将所述待定聚类中心作为新增的所述聚类中心；

若所述比较结果为所述聚类质量指标不小于所述相邻上一次评估得到的聚类质量指标，则判定将所述待定聚类中心作为非聚类中心；所述非聚类中心包括所述待处理样本集中普通的样本特征信息及不属于所述待处理样本集的样本特征信息。

4.根据权利要求3所述的流量识别模型的训练方法，其特征在于，所述多个样本聚类包括正常样本聚类和异常样本聚类；

所述判定将所述待定聚类中心作为所述非聚类中心的步骤包括：

当所述待定聚类中心所在的所述样本聚类不是单点孤立聚类时，判定将所述待定聚类中心作为所述待处理样本集中普通的样本特征信息；

当所述待定聚类中心所在的所述样本聚类是单点孤立聚类时，判定将所述待定聚类中心作为不属于所述待处理样本集的样本特征信息，并将所述待定聚类中心从所述待处理样本集中移除；

所述依据所述第一数量将所述样本流量集合划分为多个样本聚类的步骤包括：将从所述待处理样本集中移除的所述待定聚类中心作为所述异常样本聚类；基于更新后的所述第一数量对所述待处理样本集聚类，得到所述第一数量的所述正常样本聚类。

5.根据权利要求1所述的流量识别模型的训练方法，其特征在于，所述依据预设的初始聚类中心数量，对所述待处理样本集中的所述样本特征信息进行聚类的步骤包括：

按照所述初始聚类中心数量，将所述待处理样本集随机分为第二数量的初始样本聚类；所述第二数量为所述初始聚类中心数量；

计算每个所述初始样本聚类的均值，作为所述聚类中心；

依据所述样本特征信息与所述聚类中心之间的差异值，将所述待处理样本集划分为所述第二数量的所述样本聚类。

6.根据权利要求1所述的流量识别模型的训练方法，其特征在于，所述基于每次划入所述待处理样本集的所述待定聚类中心，对所述待处理样本集重新进行聚类的步骤包括：

从相邻上一次对所述待处理样本集进行聚类得到所述样本聚类中寻找目标样本特征信息；其中，所述目标样本特征信息与所属的所述样本聚类的聚类中心之间的差异值大于所述目标样本特征信息与所述待定聚类中心之间的所述差异值；

将所述目标样本特征信息从所属的所述样本聚类中去除；

将所述目标样本特征信息与所述待定聚类中心组成新增的所述样本聚类，以完成对所述待处理样本集的重新聚类。

7.一种流量识别模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取样本流量集合；所述样本流量集合包括侦测到的多个协议流量的样本特征信息；

处理模块，用于依据所述样本流量集合中的样本特征信息，动态确定聚类中心的第一数量，以便依据得到的所述第一数量将所述样本流量集合划分为多个样本聚类；

训练模块，用于利用得到的所述样本聚类，对预设的机器学习模型进行训练，得到所述流量识别模型；

其中，所述处理模块依据所述样本流量集合中的样本特征信息，动态确定聚类中心的第一数量的步骤包括：

将所述样本流量集合划分为待处理样本集和未标记样本集；

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现权利要求1-6任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。