CN109214175A

CN109214175A - 基于样本特征训练分类器的方法、装置及存储介质

Info

Publication number: CN109214175A
Application number: CN201810809724.9A
Authority: CN
Inventors: 魏金侠; 龙春; 赵静; 杨帆
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2019-01-15
Anticipated expiration: 2038-07-23
Also published as: CN109214175B

Abstract

本发明实施例公开了一种基于样本特征训练分类器的方法、装置及存储介质，涉及网络安全领域。本发明的方法包括：获取用于训练分类器的样本数据集；在所述样本数据集中选择N个样本数据，作为目标样本数据集；其中，N为小于M的正整数，M为所述样本数据集中样本数据的总数；通过信息增益和相关性排序，选取所述目标样本数据集中的各样本数据的特征；对各所述样本特征进行特征加权变换，得到分别对应的样本加权特征；基于各所述样本加权特征，对所述分类器进行训练。本发明能够提高分类器性能。

Description

基于样本特征训练分类器的方法、装置及存储介质

技术领域

本发明涉及网络安全领域，尤其涉及一种基于样本特征训练分类器的方法、装置及存储介质。

背景技术

现有的入侵检测方法大多是直接针对全部样本数据，输入分类器进行检测。但在实际的网络流量数据中，由于数据集规模庞大，导致利用全部数据集建立入侵检测模型降低了分类器的性能。

发明内容

本发明的实施例提供一种基于样本特征训练分类器的方法、装置及存储介质，能够解决现有入侵检测模型中分类器性能较低的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供一种基于样本特征训练分类器的方法，包括：

获取用于训练分类器的样本数据集；

在所述样本数据集中选择N个样本数据，作为目标样本数据集；其中，N为小于M的正整数，M为所述样本数据集中样本数据的总数；

通过信息增益和相关性排序，选取所述目标样本数据集中的各样本数据的样本特征；

对各所述样本特征进行特征加权变换，得到分别对应的样本加权特征；

基于各所述样本加权特征，对所述分类器进行训练。

结合第一方面，在第一方面的第一种可能的实现方式中，所述在所述样本数据集中选择N个样本数据，作为目标样本数据集之前，还包括：

按照预设规则确定所述目标样本数据集的样本数量N；其中，所述预设规则包括按照预设数量确定所述样本数量N，或按照预设比例确定所述样本数量N，或按照历史选择样本记录确定所述样本数量N；

所述在所述样本数据集中选择N个样本数据，作为目标样本数据集，包括：

在所述样本数据集中随机选择N个样本数据，作为所述目标样本数据集；或，

在所述样本数据集中按照每预设间隔选择N个样本数据，作为所述目标样本数据集；或，

在所述样本数据集中按照历史选择样本方式选择N个样本数据，作为所述目标样本数据集。

结合第一方面，在第一方面的第二种可能的实现方式中，所述对各所述样本特征进行特征加权变换，得到分别对应的样本加权特征，包括：

按照特征权重矩阵，对各所述样本特征进行特征加权处理，得到各样本数据的加权特征；其中，所述特征权重矩阵包括各特征分别对应的权重值，所述特征权重矩阵中的权重值个数与所述特征的向量维度数量相同。

结合第一方面，在第一方面的第三种可能的实现方式中，所述基于各所述样本加权特征，对所述分类器进行训练，包括：

获取各所述样本数据的标注信息，每个所述样本数据中均携带有标注信息，所述标注信息包括所述样本数据对应的标注分类结果；

将各所述样本数据通过所述分类器，得到分别对应的预测分类结果；

当存在样本数据对应的标注分类结果和预测分类结果不一致时，基于所述标注分类结果和所述预测分类结果，对所述分类器进行训练。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述基于所述标注分类结果和所述预测分类结果，对所述分类器进行训练，包括：

基于所述标注分类结果和所述预测分类结果之间的损失函数差值，对所述分类器中涉及的参数进行调整。

结合第一方面，在第一方面的第五种可能的实现方式中，所述基于各所述样本加权特征，对所述分类器进行训练之后，还包括：

基于训练好的所述分类器构建入侵检测模型，所述入侵检测模型包括N个卷积层、N个池化层、N个非线性激活层、及N-1个全连接层，所述N为大于或等于3的正整数。

第二方面，本发明的实施例提供一种基于样本特征训练分类器的装置，包括：

第一获取模块，用于获取用于训练分类器的样本数据集；

选择模块，用于在所述样本数据集中选择N个样本数据，作为目标样本数据集；其中，N为小于M的正整数，M为所述样本数据集中样本数据的总数；

第二获取模块，用于通过信息增益和相关性排序，选取所述目标样本数据集中的各样本数据的样本特征；

加权模块，用于对各所述样本特征进行特征加权变换，得到分别对应的样本加权特征；

训练模块，用于基于各所述样本加权特征，对所述分类器进行训练。

结合第二方面，在第二方面的第一种可能的实现方式中，所述装置还包括：

确定模块，用于按照预设规则确定所述目标样本数据集的样本数量N；其中，所述预设规则包括按照预设数量确定所述样本数量N，或按照预设比例确定所述样本数量N，或按照历史选择样本记录确定所述样本数量N；

所述选择模块，包括：

第一选择子模块，用于在所述样本数据集中随机选择N个样本数据，作为所述目标样本数据集；或，

第二选择子模块，用于在所述样本数据集中按照每预设间隔选择N个样本数据，作为所述目标样本数据集；或，

第三选择子模块，用于在所述样本数据集中按照历史选择样本方式选择N个样本数据，作为所述目标样本数据集。

结合第二方面，在第二方面的第二种可能的实现方式中，所述加权模块，包括：

加权子模块，用于按照特征权重矩阵，对各所述样本特征进行特征加权处理，得到各样本数据的加权特征；其中，所述特征权重矩阵包括各特征分别对应的权重值，所述特征权重矩阵中的权重值个数与所述特征的向量维度数量相同。

结合第二方面，在第二方面的第三种可能的实现方式中，所述训练模块，包括：

获取子模块，用于获取各所述样本数据的标注信息，每个所述样本数据中均携带有标注信息，所述标注信息包括所述样本数据对应的标注分类结果；

预测子模块，用于将各所述样本数据通过所述分类器进行预测，得到分别对应的预测分类结果；

训练子模块，用于当存在样本数据对应的标注分类结果和预测分类结果不一致时，基于所述标注分类结果和所述预测分类结果，对所述分类器进行训练。

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，

所述训练子模块，还用于基于所述标注分类结果和所述预测分类结果之间的损失函数差值，对所述分类器中涉及的参数进行调整。

结合第二方面，在第二方面的第五种可能的实现方式中，所述装置还包括：

构建模块，用于基于训练好的所述分类器构建入侵检测模型，所述入侵检测模型包括N个卷积层、N个池化层、N个非线性激活层、及N-1个全连接层，所述N为大于或等于3的正整数。

第三方面，本发明的实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现第一方面提供的方法的步骤。

本发明实施例提供的基于样本特征训练分类器的方法、装置及存储介质，通过获取用于训练分类器的样本数据集；在所述样本数据集中选择N个样本数据，作为目标样本数据集；其中，N为小于M的正整数，M为所述样本数据集中样本数据的总数；通过信息增益和相关性排序，选取所述目标样本数据集中的各样本数据的样本特征；对各所述样本特征进行特征加权变换，得到分别对应的样本加权特征；基于各所述样本加权特征，对所述分类器进行训练。能够通过统计分析方法在数据集中选取合适的样本数据个数，避免训练用样本个数过大，从而可以提高分类器性能；同时，通过对各样本特征进行加权，可以对重要的样本特征进行突出，并降低特征冗余，从而可以进一步提高分类器性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的基于样本特征训练分类器的方法的流程示意图；

图2是本发明实施例的基于样本特征训练分类器的方法的另一流程示意图；

图3是本发明实施例的基于样本特征训练分类器的装置结构示意图；

图4是本发明实施例的基于样本特征训练分类器的装置的另一结构示意图；

图5是本发明实施例的选择模块的结构示意图；

图6是本发明实施例的加权模块的结构示意图；

图7是本发明实施例的训练模块的结构示意图；

图8是本发明实施例的基于样本特征训练分类器的装置700的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明一实施例提供一种基于样本特征训练分类器的方法，如图1所示，所述方法包括：

101、获取用于训练分类器的样本数据集。

102、在所述样本数据集中选择N个样本数据，作为目标样本数据集。

其中，N为小于M的正整数，M为所述样本数据集中样本数据的总数。

103、通过信息增益和相关性排序，选取所述目标样本数据集中的各样本数据的样本特征。

104、对各所述样本特征进行特征加权变换，得到分别对应的样本加权特征。

105、基于各所述样本加权特征，对所述分类器进行训练。

与现有技术相比，本发明实施例能够通过统计分析方法在数据集中选取合适的样本数据个数，避免训练用样本个数过大，从而可以提高分类器性能；同时，通过对各样本特征进行加权，可以对重要的样本特征进行突出，并降低特征冗余，从而可以进一步提高分类器性能。

本发明又一实施例提供一种基于样本特征训练分类器的方法，如图2所示，所述方法包括：

201、获取用于训练分类器的样本数据集。

202、按照预设规则确定所述目标样本数据集的样本数量N。

其中，所述预设规则包括按照预设数量确定所述样本数量N(例如，预设数量可以为1000个、或1300个、或3000个)，或按照预设比例确定所述样本数量N(例如，预设比例可以为10％、或30％、或33％)，或按照历史选择样本记录确定所述样本数量N(例如，可以按照历史训练过程中用户实际挑选的样本数量，或按照历史训练过程中用户实际挑选的样本数量比例)。

203、在所述样本数据集中选择N个样本数据，作为目标样本数据集。

可选地，步骤203可以包括：在所述样本数据集中随机选择N个样本数据，作为所述目标样本数据集；或，在所述样本数据集中按照每预设间隔选择N个样本数据，作为所述目标样本数据集；或，在所述样本数据集中按照历史选择样本方式选择N个样本数据，作为所述目标样本数据集。

204、通过信息增益和相关性排序，选取所述目标样本数据集中的各样本数据的样本特征。

205、按照特征权重矩阵，对各所述样本特征进行特征加权处理，得到各样本数据的加权特征。

其中，所述特征权重矩阵包括各特征分别对应的权重值，所述特征权重矩阵中的权重值个数与所述特征的向量维度数量相同。

206、获取各所述样本数据的标注信息。

其中，每个所述样本数据中均携带有标注信息，所述标注信息包括所述样本数据对应的标注分类结果。

207、将各所述样本数据通过所述分类器，得到分别对应的预测分类结果。

208、当存在样本数据对应的标注分类结果和预测分类结果不一致时，基于所述标注分类结果和所述预测分类结果，对所述分类器进行训练。

基于所述标注分类结果和所述预测分类结果，对所述分类器进行训练，具体可以包括：基于所述标注分类结果和所述预测分类结果之间的损失函数差值，对所述分类器中涉及的参数进行调整。

209、基于训练好的所述分类器构建入侵检测模型。

其中，所述入侵检测模型包括N个卷积层、N个池化层、N个非线性激活层、及N-1个全连接层，所述N为大于或等于3的正整数。

本发明又一实施例提供一种基于样本特征训练分类器的装置，如图3所示，所述装置包括：

第一获取模块31，用于获取用于训练分类器的样本数据集；

选择模块32，用于在所述样本数据集中选择N个样本数据，作为目标样本数据集；其中，N为小于M的正整数，M为所述样本数据集中样本数据的总数；

第二获取模块33，用于通过信息增益和相关性排序，选取所述目标样本数据集中的各样本数据的样本特征；

加权模块34，用于对各所述样本特征进行特征加权变换，得到分别对应的样本加权特征；

训练模块35，用于基于各所述样本加权特征，对所述分类器进行训练。

进一步的，如图4所示，所述装置还包括：

确定模块41，用于按照预设规则确定所述目标样本数据集的样本数量N；其中，所述预设规则包括按照预设数量确定所述样本数量N，或按照预设比例确定所述样本数量N，或按照历史选择样本记录确定所述样本数量N。

进一步的，如图5所示，所述选择模块32，包括：

第一选择子模块3201，用于在所述样本数据集中随机选择N个样本数据，作为所述目标样本数据集；或，

第二选择子模块3202，用于在所述样本数据集中按照每预设间隔选择N个样本数据，作为所述目标样本数据集；或，

第三选择子模块3203，用于在所述样本数据集中按照历史选择样本方式选择N个样本数据，作为所述目标样本数据集。

进一步的，如图6所示，所述加权模块34，包括：

加权子模块3401，用于按照特征权重矩阵，对各所述样本特征进行特征加权处理，得到各样本数据的加权特征；其中，所述特征权重矩阵包括各特征分别对应的权重值，所述特征权重矩阵中的权重值个数与所述特征的向量维度数量相同。

进一步的，如图6所示，所述训练模块35，包括：

获取子模块3501，用于获取各所述样本数据的标注信息，每个所述样本数据中均携带有标注信息，所述标注信息包括所述样本数据对应的标注分类结果；

预测子模块3502，用于将各所述样本数据通过所述分类器进行预测，得到分别对应的预测分类结果；

训练子模块3503，用于当存在样本数据对应的标注分类结果和预测分类结果不一致时，基于所述标注分类结果和所述预测分类结果，对所述分类器进行训练。

所述训练子模块3503，还用于基于所述标注分类结果和所述预测分类结果之间的损失函数差值，对所述分类器中涉及的参数进行调整。

进一步的，如图7所示，所述装置还包括：

构建模块71，用于基于训练好的所述分类器构建入侵检测模型，所述入侵检测模型包括N个卷积层、N个池化层、N个非线性激活层、及N-1个全连接层，所述N为大于或等于3的正整数。

本发明实施例还提供另一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序被一个或者一个以上的处理器用来执行图1、图2所示实施例提供的基于样本特征训练分类器的方法。

本发明实施例提供的基于样本特征训练分类器的装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。本发明实施例提供的基于样本特征训练分类器的方法、装置及存储介质可以适用于进行入侵检测，但不仅限于此。

如图8所示，基于样本特征训练分类器的装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，个人数字助理等。

参照图8，基于样本特征训练分类器的装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制无人机控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令。

此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在无人机控制装置800的操作。这些数据的示例包括用于在无人机控制装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为无人机控制装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为无人机控制装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述无人机控制装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当无人机控制装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当无人机控制装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为无人机控制装置800提供各个方面的状态评估。例如，传感器组件814可以检测到无人机控制装置800的打开/关闭状态，组件的相对定位，例如所述组件为无人机控制装置800的显示器和小键盘，传感器组件814还可以检测无人机控制装置800或无人机控制装置800一个组件的位置改变，用户与无人机控制装置800接触的存在或不存在，无人机控制装置800方位或加速/减速和无人机控制装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于无人机控制装置800和其他设备之间有线或无线方式的通信。无人机控制装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，无人机控制装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于样本特征训练分类器的方法，其特征在于，包括：

获取用于训练分类器的样本数据集；

基于各所述样本加权特征，对所述分类器进行训练。

2.根据权利要求1所述的基于样本特征训练分类器的方法，其特征在于，所述在所述样本数据集中选择N个样本数据，作为目标样本数据集之前，还包括：

3.根据权利要求1所述的基于样本特征训练分类器的方法，其特征在于，所述对各所述样本特征进行特征加权变换，得到分别对应的样本加权特征，包括：

4.根据权利要求1所述的基于样本特征训练分类器的方法，其特征在于，所述基于各所述样本加权特征，对所述分类器进行训练，包括：

5.根据权利要求4所述的基于样本特征训练分类器的方法，其特征在于，所述基于所述标注分类结果和所述预测分类结果，对所述分类器进行训练，包括：

6.根据权利要求1所述的基于样本特征训练分类器的方法，其特征在于，所述基于各所述样本加权特征，对所述分类器进行训练之后，还包括：

7.一种基于样本特征训练分类器的装置，其特征在于，包括：

第一获取模块，用于获取用于训练分类器的样本数据集；

8.根据权利要求7所述的基于样本特征训练分类器的装置，其特征在于，所述装置还包括：

所述选择模块，包括：

9.根据权利要求7所述的基于样本特征训练分类器的装置，其特征在于，

所述加权模块，包括：

10.根据权利要求7所述的基于样本特征训练分类器的装置，其特征在于，所述训练模块，包括：

11.根据权利要求10所述的基于样本特征训练分类器的装置，其特征在于，

12.根据权利要求7所述的基于样本特征训练分类器的装置，其特征在于，所述装置还包括：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-6所述方法的步骤。