CN109214175A - 基于样本特征训练分类器的方法、装置及存储介质 - Google Patents

基于样本特征训练分类器的方法、装置及存储介质 Download PDF

Info

Publication number
CN109214175A
CN109214175A CN201810809724.9A CN201810809724A CN109214175A CN 109214175 A CN109214175 A CN 109214175A CN 201810809724 A CN201810809724 A CN 201810809724A CN 109214175 A CN109214175 A CN 109214175A
Authority
CN
China
Prior art keywords
sample
sample data
classifier
classification results
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810809724.9A
Other languages
English (en)
Other versions
CN109214175B (zh
Inventor
魏金侠
龙春
赵静
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201810809724.9A priority Critical patent/CN109214175B/zh
Publication of CN109214175A publication Critical patent/CN109214175A/zh
Application granted granted Critical
Publication of CN109214175B publication Critical patent/CN109214175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于样本特征训练分类器的方法、装置及存储介质,涉及网络安全领域。本发明的方法包括:获取用于训练分类器的样本数据集;在所述样本数据集中选择N个样本数据,作为目标样本数据集;其中,N为小于M的正整数,M为所述样本数据集中样本数据的总数;通过信息增益和相关性排序,选取所述目标样本数据集中的各样本数据的特征;对各所述样本特征进行特征加权变换,得到分别对应的样本加权特征;基于各所述样本加权特征,对所述分类器进行训练。本发明能够提高分类器性能。

Description

基于样本特征训练分类器的方法、装置及存储介质
技术领域
本发明涉及网络安全领域,尤其涉及一种基于样本特征训练分类器的方法、装置及存储介质。
背景技术
现有的入侵检测方法大多是直接针对全部样本数据,输入分类器进行检测。但在实际的网络流量数据中,由于数据集规模庞大,导致利用全部数据集建立入侵检测模型降低了分类器的性能。
发明内容
本发明的实施例提供一种基于样本特征训练分类器的方法、装置及存储介质,能够解决现有入侵检测模型中分类器性能较低的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供一种基于样本特征训练分类器的方法,包括:
获取用于训练分类器的样本数据集;
在所述样本数据集中选择N个样本数据,作为目标样本数据集;其中,N为小于M的正整数,M为所述样本数据集中样本数据的总数;
通过信息增益和相关性排序,选取所述目标样本数据集中的各样本数据的样本特征;
对各所述样本特征进行特征加权变换,得到分别对应的样本加权特征;
基于各所述样本加权特征,对所述分类器进行训练。
结合第一方面,在第一方面的第一种可能的实现方式中,所述在所述样本数据集中选择N个样本数据,作为目标样本数据集之前,还包括:
按照预设规则确定所述目标样本数据集的样本数量N;其中,所述预设规则包括按照预设数量确定所述样本数量N,或按照预设比例确定所述样本数量N,或按照历史选择样本记录确定所述样本数量N;
所述在所述样本数据集中选择N个样本数据,作为目标样本数据集,包括:
在所述样本数据集中随机选择N个样本数据,作为所述目标样本数据集;或,
在所述样本数据集中按照每预设间隔选择N个样本数据,作为所述目标样本数据集;或,
在所述样本数据集中按照历史选择样本方式选择N个样本数据,作为所述目标样本数据集。
结合第一方面,在第一方面的第二种可能的实现方式中,所述对各所述样本特征进行特征加权变换,得到分别对应的样本加权特征,包括:
按照特征权重矩阵,对各所述样本特征进行特征加权处理,得到各样本数据的加权特征;其中,所述特征权重矩阵包括各特征分别对应的权重值,所述特征权重矩阵中的权重值个数与所述特征的向量维度数量相同。
结合第一方面,在第一方面的第三种可能的实现方式中,所述基于各所述样本加权特征,对所述分类器进行训练,包括:
获取各所述样本数据的标注信息,每个所述样本数据中均携带有标注信息,所述标注信息包括所述样本数据对应的标注分类结果;
将各所述样本数据通过所述分类器,得到分别对应的预测分类结果;
当存在样本数据对应的标注分类结果和预测分类结果不一致时,基于所述标注分类结果和所述预测分类结果,对所述分类器进行训练。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述基于所述标注分类结果和所述预测分类结果,对所述分类器进行训练,包括:
基于所述标注分类结果和所述预测分类结果之间的损失函数差值,对所述分类器中涉及的参数进行调整。
结合第一方面,在第一方面的第五种可能的实现方式中,所述基于各所述样本加权特征,对所述分类器进行训练之后,还包括:
基于训练好的所述分类器构建入侵检测模型,所述入侵检测模型包括N个卷积层、N个池化层、N个非线性激活层、及N-1个全连接层,所述N为大于或等于3的正整数。
第二方面,本发明的实施例提供一种基于样本特征训练分类器的装置,包括:
第一获取模块,用于获取用于训练分类器的样本数据集;
选择模块,用于在所述样本数据集中选择N个样本数据,作为目标样本数据集;其中,N为小于M的正整数,M为所述样本数据集中样本数据的总数;
第二获取模块,用于通过信息增益和相关性排序,选取所述目标样本数据集中的各样本数据的样本特征;
加权模块,用于对各所述样本特征进行特征加权变换,得到分别对应的样本加权特征;
训练模块,用于基于各所述样本加权特征,对所述分类器进行训练。
结合第二方面,在第二方面的第一种可能的实现方式中,所述装置还包括:
确定模块,用于按照预设规则确定所述目标样本数据集的样本数量N;其中,所述预设规则包括按照预设数量确定所述样本数量N,或按照预设比例确定所述样本数量N,或按照历史选择样本记录确定所述样本数量N;
所述选择模块,包括:
第一选择子模块,用于在所述样本数据集中随机选择N个样本数据,作为所述目标样本数据集;或,
第二选择子模块,用于在所述样本数据集中按照每预设间隔选择N个样本数据,作为所述目标样本数据集;或,
第三选择子模块,用于在所述样本数据集中按照历史选择样本方式选择N个样本数据,作为所述目标样本数据集。
结合第二方面,在第二方面的第二种可能的实现方式中,所述加权模块,包括:
加权子模块,用于按照特征权重矩阵,对各所述样本特征进行特征加权处理,得到各样本数据的加权特征;其中,所述特征权重矩阵包括各特征分别对应的权重值,所述特征权重矩阵中的权重值个数与所述特征的向量维度数量相同。
结合第二方面,在第二方面的第三种可能的实现方式中,所述训练模块,包括:
获取子模块,用于获取各所述样本数据的标注信息,每个所述样本数据中均携带有标注信息,所述标注信息包括所述样本数据对应的标注分类结果;
预测子模块,用于将各所述样本数据通过所述分类器进行预测,得到分别对应的预测分类结果;
训练子模块,用于当存在样本数据对应的标注分类结果和预测分类结果不一致时,基于所述标注分类结果和所述预测分类结果,对所述分类器进行训练。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,
所述训练子模块,还用于基于所述标注分类结果和所述预测分类结果之间的损失函数差值,对所述分类器中涉及的参数进行调整。
结合第二方面,在第二方面的第五种可能的实现方式中,所述装置还包括:
构建模块,用于基于训练好的所述分类器构建入侵检测模型,所述入侵检测模型包括N个卷积层、N个池化层、N个非线性激活层、及N-1个全连接层,所述N为大于或等于3的正整数。
第三方面,本发明的实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现第一方面提供的方法的步骤。
本发明实施例提供的基于样本特征训练分类器的方法、装置及存储介质,通过获取用于训练分类器的样本数据集;在所述样本数据集中选择N个样本数据,作为目标样本数据集;其中,N为小于M的正整数,M为所述样本数据集中样本数据的总数;通过信息增益和相关性排序,选取所述目标样本数据集中的各样本数据的样本特征;对各所述样本特征进行特征加权变换,得到分别对应的样本加权特征;基于各所述样本加权特征,对所述分类器进行训练。能够通过统计分析方法在数据集中选取合适的样本数据个数,避免训练用样本个数过大,从而可以提高分类器性能;同时,通过对各样本特征进行加权,可以对重要的样本特征进行突出,并降低特征冗余,从而可以进一步提高分类器性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的基于样本特征训练分类器的方法的流程示意图;
图2是本发明实施例的基于样本特征训练分类器的方法的另一流程示意图;
图3是本发明实施例的基于样本特征训练分类器的装置结构示意图;
图4是本发明实施例的基于样本特征训练分类器的装置的另一结构示意图;
图5是本发明实施例的选择模块的结构示意图;
图6是本发明实施例的加权模块的结构示意图;
图7是本发明实施例的训练模块的结构示意图;
图8是本发明实施例的基于样本特征训练分类器的装置700的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明一实施例提供一种基于样本特征训练分类器的方法,如图1所示,所述方法包括:
101、获取用于训练分类器的样本数据集。
102、在所述样本数据集中选择N个样本数据,作为目标样本数据集。
其中,N为小于M的正整数,M为所述样本数据集中样本数据的总数。
103、通过信息增益和相关性排序,选取所述目标样本数据集中的各样本数据的样本特征。
104、对各所述样本特征进行特征加权变换,得到分别对应的样本加权特征。
105、基于各所述样本加权特征,对所述分类器进行训练。
与现有技术相比,本发明实施例能够通过统计分析方法在数据集中选取合适的样本数据个数,避免训练用样本个数过大,从而可以提高分类器性能;同时,通过对各样本特征进行加权,可以对重要的样本特征进行突出,并降低特征冗余,从而可以进一步提高分类器性能。
本发明又一实施例提供一种基于样本特征训练分类器的方法,如图2所示,所述方法包括:
201、获取用于训练分类器的样本数据集。
202、按照预设规则确定所述目标样本数据集的样本数量N。
其中,所述预设规则包括按照预设数量确定所述样本数量N(例如,预设数量可以为1000个、或1300个、或3000个),或按照预设比例确定所述样本数量N(例如,预设比例可以为10%、或30%、或33%),或按照历史选择样本记录确定所述样本数量N(例如,可以按照历史训练过程中用户实际挑选的样本数量,或按照历史训练过程中用户实际挑选的样本数量比例)。
203、在所述样本数据集中选择N个样本数据,作为目标样本数据集。
其中,N为小于M的正整数,M为所述样本数据集中样本数据的总数。
可选地,步骤203可以包括:在所述样本数据集中随机选择N个样本数据,作为所述目标样本数据集;或,在所述样本数据集中按照每预设间隔选择N个样本数据,作为所述目标样本数据集;或,在所述样本数据集中按照历史选择样本方式选择N个样本数据,作为所述目标样本数据集。
204、通过信息增益和相关性排序,选取所述目标样本数据集中的各样本数据的样本特征。
205、按照特征权重矩阵,对各所述样本特征进行特征加权处理,得到各样本数据的加权特征。
其中,所述特征权重矩阵包括各特征分别对应的权重值,所述特征权重矩阵中的权重值个数与所述特征的向量维度数量相同。
206、获取各所述样本数据的标注信息。
其中,每个所述样本数据中均携带有标注信息,所述标注信息包括所述样本数据对应的标注分类结果。
207、将各所述样本数据通过所述分类器,得到分别对应的预测分类结果。
208、当存在样本数据对应的标注分类结果和预测分类结果不一致时,基于所述标注分类结果和所述预测分类结果,对所述分类器进行训练。
基于所述标注分类结果和所述预测分类结果,对所述分类器进行训练,具体可以包括:基于所述标注分类结果和所述预测分类结果之间的损失函数差值,对所述分类器中涉及的参数进行调整。
209、基于训练好的所述分类器构建入侵检测模型。
其中,所述入侵检测模型包括N个卷积层、N个池化层、N个非线性激活层、及N-1个全连接层,所述N为大于或等于3的正整数。
与现有技术相比,本发明实施例能够通过统计分析方法在数据集中选取合适的样本数据个数,避免训练用样本个数过大,从而可以提高分类器性能;同时,通过对各样本特征进行加权,可以对重要的样本特征进行突出,并降低特征冗余,从而可以进一步提高分类器性能。
本发明又一实施例提供一种基于样本特征训练分类器的装置,如图3所示,所述装置包括:
第一获取模块31,用于获取用于训练分类器的样本数据集;
选择模块32,用于在所述样本数据集中选择N个样本数据,作为目标样本数据集;其中,N为小于M的正整数,M为所述样本数据集中样本数据的总数;
第二获取模块33,用于通过信息增益和相关性排序,选取所述目标样本数据集中的各样本数据的样本特征;
加权模块34,用于对各所述样本特征进行特征加权变换,得到分别对应的样本加权特征;
训练模块35,用于基于各所述样本加权特征,对所述分类器进行训练。
进一步的,如图4所示,所述装置还包括:
确定模块41,用于按照预设规则确定所述目标样本数据集的样本数量N;其中,所述预设规则包括按照预设数量确定所述样本数量N,或按照预设比例确定所述样本数量N,或按照历史选择样本记录确定所述样本数量N。
进一步的,如图5所示,所述选择模块32,包括:
第一选择子模块3201,用于在所述样本数据集中随机选择N个样本数据,作为所述目标样本数据集;或,
第二选择子模块3202,用于在所述样本数据集中按照每预设间隔选择N个样本数据,作为所述目标样本数据集;或,
第三选择子模块3203,用于在所述样本数据集中按照历史选择样本方式选择N个样本数据,作为所述目标样本数据集。
进一步的,如图6所示,所述加权模块34,包括:
加权子模块3401,用于按照特征权重矩阵,对各所述样本特征进行特征加权处理,得到各样本数据的加权特征;其中,所述特征权重矩阵包括各特征分别对应的权重值,所述特征权重矩阵中的权重值个数与所述特征的向量维度数量相同。
进一步的,如图6所示,所述训练模块35,包括:
获取子模块3501,用于获取各所述样本数据的标注信息,每个所述样本数据中均携带有标注信息,所述标注信息包括所述样本数据对应的标注分类结果;
预测子模块3502,用于将各所述样本数据通过所述分类器进行预测,得到分别对应的预测分类结果;
训练子模块3503,用于当存在样本数据对应的标注分类结果和预测分类结果不一致时,基于所述标注分类结果和所述预测分类结果,对所述分类器进行训练。
所述训练子模块3503,还用于基于所述标注分类结果和所述预测分类结果之间的损失函数差值,对所述分类器中涉及的参数进行调整。
进一步的,如图7所示,所述装置还包括:
构建模块71,用于基于训练好的所述分类器构建入侵检测模型,所述入侵检测模型包括N个卷积层、N个池化层、N个非线性激活层、及N-1个全连接层,所述N为大于或等于3的正整数。
本发明实施例还提供另一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序被一个或者一个以上的处理器用来执行图1、图2所示实施例提供的基于样本特征训练分类器的方法。
本发明实施例提供的基于样本特征训练分类器的装置可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。本发明实施例提供的基于样本特征训练分类器的方法、装置及存储介质可以适用于进行入侵检测,但不仅限于此。
如图8所示,基于样本特征训练分类器的装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,个人数字助理等。
参照图8,基于样本特征训练分类器的装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制无人机控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令。
此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在无人机控制装置800的操作。这些数据的示例包括用于在无人机控制装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为无人机控制装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为无人机控制装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述无人机控制装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当无人机控制装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当无人机控制装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为无人机控制装置800提供各个方面的状态评估。例如,传感器组件814可以检测到无人机控制装置800的打开/关闭状态,组件的相对定位,例如所述组件为无人机控制装置800的显示器和小键盘,传感器组件814还可以检测无人机控制装置800或无人机控制装置800一个组件的位置改变,用户与无人机控制装置800接触的存在或不存在,无人机控制装置800方位或加速/减速和无人机控制装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于无人机控制装置800和其他设备之间有线或无线方式的通信。无人机控制装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,无人机控制装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (13)

1.一种基于样本特征训练分类器的方法,其特征在于,包括:
获取用于训练分类器的样本数据集;
在所述样本数据集中选择N个样本数据,作为目标样本数据集;其中,N为小于M的正整数,M为所述样本数据集中样本数据的总数;
通过信息增益和相关性排序,选取所述目标样本数据集中的各样本数据的样本特征;
对各所述样本特征进行特征加权变换,得到分别对应的样本加权特征;
基于各所述样本加权特征,对所述分类器进行训练。
2.根据权利要求1所述的基于样本特征训练分类器的方法,其特征在于,所述在所述样本数据集中选择N个样本数据,作为目标样本数据集之前,还包括:
按照预设规则确定所述目标样本数据集的样本数量N;其中,所述预设规则包括按照预设数量确定所述样本数量N,或按照预设比例确定所述样本数量N,或按照历史选择样本记录确定所述样本数量N;
所述在所述样本数据集中选择N个样本数据,作为目标样本数据集,包括:
在所述样本数据集中随机选择N个样本数据,作为所述目标样本数据集;或,
在所述样本数据集中按照每预设间隔选择N个样本数据,作为所述目标样本数据集;或,
在所述样本数据集中按照历史选择样本方式选择N个样本数据,作为所述目标样本数据集。
3.根据权利要求1所述的基于样本特征训练分类器的方法,其特征在于,所述对各所述样本特征进行特征加权变换,得到分别对应的样本加权特征,包括:
按照特征权重矩阵,对各所述样本特征进行特征加权处理,得到各样本数据的加权特征;其中,所述特征权重矩阵包括各特征分别对应的权重值,所述特征权重矩阵中的权重值个数与所述特征的向量维度数量相同。
4.根据权利要求1所述的基于样本特征训练分类器的方法,其特征在于,所述基于各所述样本加权特征,对所述分类器进行训练,包括:
获取各所述样本数据的标注信息,每个所述样本数据中均携带有标注信息,所述标注信息包括所述样本数据对应的标注分类结果;
将各所述样本数据通过所述分类器,得到分别对应的预测分类结果;
当存在样本数据对应的标注分类结果和预测分类结果不一致时,基于所述标注分类结果和所述预测分类结果,对所述分类器进行训练。
5.根据权利要求4所述的基于样本特征训练分类器的方法,其特征在于,所述基于所述标注分类结果和所述预测分类结果,对所述分类器进行训练,包括:
基于所述标注分类结果和所述预测分类结果之间的损失函数差值,对所述分类器中涉及的参数进行调整。
6.根据权利要求1所述的基于样本特征训练分类器的方法,其特征在于,所述基于各所述样本加权特征,对所述分类器进行训练之后,还包括:
基于训练好的所述分类器构建入侵检测模型,所述入侵检测模型包括N个卷积层、N个池化层、N个非线性激活层、及N-1个全连接层,所述N为大于或等于3的正整数。
7.一种基于样本特征训练分类器的装置,其特征在于,包括:
第一获取模块,用于获取用于训练分类器的样本数据集;
选择模块,用于在所述样本数据集中选择N个样本数据,作为目标样本数据集;其中,N为小于M的正整数,M为所述样本数据集中样本数据的总数;
第二获取模块,用于通过信息增益和相关性排序,选取所述目标样本数据集中的各样本数据的样本特征;
加权模块,用于对各所述样本特征进行特征加权变换,得到分别对应的样本加权特征;
训练模块,用于基于各所述样本加权特征,对所述分类器进行训练。
8.根据权利要求7所述的基于样本特征训练分类器的装置,其特征在于,所述装置还包括:
确定模块,用于按照预设规则确定所述目标样本数据集的样本数量N;其中,所述预设规则包括按照预设数量确定所述样本数量N,或按照预设比例确定所述样本数量N,或按照历史选择样本记录确定所述样本数量N;
所述选择模块,包括:
第一选择子模块,用于在所述样本数据集中随机选择N个样本数据,作为所述目标样本数据集;或,
第二选择子模块,用于在所述样本数据集中按照每预设间隔选择N个样本数据,作为所述目标样本数据集;或,
第三选择子模块,用于在所述样本数据集中按照历史选择样本方式选择N个样本数据,作为所述目标样本数据集。
9.根据权利要求7所述的基于样本特征训练分类器的装置,其特征在于,
所述加权模块,包括:
加权子模块,用于按照特征权重矩阵,对各所述样本特征进行特征加权处理,得到各样本数据的加权特征;其中,所述特征权重矩阵包括各特征分别对应的权重值,所述特征权重矩阵中的权重值个数与所述特征的向量维度数量相同。
10.根据权利要求7所述的基于样本特征训练分类器的装置,其特征在于,所述训练模块,包括:
获取子模块,用于获取各所述样本数据的标注信息,每个所述样本数据中均携带有标注信息,所述标注信息包括所述样本数据对应的标注分类结果;
预测子模块,用于将各所述样本数据通过所述分类器进行预测,得到分别对应的预测分类结果;
训练子模块,用于当存在样本数据对应的标注分类结果和预测分类结果不一致时,基于所述标注分类结果和所述预测分类结果,对所述分类器进行训练。
11.根据权利要求10所述的基于样本特征训练分类器的装置,其特征在于,
所述训练子模块,还用于基于所述标注分类结果和所述预测分类结果之间的损失函数差值,对所述分类器中涉及的参数进行调整。
12.根据权利要求7所述的基于样本特征训练分类器的装置,其特征在于,所述装置还包括:
构建模块,用于基于训练好的所述分类器构建入侵检测模型,所述入侵检测模型包括N个卷积层、N个池化层、N个非线性激活层、及N-1个全连接层,所述N为大于或等于3的正整数。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-6所述方法的步骤。
CN201810809724.9A 2018-07-23 2018-07-23 基于样本特征训练分类器的方法、装置及存储介质 Active CN109214175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810809724.9A CN109214175B (zh) 2018-07-23 2018-07-23 基于样本特征训练分类器的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810809724.9A CN109214175B (zh) 2018-07-23 2018-07-23 基于样本特征训练分类器的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109214175A true CN109214175A (zh) 2019-01-15
CN109214175B CN109214175B (zh) 2021-11-16

Family

ID=64990684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810809724.9A Active CN109214175B (zh) 2018-07-23 2018-07-23 基于样本特征训练分类器的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109214175B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109916921A (zh) * 2019-03-29 2019-06-21 北京百度网讯科技有限公司 电路板缺陷处理方法、装置及设备
CN110278189A (zh) * 2019-05-17 2019-09-24 杭州电子科技大学 一种基于网络流量特征权重图谱的入侵检测方法
CN110363060A (zh) * 2019-04-04 2019-10-22 杭州电子科技大学 基于特征子空间生成对抗网络的小样本目标识别方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289935A (zh) * 2006-03-03 2011-12-21 因瑞克斯有限公司 使用来自移动数据源的数据估算道路交通状况
CN103136587A (zh) * 2013-03-07 2013-06-05 武汉大学 基于支持向量机的配电网运行状态分类识别方法
CN103559294A (zh) * 2013-11-12 2014-02-05 中国石油大学(北京) 支持向量机分类器的构造方法及装置、分类方法及装置
CN105426928A (zh) * 2014-09-19 2016-03-23 无锡慧眼电子科技有限公司 一种基于Haar特征和EOH特征的行人检测方法
CN106127253A (zh) * 2016-06-27 2016-11-16 北京航空航天大学 一种利用样本特征学习分类的红外弱小目标检测方法
CN106503617A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 模型训练方法及装置
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN107239736A (zh) * 2017-04-28 2017-10-10 北京智慧眼科技股份有限公司 基于多任务级联卷积神经网络的人脸检测方法及检测装置
CN107688576A (zh) * 2016-08-04 2018-02-13 中国科学院声学研究所 一种cnn‑svm模型的构建及倾向性分类方法
CN107832789A (zh) * 2017-11-01 2018-03-23 杭州电子科技大学 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN107992982A (zh) * 2017-12-28 2018-05-04 上海氪信信息技术有限公司 一种基于深度学习的非结构化数据的违约概率预测方法
CN108229298A (zh) * 2017-09-30 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练和人脸识别方法及装置、设备、存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289935A (zh) * 2006-03-03 2011-12-21 因瑞克斯有限公司 使用来自移动数据源的数据估算道路交通状况
CN103136587A (zh) * 2013-03-07 2013-06-05 武汉大学 基于支持向量机的配电网运行状态分类识别方法
CN103559294A (zh) * 2013-11-12 2014-02-05 中国石油大学(北京) 支持向量机分类器的构造方法及装置、分类方法及装置
CN105426928A (zh) * 2014-09-19 2016-03-23 无锡慧眼电子科技有限公司 一种基于Haar特征和EOH特征的行人检测方法
CN106127253A (zh) * 2016-06-27 2016-11-16 北京航空航天大学 一种利用样本特征学习分类的红外弱小目标检测方法
CN107688576A (zh) * 2016-08-04 2018-02-13 中国科学院声学研究所 一种cnn‑svm模型的构建及倾向性分类方法
CN106503617A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 模型训练方法及装置
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN107239736A (zh) * 2017-04-28 2017-10-10 北京智慧眼科技股份有限公司 基于多任务级联卷积神经网络的人脸检测方法及检测装置
CN108229298A (zh) * 2017-09-30 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练和人脸识别方法及装置、设备、存储介质
CN107832789A (zh) * 2017-11-01 2018-03-23 杭州电子科技大学 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN107992982A (zh) * 2017-12-28 2018-05-04 上海氪信信息技术有限公司 一种基于深度学习的非结构化数据的违约概率预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张琨: "网络入侵检测中一种新型SVM特征加权分类方法", 《南京理工大学学报(自然科学版)》 *
王晓明: "基于概率密度逼近的无监督特征排序", 《计算机应用研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109916921A (zh) * 2019-03-29 2019-06-21 北京百度网讯科技有限公司 电路板缺陷处理方法、装置及设备
CN110363060A (zh) * 2019-04-04 2019-10-22 杭州电子科技大学 基于特征子空间生成对抗网络的小样本目标识别方法
CN110278189A (zh) * 2019-05-17 2019-09-24 杭州电子科技大学 一种基于网络流量特征权重图谱的入侵检测方法
CN110278189B (zh) * 2019-05-17 2021-12-10 杭州电子科技大学 一种基于网络流量特征权重图谱的入侵检测方法

Also Published As

Publication number Publication date
CN109214175B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
US10930304B2 (en) Processing voice
CN107273510B (zh) 照片推荐方法及相关产品
CN106528709A (zh) 社交信息推荐方法及装置
CN106202330A (zh) 垃圾信息的判断方法及装置
CN109271239A (zh) 数据处理的方法、装置、系统、设备及介质
CN104615663B (zh) 文件排序方法、装置及终端
CN110909815A (zh) 神经网络训练、图像处理方法、装置及电子设备
CN109117874A (zh) 操作行为预测方法及装置
CN109214175A (zh) 基于样本特征训练分类器的方法、装置及存储介质
CN105246068B (zh) Sim卡选择方法及装置
CN109451811A (zh) 无人机管理方法及装置、电子设备和计算机可读存储介质
CN105094539B (zh) 参考信息显示方法和装置
CN104881342B (zh) 终端测试方法及装置
CN105426060B (zh) 应用控制方法及装置
CN110222706A (zh) 基于特征约简的集成分类方法、装置及存储介质
CN105242837B (zh) 应用页面获取方法及终端
CN105101078B (zh) 信息提醒方法、终端及服务器
CN109981624A (zh) 入侵检测方法、装置及存储介质
CN104298576B (zh) 终端测试方法及装置
CN112131473B (zh) 信息推荐方法、装置、设备及存储介质
CN105551047A (zh) 图片内容的检测方法和装置
CN113032627A (zh) 视频分类方法、装置、存储介质及终端设备
CN106339452B (zh) 事件响应方法及装置
CN105469411B (zh) 用于检测图像清晰度的方法、装置及终端
CN105101410B (zh) 一种确定移动终端地理位置的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant