CN102831431A - 一种基于层次聚类的检测器训练方法 - Google Patents
一种基于层次聚类的检测器训练方法 Download PDFInfo
- Publication number
- CN102831431A CN102831431A CN2012100242745A CN201210024274A CN102831431A CN 102831431 A CN102831431 A CN 102831431A CN 2012100242745 A CN2012100242745 A CN 2012100242745A CN 201210024274 A CN201210024274 A CN 201210024274A CN 102831431 A CN102831431 A CN 102831431A
- Authority
- CN
- China
- Prior art keywords
- detecting device
- sample
- cluster
- steps
- further comprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种检测器生成,属于模式识别领域。该方法本发明针对传统的检测器生成方法训练时间代价过高,效率过低这一问题,提出了一种新的基于层次聚类的检测器生成方法:首先定义正类集;其次对正类样本进行层次聚类,采用聚类中心构造训练样本集;随后在包含每一层聚类的最小超立方体内随机产生新的候选检测器中心向量;然后采用聚类中心代替正类样本对候选检测器进行训练,由于聚类中心的数量远少于正类样本的数量,从而有效地提高了检测器的训练效率;最后对检测器的负类样本空间覆盖率下限进行了置信度估计,以覆盖率下限大于给定的期望覆盖率作为中止检测器训练过程的条件。本发明在模式识别,网络入侵检测等方面具有广阔的应用前景。
Description
技术领域
本发明涉及一种检测器训练方法,属于模式识别领域。
背景技术
检测器是模式识别系统中最基本的执行单元,被广泛应用于异常检测、数据分类、疾病诊断等领域。检测器的质量和训练效率直接影响到模式识别系统的性能。传统的检测器生成方法,如Forrest 等人提出的否定选择算法NSA、Gonzalez等提出的实值否定选择算法RNSA,以及Dasgupta等提出的变半径检测器生成方法V-detector采用全部正类样本训练新产生的候选检测器,以排除识别了正类样本的无效检测器。由于传统方法需要计算候选检测器与全部正类样本间的距离,导致检测器的训练时间开销过大,尤其是在大样本空间下训练检测器异常困难,从而极大地限制了模式识别系统的实际应用。
中国专利公开号为201110035696.8的申请案:一种新型人工免疫系统和基于蚁群优化的检测器集优化方法,该方法采用蚁群算法优化检测器,在保持检测器多样性方面取得了一定的效果,但是该方法将检测器与全部正类训练样本进比较,导致检测器训练过程的时间复杂度与样本规模呈指数关系,在大样本空间下检测器训练的时间代价巨大。
针对上述的缺陷,本发明提出了一种基于层次聚类的检测器生成方法,该方法首先对对正类样本进行层次聚类,随后采用聚类中心代替正类样本对候选检测器进行训练,由于聚类中心的数量远少于正类样本的数量,从而有效地提高了检测器的训练效率。该发明可应用于大样本空间下的模式识别系统,具有广泛的应用前景。
本发明与现有技术相比具有如下优点:
1) 检测器生成过程的时间代价更小
本发明在检测器训练之前首先对正类样本进行层次聚类,随后采用聚类中心代替全部正类样本作为训练集对候选检测器进行训练,由于聚类中心的数量远少于正类样本的数量,本发明有效地降低了检测器训练的时间代价,提高了训练效率;
2) 检测误报率更低
本发明采用聚类中心与聚类半径代替正类数据与正类半径与候选检测器进行匹配,对“识别正类的无效检测器”的界定标准更加严格:检测器只要覆盖了聚类范围(而不是传统的正类范围)就被界定为无效检测器而删除,从而有效地降低了检测器误报率。
在详细阐述本发明前,先做如下定义:
定义1:所有来自检测空间的特征串组成样本集合U={g|g=(f1,f2…fn),fi∈[0,1]},n为数据维数,fi代表第i个样本属性规范化后的值。
定义2:负类集 代表待检测样本的特征串;正类集 代表其余样本的特征串,正类半径rs∈R+代表正类样本的变化范围,与任意正类样本的距离小于rs的样本为正类元素,且Positive∪Negative=U,Positive∩Negative=Φ。
定义3:检测器用于识别负类样本:d=<c,r>,其中c∈Nonself,代表检测器位置向量,r∈R+代表检测半径,与d的距离小于r的样本被识别为负类。
定义4:检测器对负类空间的覆盖率:P=Vcov/Vnegative,其中Vcov为检测器覆盖的负类空间体积,Vnegative为负类样本空间体积。
发明内容
本发明针对传统的检测器生成方法训练时间代价过高,训练效率过低这一问题,提出了一种新的基于层次聚类的检测器生成方法。本发明的技术思路是:首先提取正类集;其次对正类样本进行层次聚类,将正类样本组织成聚类范围逐层收敛的层次聚类结构;然后采用聚类中心构造训练样本集;随后在包含每一层聚类的最小超立方体内随机产生新的候选检测器中心向量;然后采用聚类中心对候选检测器进行训练,排除中心向量落入聚类范围的无效检测器,保留其余检测器加入检测器集合;最后计算检测器在给定置信度下的覆盖率下限,以覆盖率下限大于给定的期望覆盖率作为中止检测器训练过程的条件。
附图说明
图1是本发明的工作流程图。
图2是正类集提取步骤图。
图3是正类集层次聚类图。
图4是构造训练样本集步骤图。
图5是候选检测器产生步骤图。
图6是候选检测器训练步骤图。
图7是中止条件判断步骤图。
具体实施方式
以下结合附图详细说明本发明的具体方法。
图1是本发明的工作流程。
图1是本发明的工作流程,本发明首先执行正类集提取步骤从正类样本属性中提取具有分类特征的属性fi构成正类样本集Positive={g|g=(f1,f2,…,fn),fi∈[0,1]};然后对正类样本执行层次聚类,将正类样本组织成聚类半径r逐层减半(确保聚类范围逐层收敛)的层次聚类结构;随后以正类样本的聚类中心构造检测器的训练样本集,训练样本集由聚类中心Ci=(C1,C2,…,Cn)和包含聚类的最小超立方体hi=([Ci1-r…Cin-r],[Ci1+r…Cin+r])组成;随后在每一层聚类的最小超立方体内随机产生新的候选检测器中心;候选检测器训练步骤采用聚类中心对候选检测器进行训练,以排除中心向量落入聚类范围的无效检测器,保留其余检测器加入检测器集合;最后计算检测器在给定置信度下的覆盖率下限P min ,以P min 大于给定的期望覆盖率Pexp作为中止检测器训练过程的条件
具体的,本发明提出的一种基于层次聚类的检测器生成方法包括以下步骤:
(1)正类集提取步骤;
(2)正类集层次聚类步骤;
(3)构造训练样本集步骤;
(4)候选检测器产生步骤;
(5)候选检测器训练步骤;
(6)中止条件判断步骤;
图2是正类集提取步骤。
图2给出了正类集提取步骤,首先计算正类和负类样本的属性差异,选取差异值较大的一组属性(at1,at2…atn)作为样本特征;然后提取正类样本在属性集(at1,at2…atn)上的取值作为样本特征向量构成正类集Positive={g|g=(f1,f2,…,fn),fi∈[0,1]},n为数据维数,fi代表第i个正类样本属性规范化后的值,具体步骤如下:
(1)样本属性选择步骤:选择与负类差异较大的n个正类样本属性作为特征向量,具体步骤如下:
1)样本随机选择步骤:在样本集中随机选择k个正类样本和k个负类样本;
2)属性均值差异计算步骤:计算k个正类样本和k个负类样本在m个属性上的均值之差的绝对值: 其中Pi,Ni分别代表第i个正类样本和第i个负类样本,m代表属性总数;
3)差异属性选择步骤:将Δj,1≤j≤m,从大到小排序,选前n个属性(at1,at2…atn)作为特征向量。
(2)样本属性归一化步骤:将正类样本的n个属性(at1,at2…atn)归一化到[0,1]单位区间,具体步骤如下:
1)属性极值扫描步骤:依次扫描全部正类样本的n个属性,获取每个属性的最大值Maxi和最小值Mini,1≤i≤n;
图3是正类集层次聚类步骤。
图3给出了正类集层次聚类,首先设置初始化聚类半径为 以确保顶层次聚类包含全部正类数据;随后以到其余正类样本的距离之和最小为标准从尚未划分聚类的正类样本中选取新的聚类中心ck,将与ck距离最近或距离ck小于r的样本划入ck代表的聚类;在每一层聚类结束后,聚类半径r减半,若r小于正类元素半径rs,则中止整个层次聚类过程,否则开始下一层聚类,具体步骤如下:
(2)聚类中心选取步骤:以尚未划分聚类的正类样本中到其余正类样本的距离之和最小为标准选取新的聚类中心ck,若不存在这样的聚类中心ck,则转步骤4;
(3)正类样本的聚类划分步骤:查找属于聚类ck的正类元素,为提高聚类划分效率,其具体步骤如下:
1)基于三角形法则的快速划分步骤:根据三角形法则,对于正类点s,聚类中心ci,和cj,若2dis(s,ci)≤dis(ci,cj),则可直接判定s距离cj最近,s被直接划入第j个聚类;
2)最邻近距离划分步骤:其余与ck的距离小于聚类半径r的正类点划入第k个聚类,转步骤(2);
(4) 聚类半径递减步骤:聚类半径减半r=r/2,若r<r s ,停止聚类过程,否则递增聚类层数,转步骤2
图4是构造训练样本集步骤。
图4给出了构造训练样本集步骤,选取每一聚类层的聚类中心代替正类样本组成训练集合;随后计算包含每一聚类范围的最小超立方体,最小超立方体将作为下一聚类层中候选检测器中心向量的取值范围,具体步骤如下:
(2)最小超立方体计算步骤:计算l层中包含每个聚类Ci的最小超立方体,将其作为Ci的下一层聚类产生候选检测器中心向量的取值范围,具体步骤如下:
图5是候选检测器产生步骤。
图5给出了候选检测器产生步骤图,为了在每一聚类层产生候选检测器,首先在包含上层聚类范围的最小超立方体内,随机产生候选检测器的中心向量x,随后初始化候选检测器半径r为0,具体步骤如下:
(1)设置检测器中心向量步骤:包括超立方体选择步骤、中心向量属性生成步骤,具体步骤如下:
1)超立方体选择步骤:选择l层的每个聚类Ci对应于l-1的超立方体h;
2)中心向量属性生成步骤:以h在各数据维的两个端点为候选检测器中心向量在对应维的取值范围内,随机产生检测器中心向量x,其中1≤l≤N,N为全部聚类层数;
(2)初始化检测半径步骤:设置新产生的候选检测器半径为0。
图6是候选检测器训练步骤。
图6给出了候选检测器训练步骤图,对于聚类层l,以该层聚类中心构成的训练样本对候选检测器d<x,0>进行训练,若检则器中心向量x处于任意聚类范围内,则舍弃x,否则以x到最邻近聚类的距离重置检测器的半径r,具体步骤如下:
(1)聚类中心匹配步骤:对于l层聚类,1≤l≤N,N为全部聚类层数,以l层的训练样本集中的聚类中心对该聚类层产生的候选检测器x进行训练,具体步骤如下:
1)检测器与聚类中心距离计算步骤:计算候选检测器与训练样本间的距离;
2)检测器合法性判断步骤:若候选检测器x与训练样本间的距离小于l层的聚类半径,则舍弃x,结束;
(2)检测半径计算步骤:计算检测器与最领近聚类间的距离,设置新的检测器半径rd=min(dis(x,d)-r);
(3)检测器合并步骤:将新产生的检测器d<x,rd>合并到检测器集合中。
图7是中止条件判断步骤。
[0030] 图7给出了中止条件判断步骤,包括:初始化参数设置步骤、检测器覆盖统计步骤、 置信下限计算步骤、中止步骤。检测器训练过程检测器以达到期望的负类空间覆盖率为中止条件,由于直接计算检测器盖率P不可行,因此本发明对负类数据点进行固定规模的连续采样,通过样本点被覆盖的数量对p进行估计:对于检测器集合D,任意负类样本x被检测器覆盖的概率p服从二项分布P{x=1,x被检测器覆盖}=p,P{x=0,x未被检测器覆盖}=1-p,那么 近似服从正态分布,根据概率统计原理P在置信度为1-α下的置信下限为 其中, 为xi的均值。其具体步骤如下:
(1)初始化参数设置步骤:设置负类采样数量n,期望覆盖率Pexp,置信度1-α;
(2)检测器覆盖统计步骤:统计n个负类点被检测器识别的数量t,以及检测器对样本点被的覆盖率t/n;
(4)中止步骤:若Pmin大于期望覆盖率Pexp,则中止检测器的生成过程。
Claims (7)
1.一种基于层次聚类的检测器生成方法,其特征在于所述方法包括以下步骤:
(1) 正类集提取步骤,包括以下步骤:
1) 样本属性选择步骤;
2) 样本属性归一化步骤;
(2) 正类集层次聚类步骤,包括以下步骤:
1) 初始化聚类参数步骤;
2) 聚类中心选取步;
3) 正类样本的聚类划分步骤;
4) 聚类半径递减步骤;
(3) 构造训练样本集步骤,包括以下步骤:
1) 聚类中心提取步骤;
2) 最小超立方体计算步骤;
(4) 候选检测器产生步骤,包括以下步骤:
1) 设置检测器中心向量步骤;
2) 初始化检测半径步骤;
(5) 候选检测器训练步骤,包括以下步骤:
1) 聚类中心匹配步骤;
2) 检测半径计算步骤;
3) 检测器合并步骤;
(6) 中止条件判断步骤,包括以下步骤:
1) 初始化参数设置步骤;
2) 检测器覆盖统计步骤;
3) 置信下限计算步骤;
4) 中止步骤。
2.根据权利要求1所述的一种基于层次聚类的检测器生成方法,其特征在于,样本属性选择步骤包括以下步骤:
1) 样本随机选择步骤;
2) 属性均值差异计算步骤;
3) 差异属性选择步骤。
3.根据权利要求1所述的一种基于层次聚类的检测器生成方法,其特征在于,样本属性归一化步骤包括以下步骤:
1) 属性极值扫描步骤;
2) 属性归一化计算步骤。
4.根据权利要求1所述的一种基于层次聚类的检测器生成方法,其特征在于,正类样本的聚类划分步骤包括以下步骤:
1) 基于三角形法则的快速划分步骤;
2) 最邻近距离划分步骤。
5.根据权利要求1所述的一种基于层次聚类的检测器生成方法,其特征在于,最小超立方体计算步骤包括以下步骤:
1) 超立方体中心选取步骤;
2) 超立体端点计算步骤。
6.根据权利要求1所述的一种基于层次聚类的检测器生成方法,其特征在于,设置检测器中心向量步骤包括以下步骤:
1) 超立方体选择步骤;
2) 中心向量属性生成步骤。
7.根据权利要求1所述的一种基于层次聚类的检测器生成方法,其特征在于,聚类中心匹配步骤包括以下步骤:
1) 检测器与聚类中心距离计算步骤;
2) 检测器合法性判断步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100242745A CN102831431A (zh) | 2012-02-05 | 2012-02-05 | 一种基于层次聚类的检测器训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100242745A CN102831431A (zh) | 2012-02-05 | 2012-02-05 | 一种基于层次聚类的检测器训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102831431A true CN102831431A (zh) | 2012-12-19 |
Family
ID=47334559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100242745A Pending CN102831431A (zh) | 2012-02-05 | 2012-02-05 | 一种基于层次聚类的检测器训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102831431A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105049286A (zh) * | 2015-07-21 | 2015-11-11 | 国家计算机网络与信息安全管理中心 | 基于层次聚类的云平台测速数据判定方法 |
CN106021452A (zh) * | 2016-05-16 | 2016-10-12 | 南方电网科学研究院有限责任公司 | 一种电磁环境测量数据清洗方法 |
CN106384507A (zh) * | 2016-09-20 | 2017-02-08 | 宁波大学 | 基于稀疏检测器的行程时间实时估计方法 |
CN107895179A (zh) * | 2017-11-29 | 2018-04-10 | 合肥赑歌数据科技有限公司 | 一种基于临近值分析的工件分类系统及方法 |
CN108846259A (zh) * | 2018-04-26 | 2018-11-20 | 河南师范大学 | 一种基于聚类和随机森林算法的基因分类方法及系统 |
CN108961221A (zh) * | 2018-06-15 | 2018-12-07 | 哈尔滨工业大学 | 一种航空插头现场静态图像检测算法 |
CN110493221A (zh) * | 2019-08-19 | 2019-11-22 | 四川大学 | 一种基于聚簇轮廓的网络异常检测方法 |
CN111008675A (zh) * | 2019-12-26 | 2020-04-14 | 口碑(上海)信息技术有限公司 | 召回区域的抽样处理方法及装置 |
CN111368926A (zh) * | 2020-03-06 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像筛选方法、装置和计算机可读存储介质 |
CN113094713A (zh) * | 2021-06-09 | 2021-07-09 | 四川大学 | 一种自适应的主机入侵检测序列特征提取方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073907A (zh) * | 2011-02-10 | 2011-05-25 | 江苏大学 | 一种新型人工免疫系统和基于蚁群优化的检测器集优化方法 |
-
2012
- 2012-02-05 CN CN2012100242745A patent/CN102831431A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073907A (zh) * | 2011-02-10 | 2011-05-25 | 江苏大学 | 一种新型人工免疫系统和基于蚁群优化的检测器集优化方法 |
Non-Patent Citations (3)
Title |
---|
CHEN WEN 等: "a negative selection algorithm based on hierarchical clustering of self set and its application in anomaly detection", 《INTERNATIONAL JOURNAL OF COMPUTATIONAL INTELLIGENCE SYSTEMS》 * |
CHEN WEN 等: "A negative selection algorithm based on hierarchical clustering of self set", 《SCIENCE CHINA-INFORMATION SCIENCES》 * |
ZHOU J.: "Negative Selection Algorithms: from the Thymus to V- detector", 《PH. D DISSERTATION. MEMPHIS: UNIVERSITY OF MEMPHIS》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105049286A (zh) * | 2015-07-21 | 2015-11-11 | 国家计算机网络与信息安全管理中心 | 基于层次聚类的云平台测速数据判定方法 |
CN106021452A (zh) * | 2016-05-16 | 2016-10-12 | 南方电网科学研究院有限责任公司 | 一种电磁环境测量数据清洗方法 |
CN106384507A (zh) * | 2016-09-20 | 2017-02-08 | 宁波大学 | 基于稀疏检测器的行程时间实时估计方法 |
CN107895179A (zh) * | 2017-11-29 | 2018-04-10 | 合肥赑歌数据科技有限公司 | 一种基于临近值分析的工件分类系统及方法 |
CN108846259B (zh) * | 2018-04-26 | 2020-10-23 | 河南师范大学 | 一种基于聚类和随机森林算法的基因分类方法及系统 |
CN108846259A (zh) * | 2018-04-26 | 2018-11-20 | 河南师范大学 | 一种基于聚类和随机森林算法的基因分类方法及系统 |
CN108961221A (zh) * | 2018-06-15 | 2018-12-07 | 哈尔滨工业大学 | 一种航空插头现场静态图像检测算法 |
CN108961221B (zh) * | 2018-06-15 | 2021-09-07 | 哈尔滨工业大学 | 一种航空插头现场静态图像检测算法 |
CN110493221A (zh) * | 2019-08-19 | 2019-11-22 | 四川大学 | 一种基于聚簇轮廓的网络异常检测方法 |
CN110493221B (zh) * | 2019-08-19 | 2020-04-28 | 四川大学 | 一种基于聚簇轮廓的网络异常检测方法 |
CN111008675A (zh) * | 2019-12-26 | 2020-04-14 | 口碑(上海)信息技术有限公司 | 召回区域的抽样处理方法及装置 |
CN111368926A (zh) * | 2020-03-06 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像筛选方法、装置和计算机可读存储介质 |
CN111368926B (zh) * | 2020-03-06 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 图像筛选方法、装置和计算机可读存储介质 |
CN113094713A (zh) * | 2021-06-09 | 2021-07-09 | 四川大学 | 一种自适应的主机入侵检测序列特征提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102831431A (zh) | 一种基于层次聚类的检测器训练方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN107948930A (zh) | 基于位置指纹算法的室内定位优化方法 | |
CN104765768A (zh) | 海量人脸库的快速准确检索方法 | |
CN110084195A (zh) | 基于卷积神经网络的遥感图像目标检测方法 | |
CN110322453A (zh) | 基于位置注意力和辅助网络的3d点云语义分割方法 | |
CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN107182036A (zh) | 基于多维特征融合的自适应位置指纹定位方法 | |
CN109410238A (zh) | 一种基于PointNet++网络的枸杞识别计数方法 | |
CN107977656A (zh) | 一种行人重识别方法及系统 | |
CN103916820A (zh) | 基于接入点稳定度的无线室内定位方法 | |
CN110852152B (zh) | 一种基于数据增强的深度哈希行人重识别方法 | |
CN105813194A (zh) | 基于指纹数据库二次校正的室内定位方法 | |
CN101339664A (zh) | 一种目标跟踪方法及系统 | |
CN106934773A (zh) | 视频运动目标与Mac地址匹配方法 | |
CN110426037A (zh) | 一种封闭环境下的行人运动轨迹实时获取方法 | |
CN109039503A (zh) | 一种频谱感知方法、装置、设备及计算机可读存储介质 | |
CN103366365A (zh) | 基于人工免疫多目标聚类的sar图像变化检测方法 | |
CN110263731B (zh) | 一种单步人脸检测系统 | |
CN101872415A (zh) | 适用于iptv的视频拷贝检测方法 | |
CN109886267A (zh) | 一种基于最优特征选择的低对比度图像显著性检测方法 | |
CN109284760A (zh) | 一种基于深度卷积神经网络的家具检测方法及装置 | |
CN103699874A (zh) | 基于surf流和lle稀疏表示的人群异常行为识别方法 | |
CN116699096B (zh) | 一种基于深度学习的水质检测方法和系统 | |
CN109800756A (zh) | 一种用于中文历史文献密集文本的文字检测识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121219 |