CN108376266A - 基于样本边缘点内部点的单类支持向量机核参数优化方法 - Google Patents
基于样本边缘点内部点的单类支持向量机核参数优化方法 Download PDFInfo
- Publication number
- CN108376266A CN108376266A CN201810203614.8A CN201810203614A CN108376266A CN 108376266 A CN108376266 A CN 108376266A CN 201810203614 A CN201810203614 A CN 201810203614A CN 108376266 A CN108376266 A CN 108376266A
- Authority
- CN
- China
- Prior art keywords
- sample
- point
- parameter
- support vector
- vector machines
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Complex Calculations (AREA)
Abstract
本发明提出了一种基于样本边缘点内部点的单类支持向量机核参数优化方法,对目标类数据集样本进行归一化处理;根据每一个样本点与其近邻样本的几何关系,选择样本的边缘点与内部点;寻找每个边缘点与内部点在指定样本集中的最近邻与最远邻;根据样本的空间分布情况,确定核参数的备选集合;以核参数备选集合中的每一个参数值,构造对应的高斯核函数;计算核参数合适程度指标,将合适程度指标最大值所对应的参数值作为最优核参数值。本发明能够实现单类支持向量机核参数的自动优化,优化过程不需要训练单类支持向量机,优化所得参数使单类支持向量机分类准确率高,本发明在故障检测、新异点检测领域有广阔的应用前景。
Description
技术领域
本发明涉及一种参数优化方法,特别是一种基于样本边缘点内部点的单类支持向量机核参数优化方法。
背景技术
故障检测通过监控产品生产过程的各个变量,及时发现生产过程中的故障,保证产品质量。在实际生产过程中,大多数是正常样本,而故障样本通常意味着经济损失,所以它们难以获得,数量非常稀少。而且,这些少量的故障样本只是来自某几个故障,它们不具有代表性,不能覆盖全部的故障样本区域。以这样数量相差悬殊的正常样本和故障样本建立二分类模型,将导致模型出现偏差,不能准确检测故障。针对这种情况,研究人员提出采用单类样本分类模型来检测故障。在众多单类样本分类方法中,单类支持向量机(one-class SVM,OCSVM)因其非线性处理能力以及模型的稀疏性而得到广泛应用。
OCSVM方法通常要采用高斯核函数来处理非线性,高斯核函数决定了样本在特征空间中的分布情况,进而影响OCSVM的效果,因此核函数参数的优化对于OCSVM方法的表现至关重要。针对OCSVM的参数优化方法可以分为两类,直接法和间接法。直接法在优化核参数的过程中则需要训练OCSVM模型,根据模型的中间结果来优化参数。此类方法由于需要反复训练OCSVM模型,计算量大耗时较长,如利用样本到OCSVM包裹曲面的距离来优化参数(Xiao,Y.,Wang,H.and Xu,W.,“Parameter selection of Gaussian kernel for one-class SVM,”IEEE Transactions on cybernetics 45(5),927–939(2015).)。间接法通过分析样本点在特征空间中的像的分布来优化核函数参数,不需要训练OCSVM模型。Evangelista等人认为核矩阵非对角线元素的均值和方差可以反映样本像在特征空间中的散布程度,因此提出通过最大化某个由均值和方差组成的指标来优化核函数参数(Evangelista,P.F.,Embrechts,M.J.and Szymanski,B.K.,“Some properties of theGaussian kernel for one class learning,”17th International conference onartificial neural networks,ICANN2007(2007).)。该类方法虽然计算量小,但未考虑样本之间的几何关系,导致优化所得参数表现不好。
发明内容
发明目的:本发明提供一种基于样本边缘点内部点的单类支持向量机核参数优化方法,可实现单类支持向量机核参数的自动优化且不需要训练单类支持向量机,优化所得参数使单类支持向量机分类准确率更高。
技术方案:本发明所述的一种基于样本边缘点内部点的单类支持向量机核参数优化方法,包括以下步骤:
(1)对样本进行归一化处理,得到归一化数据集x1,x2,…,xn;
(2)根据归一化后的每一个样本点与其近邻样本的几何关系,选择样本的边缘点与内部点;
(3)寻找每个边缘点与内部点在指定样本集中的最近邻与最远邻;
(4)确定核参数的备选集合{si,i=1,2,…,q},构造对应的高斯核函数;
(5)计算每一个备选参数si的优化目标值fo(si),选取其中最大值对应的si作为最优核参数值输出。
步骤(1)所述的归一化处理,可通过以下公式实现:
其中,mean(p)和std(p)分别为样本的某一维度p上的均值和标准差,xip为归一化后的数值,代表归一化前样本的第p维变量。
所述步骤(2)包括以下步骤:
(22)寻找归一化数据集中的每个样本xi的k个近邻;
(22)根据xi的k个近邻计算指标参数li;
(23)将li(i=1,2,…,n)升序排列,取前个li所对应的样本组成边缘点集XE,后m个li所对应的样本组成内部点集XI。
所述步骤(3)包括以下步骤:
(31)对于每一个边缘点在边缘点集中寻找它的最远邻在内部点集中寻找它的最远邻
(32)对于每一个内部点在内部点集中寻找它的最近邻
步骤(4)所述的高斯核函数通过以下公式获得:
其中,k(x,y)代表高斯核函数,x和y代表样本点,s代表核参数。
所述步骤(5)包括以下步骤:
(51)优化目标值的计算公式如下:
其中m是选择边缘点或内部点的个数;
(52)选择优化目标值{fo(si),i=1,2,…,q}中最大值对应的si作为优化得到的最优核参数。
有益效果:与现有技术相比,本发明的有益效果:1、充分利用样本信息,将目标类样本区分为边缘点和内部点,进而利用二者间的几何关系,提高优化所得核参数的表现,实现单类支持向量机核参数的自动优化;2、不需要单类支持向量机的模型信息,不需要反复训练单类支持向量机模型,核参数优化过程计算量小,速度快,优化所得参数使单类支持向量机分类准确率高。
附图说明
图1为本发明的流程图;
图2为本发明训练样本分布图;
图3为高斯核参数为0.1时单类支持向量机的决策曲面图;
图4为高斯核参数为1.2时单类支持向量机的决策曲面图;
图5为高斯核参数为10时单类支持向量机的决策曲面图;
图6为自动选择的样本边缘点与内部点图;
图7为目标函数值曲线图;
图8为优化所得高斯核参数所对应的决策曲面图;
图9为本发明方法与其他同类方法的运行时间对比图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为本发明流程图,本发明提供的是一种基于样本边缘点内部点的单类支持向量机核参数优化方法,包括以下步骤:
1、对于目标类数据集中的n个d维样本进行归一化,使其各维度的均值为0,标准差为1,得到归一化后数据集x1,x2,…,xn。对于样本的某一维度p,计算样本上的均值mean(p)和标准差std(p),其中均值和标准差的计算公式如下:
其中代表归一化前样本的第p维变量,归一化后的数值xip按下式计算:
2、根据归一化后的每一个样本点与其近邻样本的几何关系,选择样本的边缘点与内部点
(1)对于数据集中的每个样本xi,寻找它的k个近邻:计算样本xi与其他样本之间的欧式距离dij=||xi-xj||2(j≠i),其中最小的k个值所对应的k个样本即为xi的k近邻,记为xij,j=1,...,k,此处k的取值为5ln(n)。
(2)根据xi的k个近邻计算指标参数li,指标li的计算过程为:
a)利用xi的k近邻(xij,j=1,...,k)计算法向量
其中
b)计算xi到其各个近邻的向量与法向量的内积
c)统计θij的非负比例
其中I(·)为指示函数,当括号中事件为真时,其函数值为1,否则为0。
(3)将li(i=1,2,…,n)升序排列,取前个li所对应的样本组成边缘点集XE,后m个li所对应的样本组成内部点集XI,其中γ取值为0.05。
3、寻找每个边缘点与内部点在指定样本集中的最近邻与最远邻
(1)对于每一个边缘点在边缘点集中寻找它的最远邻在内部点集中寻找它的最远邻即
(2)对于每一个内部点在内部点集中寻找它的最近邻即
4、确定核参数的备选集合{si,i=1,2,…,q},构造对应的高斯核函数
根据样本间的最大距离与最小距离,计算得到高斯核函数的参数s的备选集合{si,i=1,2,…,q},参数备选集合生成过程如下:
(1)计算样本间的最大距离与最小距离
(2)将区间20等分,得到等分点值ai,i=1,…,21,其中
(3)以exp(ai),i=1,…,q作为备选参数值,其中q=21。
5、计算每一个备选参数si的优化目标值fo(si),选取其中最大值对应的si作为最优核参数值输出。
(1)对于每一个备选参数si,计算它相应的优化目标值fo(si),优化目标值fo(si)的计算公式如下:
其中m是选择边缘点(或内部点)的个数。
(2)选择优化目标值{fo(si),i=1,2,…,q}中最大值对应的si作为优化得到的最优核参数。
下面结合图2至图9,通过仿真实验的实施例及其效果评价来进一步说明本发明。
在本实施例中,如图2中实心点所示,实验对象为500个目标类样本,实验目标是仅根据这些样本,优化得到单类支持向量机高斯核参数,使得单类支持向量机的决策曲面可以恰当地包裹样本所在区域。图3-图5给出了高斯核参数分别为0.1、1.2、10,单类支持向量机的决策曲面,可以看出,参数值过小,决策曲面过学习,泛化能力差;参数值过大,决策曲面欠学习,不能描绘样本区域。图6为本实施实例中的样本边缘点与内部点图,可以看到选择的边缘点位于样本区域的边缘,而内部点位于样本区域的内部。图7为备选参数集计算得到的目标函数值曲线,其中实心点代表曲线最大值,最大值处的参数值为2.266。图8为优化所得高斯核参数所对应的决策曲面,可见该曲面松紧适度地包裹了样本区域。图9为发明方法与其他同类方法的运行时间对比,可见发明方法的计算量小、运行时间短。
Claims (6)
1.一种基于样本边缘点内部点的单类支持向量机核参数优化方法,其特征在于,包括以下步骤:
(1)对样本进行归一化处理,得到归一化数据集x1,x2,…,xn;
(2)根据归一化后的每一个样本点与其近邻样本的几何关系,选择样本的边缘点与内部点;
(3)寻找每个边缘点与内部点在指定样本集中的最近邻与最远邻;
(4)确定核参数的备选集合{si,i=1,2,…,q},构造对应的高斯核函数;
(5)计算每一个备选参数si的优化目标值fo(si),选取其中最大值对应的si作为最优核参数值输出。
2.根据权利要求1所述的基于样本边缘点内部点的单类支持向量机核参数优化方法,其特征在于,步骤(1)所述的归一化处理,可通过以下公式实现:
其中,mean(p)和std(p)分别为样本的某一维度p上的均值和标准差,xip为归一化后的数值,代表归一化前样本的第p维变量。
3.根据权利要求1所述的基于样本边缘点内部点的单类支持向量机核参数优化方法,其特征在于,所述步骤(2)包括以下步骤:
(21)寻找归一化数据集中的每个样本xi的k个近邻;
(22)根据xi的k个近邻计算指标参数li;
(23)将li(i=1,2,…,n)升序排列,取前个li所对应的样本组成边缘点集XE,后m个li所对应的样本组成内部点集XI。
4.根据权利要求1所述的基于样本边缘点内部点的单类支持向量机核参数优化方法,其特征在于,所述步骤(3)包括以下步骤:
(31)对于每一个边缘点在边缘点集中寻找它的最远邻在内部点集中寻找它的最远邻
(32)对于每一个内部点在内部点集中寻找它的最近邻
5.根据权利要求1所述的基于样本边缘点内部点的单类支持向量机核参数优化方法,其特征在于,步骤(4)所述的高斯核函数通过以下公式获得:
其中,k(x,y)代表高斯核函数,x和y代表样本点,s代表核参数。
6.根据权利要求1所述的基于样本边缘点内部点的单类支持向量机核参数优化方法,其特征在于,所述步骤(5)包括以下步骤:
(51)优化目标值的计算公式如下:
其中m是选择边缘点或内部点的个数;
(52)选择优化目标值{fo(si),i=1,2,…,q}中最大值对应的si作为优化得到的最优核参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810203614.8A CN108376266A (zh) | 2018-03-13 | 2018-03-13 | 基于样本边缘点内部点的单类支持向量机核参数优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810203614.8A CN108376266A (zh) | 2018-03-13 | 2018-03-13 | 基于样本边缘点内部点的单类支持向量机核参数优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108376266A true CN108376266A (zh) | 2018-08-07 |
Family
ID=63018577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810203614.8A Pending CN108376266A (zh) | 2018-03-13 | 2018-03-13 | 基于样本边缘点内部点的单类支持向量机核参数优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108376266A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110068279A (zh) * | 2019-04-25 | 2019-07-30 | 重庆大学产业技术研究院 | 一种基于点云数据的预制构件平面圆孔提取方法 |
CN111680593A (zh) * | 2020-05-29 | 2020-09-18 | 西安电子科技大学 | 基于自适应一类svm模型的sar图像目标鉴别方法 |
CN112613233A (zh) * | 2020-12-18 | 2021-04-06 | 中国环境监测总站 | 基于单分类支持向量机模型发现环境监测异常数据的算法 |
-
2018
- 2018-03-13 CN CN201810203614.8A patent/CN108376266A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110068279A (zh) * | 2019-04-25 | 2019-07-30 | 重庆大学产业技术研究院 | 一种基于点云数据的预制构件平面圆孔提取方法 |
CN111680593A (zh) * | 2020-05-29 | 2020-09-18 | 西安电子科技大学 | 基于自适应一类svm模型的sar图像目标鉴别方法 |
CN111680593B (zh) * | 2020-05-29 | 2023-03-24 | 西安电子科技大学 | 基于自适应一类svm模型的sar图像目标鉴别方法 |
CN112613233A (zh) * | 2020-12-18 | 2021-04-06 | 中国环境监测总站 | 基于单分类支持向量机模型发现环境监测异常数据的算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106228185B (zh) | 一种基于神经网络的通用图像分类识别系统及方法 | |
TWI794157B (zh) | 自動多閾值特徵過濾方法及裝置 | |
CN111160533B (zh) | 一种基于跨分辨率知识蒸馏的神经网络加速方法 | |
CN109409252A (zh) | 一种基于改进型ssd网络的车辆行人多目标检测方法 | |
CN110738647B (zh) | 融合多感受野特征映射与高斯概率模型的老鼠检测方法 | |
CN109993236A (zh) | 基于one-shot Siamese卷积神经网络的少样本满文匹配方法 | |
CN108376266A (zh) | 基于样本边缘点内部点的单类支持向量机核参数优化方法 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN103971095A (zh) | 基于多尺度lbp和稀疏编码的大规模人脸表情识别方法 | |
CN105046714A (zh) | 一种非监督的基于超像素和目标发现机制的图像分割方法 | |
CN109472280A (zh) | 一种更新物种识别模型库的方法、存储介质及电子设备 | |
CN111898443A (zh) | 一种fdm型3d打印机送丝机构流量监测方法 | |
CN111860596A (zh) | 基于深度学习的无监督路面裂缝分类方法及模型建立方法 | |
CN116699096B (zh) | 一种基于深度学习的水质检测方法和系统 | |
CN104318241A (zh) | 基于Self-tuning的局部密度谱聚类相似度量算法 | |
CN103020645A (zh) | 一种垃圾图片识别方法和系统 | |
CN109086794B (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
CN110458600A (zh) | 画像模型训练方法、装置、计算机设备及存储介质 | |
CN115510981A (zh) | 一种决策树模型特征重要性计算方法、装置及存储介质 | |
Wayahdi et al. | Evaluation of the K-Nearest Neighbor Model With K-Fold Cross Validation on Image Classification | |
CN105468669A (zh) | 一种融合用户关系的自适应微博话题追踪方法 | |
CN116631190A (zh) | 智能交通监控系统及其方法 | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
CN109376619A (zh) | 一种细胞检测方法 | |
CN115309985A (zh) | 推荐算法的公平性评估方法及ai模型选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180807 |