CN111008710A - 一种全局信息加局部信息正则的支持向量数据描述方法 - Google Patents
一种全局信息加局部信息正则的支持向量数据描述方法 Download PDFInfo
- Publication number
- CN111008710A CN111008710A CN201911005871.1A CN201911005871A CN111008710A CN 111008710 A CN111008710 A CN 111008710A CN 201911005871 A CN201911005871 A CN 201911005871A CN 111008710 A CN111008710 A CN 111008710A
- Authority
- CN
- China
- Prior art keywords
- image domain
- information
- global
- relative
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及机器学习领域中的一类分类问题,具体涉及一种全局信息加局部信息正则的支持向量数据描述方法,包括获取训练样本、定义训练样本度量参数、计算概率密度函数与信息熵、获取决策函数、通过决策函数对位置样本进行决策几个步骤。本发明通过定义相对全部像域距离测度和相对局部像域距离测度,计算全局像域概率密度函数和局部像域概率密度函数,构建全局像域信息熵和局部像域信息熵,引入全局像域信息熵和局部像域信息熵到支持向量数据描述(SVDD)中,提高SVDD训练过程使用的信息量,减少训练过程对训练样本的不确定性,降低训练过程的惩罚参数敏感性,从而获得更好的决策模型。
Description
技术领域
本发明涉及机器学习领域中的一类分类问题,特别涉及全局信息加局部信息正则的支持向量数据描述方法。
背景技术
在许多真实应用中,获取异常数据的成本非常高,如医疗诊断、机器故障诊断、线路板质量检测、农产品质量检测等。针对这些应用的一类分类问题获得很大关注。
一般地,基于机器学习的一类分类问题中,其训练数据只有单类目标数据或拥有较多的目标数据以及少量的非目标数据这两种情况。为解决这类问题,从不同角度提出了许多方法,如支持向量数据描述(Support Vector Data Description,SVDD)、基于L1范数的核组成分分析方法(L1-norm-based kernel principle component analysis,L1-KPCA)、基于熵的一类分类器 (entropic one-class classifier,EOCC)、多分布数据描述描述(Multiple Distribution Data Description,MD-DD)等。作为一种典型的数据描述方法,支持向量数据描述(SVDD)得到了很大的关注。
支持向量数据描述(SVDD)的目标是在特则空间中找到一个最小球体来包含所有或者大部分的训练样本,球体的球心和半径通过支持向量计算获得。但支持向量强烈依耐于惩罚参数,这导致支持向量数据描述(SVDD)对惩罚参数非常敏感,直接影响一类问题的检测效果。针对惩罚参数的敏感性,提出了一些SVDD的改进方法,如位置正则的支持向量数据描述(Position Regularized Support Vector Data Description,P-SVDD)、密度权的支持向量数据描述(Density Weighted Support Vector Data Description)。这类方法通过计算训练样本在特征空间或原始空间中的位置或密度来评估该样本在SVDD训练过程中的惩罚度,而位置或密度均需要通过距离间接计算获得。这意味着,在处理惩罚参数敏感性问题上,使用什么样的距离测度以及计算谁的距离更加合理,仍是一个巨大挑战。
本发明在特则空间(具体在高斯核空间)中,根据高斯核空间的几何属性,设计针对全局像域的三种距离度量方法和设计针对局部像域的三种距离度量方法,利用这些距离度量方法构建了相关密度函数,并将全局像域的信息熵和局部像域的信息熵共同引入到支持向量数据描述(SVDD)以实现对惩罚参数的正则,使得SVDD在训练过程中能够使用更多的信息(包括全局像域信息和局部像域信息)和减少训练样本的不确定度,降低了SVDD对惩罚参数的敏感性,提升其一类分类效果。
发明内容
本发明的目的就是解决现有技术中的问题,提出一种全局信息加局部信息正则的支持向量数据描述方法,使用更多信息(包括全局像域信息和局部像域信息)和减少训练样本的不确定度,降低支持向量数据描述(SVDD)方法对惩罚参数的敏感性,提升其一类分类效果。
为实现上述目的,本发明提出了一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,包括以下步骤:
第一,从给定数据集中,提取训练样本;
第二,在高斯核函数空间内,定义每个训练样本相对全局像域的度量参数以及相对局部像域的度量参数;所述相对全局像域的度量参数包括,位置欧式距离投影欧式距离和投影球面距离所述相对局部像域的度量参数包括,位置欧式距离投影欧式距离和投影球面距离
第五,利用上述获得的决策函数,对未知样本进行决策。
作为优选,所述步骤二中:
1)相对全局像域的位置欧式距离度量计算式为:
其中,xi和xj为样本点,k(·,·)为高斯核函数;
2)相对全局像域的投影欧式距离度量计算式为:
3)相对全局像域的投影球面距离度量计算式为:
作为优选,所述步骤二中:
1)相对局部像域的位置欧式距离度量计算式为:
2)相对局部像域的投影欧式距离度量计算式为:
3)相对局部像域的投影球面距离度量计算式为:
作为优选,步骤三中:
作为优选,步骤三中:
作为优选,所述步骤四中,获取决策函数的具体步骤为:
subject to||φ(xi)-a||2≤R2+ξi,ξi≥0,1≤i≤N.
其中,φ(·)为高斯核诱导的非线性映射函数,R、a为SVDD获得最小包含球的半径和球心,ξi为松弛变量,N为训练样本数据个数,C为惩罚参数。
2)利用拉格朗日技巧,获得式(15)的对偶问题
通过式(16),获得拉格朗日乘子αi(1≤i≤N);
3)获得决策函数
作为优选,惩罚参数C的数值从{0.01,0.05,0.1,0.3,0.5,0.7,0.9,1,1.5,2}中选取。
本发明的优点是:本发明提供一种支持向量数据描述(SVDD)惩罚参数正则方法,通过定义相对全部像域距离测度和相对局部像域距离测度,计算全局像域概率密度函数和局部像域概率密度函数,构建全局像域信息熵和局部像域信息熵,引入全局像域信息熵和局部像域信息熵到支持向量数据描述(SVDD)中,提高SVDD训练过程使用的信息量,减少训练过程对训练样本的不确定性,降低训练过程的惩罚参数敏感性,从而获得更好的决策模型。
附图说明
图1是本发明的流程示意图。
具体实施方式
以下具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
下面结合附图以实施例对本发明进行详细说明。
根据图1所示,一种全局信息加局部信息正则的支持向量数据描述方法,具体实施步骤如下:
1、从给定数据集中,提取训练样本;
2、对每个训练样本计算相对全局像域的位置欧式距离度量
其中,k(·,·)为高斯核函数。
3、对每个训练样本计算相对全局像域的投影欧式距离度量
4、对每个训练样本计算相对全局像域的投影球面距离度量
5、对每个训练样本计算相对局部像域的位置欧式距离度量
6、对每个训练样本计算相对局部像域的投影欧式距离度量
7、对每个训练样本计算相对局部像域的投影球面距离度量
8、利用式(1)或式(2)或式(3)计算相对于全局像域的概率密度函数,分别对应如下3种方法
9、利用式(4)或式(5)或式(6)计算相对于局部像域的概率密度函数,分别对应如下3种方法
10、利用式(7)或式(8)或式(9)构建全局像域信息熵
11、利用式(10)或式(11)或式(12)构建局部像域信息熵
12、求解如下优化问题,获得拉格朗日乘子αi(1≤i≤N),惩罚参数C的数值从{0.01,0.05,0.1,0.3,0.5,0.7,0.9,1,1.5,2}中选取
13、给定未知样本x,通过以下决策函数进行决策
实施例1:
在真实的OCC数据集数据集上,利用本发明中方法进行学习,构建决策函数进行一类分类任务。如表1所示(GL-SVDDLE对应本发明方法中的位置欧式距离度量,GL-SVDDPE对应本发明方法中的投影欧式距离度量,GL-SVDDPS对应本发明方法中的投影球面距离度量),由于本发明同时利用全局信息和局部信息,以及通过最小信息熵减少训练样本不确定性,降低SVDD对惩罚参数的敏感性,在OCC一类分类问题中获得了好的性能。
表1
实施例2:
在真实的樱桃高光谱数据集集上,利用本发明中方法进行学习,构建决策函数进行一类分类任务。如表2所示(GL-SVDDLE对应本发明方法中的位置欧式距离度量,GL-SVDDPE对应本发明方法中的投影欧式距离度量,GL-SVDDPS对应本发明方法中的投影球面距离度量),由于本发明同时利用全局信息和局部信息,以及通过最小信息熵减少训练样本不确定性,降低SVDD对惩罚参数的敏感性,在樱桃高光谱数据集一类分类问题,包括成熟度鉴别和口感类型鉴别中获得了好的性能。
表2
Claims (7)
1.一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,包括以下步骤:
第一,从给定数据集中,提取训练样本;
第二,在高斯核函数空间内,定义每个训练样本相对全局像域的度量参数以及相对局部像域的度量参数;所述相对全局像域的度量参数包括,位置欧式距离投影欧式距离和投影球面距离所述相对局部像域的度量参数包括,位置欧式距离投影欧式距离和投影球面距离
第三,分别计算相对全局像域的概率密度函数Pi G与相对局部像域的概率密度函数Pi L,并通过上述Pi G与Pi L分别构建全局像域信息熵Wi G与局部像域信息熵Wi L;
第四,将所述全局像域信息熵Wi G与局部像域信息熵Wi L共同引入到支持向量数据描述(SVDD)模型中,获得决策函数;
第五,利用上述获得的决策函数,对未知样本进行决策。
6.根据权利要求5所述的一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,所述步骤四中,获取决策函数的具体步骤为:
1)将全局像域信息熵Wi G与局部像域信息熵Wi L共同引入到支持向量数据描述(SVDD)模型中
其中,φ(·)为高斯核诱导的非线性映射函数,R、a为SVDD获得最小包含球的半径和球心,ξi为松弛变量,N为训练样本数据个数,C为惩罚参数。
2)利用拉格朗日技巧,获得式(15)的对偶问题
通过式(16),获得拉格朗日乘子αi(1≤i≤N);
3)获得决策函数
其中,xs为任意一个满足0<αi<C(WiG+Wi L)的支持向量。如果f(x)≤0,则x为目标(正常)样本,否则为非目标(或异常)样本。
7.根据权利要求6所述的一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,惩罚参数C的取值从{0.01,0.05,0.1,0.3,0.5,0.7,0.9,1,1.5,2}中选取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911005871.1A CN111008710A (zh) | 2019-10-22 | 2019-10-22 | 一种全局信息加局部信息正则的支持向量数据描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911005871.1A CN111008710A (zh) | 2019-10-22 | 2019-10-22 | 一种全局信息加局部信息正则的支持向量数据描述方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111008710A true CN111008710A (zh) | 2020-04-14 |
Family
ID=70110941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911005871.1A Pending CN111008710A (zh) | 2019-10-22 | 2019-10-22 | 一种全局信息加局部信息正则的支持向量数据描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008710A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113225226A (zh) * | 2021-04-30 | 2021-08-06 | 上海爱数信息技术股份有限公司 | 一种基于信息熵的云原生系统观测方法及系统 |
-
2019
- 2019-10-22 CN CN201911005871.1A patent/CN111008710A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113225226A (zh) * | 2021-04-30 | 2021-08-06 | 上海爱数信息技术股份有限公司 | 一种基于信息熵的云原生系统观测方法及系统 |
CN113225226B (zh) * | 2021-04-30 | 2022-10-21 | 上海爱数信息技术股份有限公司 | 一种基于信息熵的云原生系统观测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Baur et al. | MelanoGANs: high resolution skin lesion synthesis with GANs | |
CN109325550B (zh) | 基于图像熵的无参考图像质量评价方法 | |
Zhang et al. | An adaptive computational model for salient object detection | |
Saha et al. | Utilizing image scales towards totally training free blind image quality assessment | |
Zhou et al. | Utilizing dictionary learning and machine learning for blind quality assessment of 3-D images | |
Hu et al. | Pairwise-comparison-based rank learning for benchmarking image restoration algorithms | |
CN106682678B (zh) | 一种基于支撑域的图像角点检测和分类方法 | |
CN107862680B (zh) | 一种基于相关滤波器的目标跟踪优化方法 | |
Wang et al. | Gradient-based no-reference image blur assessment using extreme learning machine | |
Wang et al. | Visual object tracking with multi-scale superpixels and color-feature guided kernelized correlation filters | |
CN109446894A (zh) | 基于概率分割及高斯混合聚类的多光谱图像变化检测方法 | |
CN109829494A (zh) | 一种基于加权相似性度量的聚类集成方法 | |
CN112036381B (zh) | 视觉跟踪方法、视频监控方法及终端设备 | |
CN109801305A (zh) | 基于深度胶囊网络的sar图像变化检测方法 | |
Xu et al. | Bottom-up saliency detection with sparse representation of learnt texture atoms | |
Mehrkanoon et al. | Incremental multi-class semi-supervised clustering regularized by Kalman filtering | |
CN113269706B (zh) | 激光雷达图像质量评价方法、装置、设备及存储介质 | |
CN107633527B (zh) | 基于全卷积神经网络的目标追踪方法及装置 | |
Roy et al. | Test time adaptation for blind image quality assessment | |
Basavaiah et al. | Robust Feature Extraction and Classification Based Automated Human Action Recognition System for Multiple Datasets. | |
CN111008710A (zh) | 一种全局信息加局部信息正则的支持向量数据描述方法 | |
Sahay et al. | Hyperspectral image target detection using deep ensembles for robust uncertainty quantification | |
Du et al. | Blind image quality assessment with the histogram sequences of high-order local derivative patterns | |
Mackowiak et al. | Generative classifiers as a basis for trustworthy computer vision | |
Oszust | A regression-based family of measures for full-reference image quality assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |