CN111008710A - 一种全局信息加局部信息正则的支持向量数据描述方法 - Google Patents

一种全局信息加局部信息正则的支持向量数据描述方法 Download PDF

Info

Publication number
CN111008710A
CN111008710A CN201911005871.1A CN201911005871A CN111008710A CN 111008710 A CN111008710 A CN 111008710A CN 201911005871 A CN201911005871 A CN 201911005871A CN 111008710 A CN111008710 A CN 111008710A
Authority
CN
China
Prior art keywords
image domain
information
global
relative
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911005871.1A
Other languages
English (en)
Inventor
胡文军
楼俊钢
魏玉震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huzhou University
Original Assignee
Huzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huzhou University filed Critical Huzhou University
Priority to CN201911005871.1A priority Critical patent/CN111008710A/zh
Publication of CN111008710A publication Critical patent/CN111008710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及机器学习领域中的一类分类问题,具体涉及一种全局信息加局部信息正则的支持向量数据描述方法,包括获取训练样本、定义训练样本度量参数、计算概率密度函数与信息熵、获取决策函数、通过决策函数对位置样本进行决策几个步骤。本发明通过定义相对全部像域距离测度和相对局部像域距离测度,计算全局像域概率密度函数和局部像域概率密度函数,构建全局像域信息熵和局部像域信息熵,引入全局像域信息熵和局部像域信息熵到支持向量数据描述(SVDD)中,提高SVDD训练过程使用的信息量,减少训练过程对训练样本的不确定性,降低训练过程的惩罚参数敏感性,从而获得更好的决策模型。

Description

一种全局信息加局部信息正则的支持向量数据描述方法
技术领域
本发明涉及机器学习领域中的一类分类问题,特别涉及全局信息加局部信息正则的支持向量数据描述方法。
背景技术
在许多真实应用中,获取异常数据的成本非常高,如医疗诊断、机器故障诊断、线路板质量检测、农产品质量检测等。针对这些应用的一类分类问题获得很大关注。
一般地,基于机器学习的一类分类问题中,其训练数据只有单类目标数据或拥有较多的目标数据以及少量的非目标数据这两种情况。为解决这类问题,从不同角度提出了许多方法,如支持向量数据描述(Support Vector Data Description,SVDD)、基于L1范数的核组成分分析方法(L1-norm-based kernel principle component analysis,L1-KPCA)、基于熵的一类分类器 (entropic one-class classifier,EOCC)、多分布数据描述描述(Multiple Distribution Data Description,MD-DD)等。作为一种典型的数据描述方法,支持向量数据描述(SVDD)得到了很大的关注。
支持向量数据描述(SVDD)的目标是在特则空间中找到一个最小球体来包含所有或者大部分的训练样本,球体的球心和半径通过支持向量计算获得。但支持向量强烈依耐于惩罚参数,这导致支持向量数据描述(SVDD)对惩罚参数非常敏感,直接影响一类问题的检测效果。针对惩罚参数的敏感性,提出了一些SVDD的改进方法,如位置正则的支持向量数据描述(Position Regularized Support Vector Data Description,P-SVDD)、密度权的支持向量数据描述(Density Weighted Support Vector Data Description)。这类方法通过计算训练样本在特征空间或原始空间中的位置或密度来评估该样本在SVDD训练过程中的惩罚度,而位置或密度均需要通过距离间接计算获得。这意味着,在处理惩罚参数敏感性问题上,使用什么样的距离测度以及计算谁的距离更加合理,仍是一个巨大挑战。
本发明在特则空间(具体在高斯核空间)中,根据高斯核空间的几何属性,设计针对全局像域的三种距离度量方法和设计针对局部像域的三种距离度量方法,利用这些距离度量方法构建了相关密度函数,并将全局像域的信息熵和局部像域的信息熵共同引入到支持向量数据描述(SVDD)以实现对惩罚参数的正则,使得SVDD在训练过程中能够使用更多的信息(包括全局像域信息和局部像域信息)和减少训练样本的不确定度,降低了SVDD对惩罚参数的敏感性,提升其一类分类效果。
发明内容
本发明的目的就是解决现有技术中的问题,提出一种全局信息加局部信息正则的支持向量数据描述方法,使用更多信息(包括全局像域信息和局部像域信息)和减少训练样本的不确定度,降低支持向量数据描述(SVDD)方法对惩罚参数的敏感性,提升其一类分类效果。
为实现上述目的,本发明提出了一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,包括以下步骤:
第一,从给定数据集中,提取训练样本;
第二,在高斯核函数空间内,定义每个训练样本相对全局像域的度量参数以及相对局部像域的度量参数;所述相对全局像域的度量参数包括,位置欧式距离
Figure RE-GDA0002359489990000021
投影欧式距离
Figure RE-GDA0002359489990000022
和投影球面距离
Figure RE-GDA0002359489990000023
所述相对局部像域的度量参数包括,位置欧式距离
Figure RE-GDA0002359489990000024
投影欧式距离
Figure RE-GDA0002359489990000025
和投影球面距离
Figure RE-GDA0002359489990000026
第三,分别计算相对全局像域的概率密度函数
Figure RE-GDA0002359489990000027
与相对局部像域的概率密度函数
Figure RE-GDA0002359489990000028
并通过上述
Figure RE-GDA0002359489990000029
Figure RE-GDA00023594899900000210
分别构建全局像域信息熵
Figure RE-GDA00023594899900000211
与局部像域信息熵
Figure RE-GDA00023594899900000212
第四,将所述全局像域信息熵
Figure RE-GDA00023594899900000213
与局部像域信息熵
Figure RE-GDA00023594899900000214
共同引入到支持向量数据描述 (SVDD)模型中,获得决策函数;
第五,利用上述获得的决策函数,对未知样本进行决策。
作为优选,所述步骤二中:
1)相对全局像域的位置欧式距离度量计算式为:
Figure RE-GDA00023594899900000215
其中,xi和xj为样本点,k(·,·)为高斯核函数;
2)相对全局像域的投影欧式距离度量计算式为:
Figure RE-GDA00023594899900000216
3)相对全局像域的投影球面距离度量计算式为:
Figure RE-GDA0002359489990000031
作为优选,所述步骤二中:
1)相对局部像域的位置欧式距离度量计算式为:
Figure RE-GDA0002359489990000032
其中,K是设置的常量,
Figure RE-GDA0002359489990000033
是样本点xi的第j个近邻点;
2)相对局部像域的投影欧式距离度量计算式为:
Figure RE-GDA0002359489990000034
3)相对局部像域的投影球面距离度量计算式为:
Figure RE-GDA0002359489990000035
作为优选,步骤三中:
1)所述相对全局像域的概率密度函数
Figure RE-GDA0002359489990000036
采用式(1)或式(2)或式(3)计算,具体计算方法如以下3式:
Figure RE-GDA0002359489990000037
Figure RE-GDA0002359489990000038
Figure RE-GDA0002359489990000039
2)所述相对局部像域的概率密度函数
Figure RE-GDA00023594899900000310
采用式(4)或式(5)或式(6)计算,具体计算方法如以下3式:
Figure RE-GDA00023594899900000311
Figure RE-GDA00023594899900000312
Figure RE-GDA0002359489990000041
作为优选,步骤三中:
1)利用式(7)或式(8)或式(9)构建全局像域信息熵
Figure RE-GDA0002359489990000042
具体公式为:
Figure RE-GDA0002359489990000043
2)利用式(10)或式(11)或式(12)构建局部像域信息熵
Figure RE-GDA0002359489990000044
具体公式为:
Figure RE-GDA0002359489990000045
作为优选,所述步骤四中,获取决策函数的具体步骤为:
1)将全局像域信息熵
Figure RE-GDA0002359489990000046
与局部像域信息熵
Figure RE-GDA0002359489990000047
共同引入到支持向量数据描述(SVDD) 模型中
Figure RE-GDA0002359489990000048
subject to||φ(xi)-a||2≤R2ii≥0,1≤i≤N.
其中,φ(·)为高斯核诱导的非线性映射函数,R、a为SVDD获得最小包含球的半径和球心,ξi为松弛变量,N为训练样本数据个数,C为惩罚参数。
2)利用拉格朗日技巧,获得式(15)的对偶问题
Figure RE-GDA0002359489990000049
通过式(16),获得拉格朗日乘子αi(1≤i≤N);
3)获得决策函数
Figure RE-GDA00023594899900000410
其中,xs为任意一个满足
Figure RE-GDA00023594899900000411
的支持向量。如果f(x)≤0,则x为目标 (正常)样本,否则为非目标(或异常)样本。
作为优选,惩罚参数C的数值从{0.01,0.05,0.1,0.3,0.5,0.7,0.9,1,1.5,2}中选取。
本发明的优点是:本发明提供一种支持向量数据描述(SVDD)惩罚参数正则方法,通过定义相对全部像域距离测度和相对局部像域距离测度,计算全局像域概率密度函数和局部像域概率密度函数,构建全局像域信息熵和局部像域信息熵,引入全局像域信息熵和局部像域信息熵到支持向量数据描述(SVDD)中,提高SVDD训练过程使用的信息量,减少训练过程对训练样本的不确定性,降低训练过程的惩罚参数敏感性,从而获得更好的决策模型。
附图说明
图1是本发明的流程示意图。
具体实施方式
以下具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
下面结合附图以实施例对本发明进行详细说明。
根据图1所示,一种全局信息加局部信息正则的支持向量数据描述方法,具体实施步骤如下:
1、从给定数据集中,提取训练样本;
2、对每个训练样本计算相对全局像域的位置欧式距离度量
Figure RE-GDA0002359489990000051
其中,k(·,·)为高斯核函数。
3、对每个训练样本计算相对全局像域的投影欧式距离度量
Figure RE-GDA0002359489990000052
4、对每个训练样本计算相对全局像域的投影球面距离度量
Figure RE-GDA0002359489990000053
5、对每个训练样本计算相对局部像域的位置欧式距离度量
Figure RE-GDA0002359489990000054
其中,K是设置的常量,
Figure RE-GDA0002359489990000055
是样本点xi的第j个近邻点。
6、对每个训练样本计算相对局部像域的投影欧式距离度量
Figure RE-GDA0002359489990000061
7、对每个训练样本计算相对局部像域的投影球面距离度量
Figure RE-GDA0002359489990000062
8、利用式(1)或式(2)或式(3)计算相对于全局像域的概率密度函数,分别对应如下3种方法
Figure RE-GDA0002359489990000063
Figure RE-GDA0002359489990000064
Figure RE-GDA0002359489990000065
9、利用式(4)或式(5)或式(6)计算相对于局部像域的概率密度函数,分别对应如下3种方法
Figure RE-GDA0002359489990000066
Figure RE-GDA0002359489990000067
Figure RE-GDA0002359489990000068
10、利用式(7)或式(8)或式(9)构建全局像域信息熵
Figure RE-GDA0002359489990000069
11、利用式(10)或式(11)或式(12)构建局部像域信息熵
Figure RE-GDA00023594899900000610
12、求解如下优化问题,获得拉格朗日乘子αi(1≤i≤N),惩罚参数C的数值从{0.01,0.05,0.1,0.3,0.5,0.7,0.9,1,1.5,2}中选取
Figure RE-GDA00023594899900000611
13、给定未知样本x,通过以下决策函数进行决策
Figure RE-GDA0002359489990000071
其中,xs为任意一个满足
Figure RE-GDA0002359489990000072
的支持向量。如果f(x)≤0,则x为目标 (正常)样本,否则为非目标(或异常)样本。
实施例1:
在真实的OCC数据集数据集上,利用本发明中方法进行学习,构建决策函数进行一类分类任务。如表1所示(GL-SVDDLE对应本发明方法中的位置欧式距离度量,GL-SVDDPE对应本发明方法中的投影欧式距离度量,GL-SVDDPS对应本发明方法中的投影球面距离度量),由于本发明同时利用全局信息和局部信息,以及通过最小信息熵减少训练样本不确定性,降低SVDD对惩罚参数的敏感性,在OCC一类分类问题中获得了好的性能。
表1
Figure RE-GDA0002359489990000073
实施例2:
在真实的樱桃高光谱数据集集上,利用本发明中方法进行学习,构建决策函数进行一类分类任务。如表2所示(GL-SVDDLE对应本发明方法中的位置欧式距离度量,GL-SVDDPE对应本发明方法中的投影欧式距离度量,GL-SVDDPS对应本发明方法中的投影球面距离度量),由于本发明同时利用全局信息和局部信息,以及通过最小信息熵减少训练样本不确定性,降低SVDD对惩罚参数的敏感性,在樱桃高光谱数据集一类分类问题,包括成熟度鉴别和口感类型鉴别中获得了好的性能。
表2
Figure RE-GDA0002359489990000074

Claims (7)

1.一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,包括以下步骤:
第一,从给定数据集中,提取训练样本;
第二,在高斯核函数空间内,定义每个训练样本相对全局像域的度量参数以及相对局部像域的度量参数;所述相对全局像域的度量参数包括,位置欧式距离
Figure RE-FDA0002359489980000011
投影欧式距离
Figure RE-FDA0002359489980000012
和投影球面距离
Figure RE-FDA0002359489980000013
所述相对局部像域的度量参数包括,位置欧式距离
Figure RE-FDA0002359489980000014
投影欧式距离
Figure RE-FDA0002359489980000015
和投影球面距离
Figure RE-FDA0002359489980000016
第三,分别计算相对全局像域的概率密度函数Pi G与相对局部像域的概率密度函数Pi L,并通过上述Pi G与Pi L分别构建全局像域信息熵Wi G与局部像域信息熵Wi L
第四,将所述全局像域信息熵Wi G与局部像域信息熵Wi L共同引入到支持向量数据描述(SVDD)模型中,获得决策函数;
第五,利用上述获得的决策函数,对未知样本进行决策。
2.根据权利要求1所述的一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,所述步骤二中:
1)相对全局像域的位置欧式距离度量计算式为:
Figure RE-FDA0002359489980000017
其中,xi和xj为样本点,k(·,·)为高斯核函数;
2)相对全局像域的投影欧式距离度量计算式为:
Figure RE-FDA0002359489980000018
3)相对全局像域的投影球面距离度量计算式为:
Figure RE-FDA0002359489980000021
3.根据权利要求2所述的一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,所述步骤二中:
1)相对局部像域的位置欧式距离度量计算式为:
Figure RE-FDA0002359489980000022
其中,K是设置的常量,
Figure RE-FDA0002359489980000023
是样本点xi的第j个近邻点;
2)相对局部像域的投影欧式距离度量计算式为:
Figure RE-FDA0002359489980000024
3)相对局部像域的投影球面距离度量计算式为:
Figure RE-FDA0002359489980000025
4.根据权利要求3所述的一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,
1)所述相对全局像域的概率密度函数Pi G采用式(1)或式(2)或式(3)计算,具体计算方法如以下3式:
Figure RE-FDA0002359489980000026
Figure RE-FDA0002359489980000031
Figure RE-FDA0002359489980000032
2)所述相对局部像域的概率密度函数Pi L采用式(4)或式(5)或式(6)计算,具体计算方法如以下3式:
Figure RE-FDA0002359489980000033
Figure RE-FDA0002359489980000034
Figure RE-FDA0002359489980000035
5.根据权利要求4所述的一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,
1)利用式(7)或式(8)或式(9)构建全局像域信息熵Wi G,具体公式为:
Figure RE-FDA0002359489980000036
2)利用式(10)或式(11)或式(12)构建局部像域信息熵Wi L,具体公式为:
Figure RE-FDA0002359489980000037
6.根据权利要求5所述的一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,所述步骤四中,获取决策函数的具体步骤为:
1)将全局像域信息熵Wi G与局部像域信息熵Wi L共同引入到支持向量数据描述(SVDD)模型中
Figure RE-FDA0002359489980000041
其中,φ(·)为高斯核诱导的非线性映射函数,R、a为SVDD获得最小包含球的半径和球心,ξi为松弛变量,N为训练样本数据个数,C为惩罚参数。
2)利用拉格朗日技巧,获得式(15)的对偶问题
Figure RE-FDA0002359489980000042
通过式(16),获得拉格朗日乘子αi(1≤i≤N);
3)获得决策函数
Figure RE-FDA0002359489980000043
其中,xs为任意一个满足0<αi<C(WiG+Wi L)的支持向量。如果f(x)≤0,则x为目标(正常)样本,否则为非目标(或异常)样本。
7.根据权利要求6所述的一种全局信息加局部信息正则的支持向量数据描述方法,其特征在于,惩罚参数C的取值从{0.01,0.05,0.1,0.3,0.5,0.7,0.9,1,1.5,2}中选取。
CN201911005871.1A 2019-10-22 2019-10-22 一种全局信息加局部信息正则的支持向量数据描述方法 Pending CN111008710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911005871.1A CN111008710A (zh) 2019-10-22 2019-10-22 一种全局信息加局部信息正则的支持向量数据描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911005871.1A CN111008710A (zh) 2019-10-22 2019-10-22 一种全局信息加局部信息正则的支持向量数据描述方法

Publications (1)

Publication Number Publication Date
CN111008710A true CN111008710A (zh) 2020-04-14

Family

ID=70110941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911005871.1A Pending CN111008710A (zh) 2019-10-22 2019-10-22 一种全局信息加局部信息正则的支持向量数据描述方法

Country Status (1)

Country Link
CN (1) CN111008710A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225226A (zh) * 2021-04-30 2021-08-06 上海爱数信息技术股份有限公司 一种基于信息熵的云原生系统观测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225226A (zh) * 2021-04-30 2021-08-06 上海爱数信息技术股份有限公司 一种基于信息熵的云原生系统观测方法及系统
CN113225226B (zh) * 2021-04-30 2022-10-21 上海爱数信息技术股份有限公司 一种基于信息熵的云原生系统观测方法及系统

Similar Documents

Publication Publication Date Title
Baur et al. MelanoGANs: high resolution skin lesion synthesis with GANs
CN109325550B (zh) 基于图像熵的无参考图像质量评价方法
Zhang et al. An adaptive computational model for salient object detection
Saha et al. Utilizing image scales towards totally training free blind image quality assessment
Zhou et al. Utilizing dictionary learning and machine learning for blind quality assessment of 3-D images
Hu et al. Pairwise-comparison-based rank learning for benchmarking image restoration algorithms
CN106682678B (zh) 一种基于支撑域的图像角点检测和分类方法
CN107862680B (zh) 一种基于相关滤波器的目标跟踪优化方法
Wang et al. Gradient-based no-reference image blur assessment using extreme learning machine
Wang et al. Visual object tracking with multi-scale superpixels and color-feature guided kernelized correlation filters
CN109446894A (zh) 基于概率分割及高斯混合聚类的多光谱图像变化检测方法
CN109829494A (zh) 一种基于加权相似性度量的聚类集成方法
CN112036381B (zh) 视觉跟踪方法、视频监控方法及终端设备
CN109801305A (zh) 基于深度胶囊网络的sar图像变化检测方法
Xu et al. Bottom-up saliency detection with sparse representation of learnt texture atoms
Mehrkanoon et al. Incremental multi-class semi-supervised clustering regularized by Kalman filtering
CN113269706B (zh) 激光雷达图像质量评价方法、装置、设备及存储介质
CN107633527B (zh) 基于全卷积神经网络的目标追踪方法及装置
Roy et al. Test time adaptation for blind image quality assessment
Basavaiah et al. Robust Feature Extraction and Classification Based Automated Human Action Recognition System for Multiple Datasets.
CN111008710A (zh) 一种全局信息加局部信息正则的支持向量数据描述方法
Sahay et al. Hyperspectral image target detection using deep ensembles for robust uncertainty quantification
Du et al. Blind image quality assessment with the histogram sequences of high-order local derivative patterns
Mackowiak et al. Generative classifiers as a basis for trustworthy computer vision
Oszust A regression-based family of measures for full-reference image quality assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination