CN111008710A

CN111008710A - 一种全局信息加局部信息正则的支持向量数据描述方法

Info

Publication number: CN111008710A
Application number: CN201911005871.1A
Authority: CN
Inventors: 胡文军; 楼俊钢; 魏玉震
Original assignee: Huzhou University
Current assignee: Huzhou University
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-04-14

Abstract

本发明涉及机器学习领域中的一类分类问题，具体涉及一种全局信息加局部信息正则的支持向量数据描述方法，包括获取训练样本、定义训练样本度量参数、计算概率密度函数与信息熵、获取决策函数、通过决策函数对位置样本进行决策几个步骤。本发明通过定义相对全部像域距离测度和相对局部像域距离测度，计算全局像域概率密度函数和局部像域概率密度函数，构建全局像域信息熵和局部像域信息熵，引入全局像域信息熵和局部像域信息熵到支持向量数据描述（SVDD）中，提高SVDD训练过程使用的信息量，减少训练过程对训练样本的不确定性，降低训练过程的惩罚参数敏感性，从而获得更好的决策模型。

Description

一种全局信息加局部信息正则的支持向量数据描述方法

技术领域

本发明涉及机器学习领域中的一类分类问题，特别涉及全局信息加局部信息正则的支持向量数据描述方法。

背景技术

在许多真实应用中，获取异常数据的成本非常高，如医疗诊断、机器故障诊断、线路板质量检测、农产品质量检测等。针对这些应用的一类分类问题获得很大关注。

一般地，基于机器学习的一类分类问题中，其训练数据只有单类目标数据或拥有较多的目标数据以及少量的非目标数据这两种情况。为解决这类问题，从不同角度提出了许多方法，如支持向量数据描述(Support Vector Data Description,SVDD)、基于L1范数的核组成分分析方法(L1-norm-based kernel principle component analysis,L1-KPCA)、基于熵的一类分类器 (entropic one-class classifier,EOCC)、多分布数据描述描述(Multiple Distribution Data Description,MD-DD)等。作为一种典型的数据描述方法，支持向量数据描述(SVDD)得到了很大的关注。

支持向量数据描述(SVDD)的目标是在特则空间中找到一个最小球体来包含所有或者大部分的训练样本，球体的球心和半径通过支持向量计算获得。但支持向量强烈依耐于惩罚参数，这导致支持向量数据描述(SVDD)对惩罚参数非常敏感，直接影响一类问题的检测效果。针对惩罚参数的敏感性，提出了一些SVDD的改进方法，如位置正则的支持向量数据描述(Position Regularized Support Vector Data Description,P-SVDD)、密度权的支持向量数据描述(Density Weighted Support Vector Data Description)。这类方法通过计算训练样本在特征空间或原始空间中的位置或密度来评估该样本在SVDD训练过程中的惩罚度，而位置或密度均需要通过距离间接计算获得。这意味着，在处理惩罚参数敏感性问题上，使用什么样的距离测度以及计算谁的距离更加合理，仍是一个巨大挑战。

本发明在特则空间(具体在高斯核空间)中，根据高斯核空间的几何属性，设计针对全局像域的三种距离度量方法和设计针对局部像域的三种距离度量方法，利用这些距离度量方法构建了相关密度函数，并将全局像域的信息熵和局部像域的信息熵共同引入到支持向量数据描述(SVDD)以实现对惩罚参数的正则，使得SVDD在训练过程中能够使用更多的信息(包括全局像域信息和局部像域信息)和减少训练样本的不确定度，降低了SVDD对惩罚参数的敏感性，提升其一类分类效果。

发明内容

本发明的目的就是解决现有技术中的问题，提出一种全局信息加局部信息正则的支持向量数据描述方法，使用更多信息(包括全局像域信息和局部像域信息)和减少训练样本的不确定度，降低支持向量数据描述(SVDD)方法对惩罚参数的敏感性，提升其一类分类效果。

为实现上述目的，本发明提出了一种全局信息加局部信息正则的支持向量数据描述方法，其特征在于，包括以下步骤：

第一，从给定数据集中，提取训练样本；

第二，在高斯核函数空间内，定义每个训练样本相对全局像域的度量参数以及相对局部像域的度量参数；所述相对全局像域的度量参数包括，位置欧式距离

投影欧式距离

和投影球面距离

所述相对局部像域的度量参数包括，位置欧式距离

投影欧式距离

和投影球面距离

第三，分别计算相对全局像域的概率密度函数

与相对局部像域的概率密度函数

并通过上述

与

分别构建全局像域信息熵

与局部像域信息熵

第四，将所述全局像域信息熵

与局部像域信息熵

共同引入到支持向量数据描述 (SVDD)模型中，获得决策函数；

第五，利用上述获得的决策函数，对未知样本进行决策。

作为优选，所述步骤二中：

1)相对全局像域的位置欧式距离度量计算式为：

其中，x_i和x_j为样本点，k(·,·)为高斯核函数；

2)相对全局像域的投影欧式距离度量计算式为：

3)相对全局像域的投影球面距离度量计算式为：

作为优选，所述步骤二中：

1)相对局部像域的位置欧式距离度量计算式为：

其中，K是设置的常量，

是样本点x_i的第j个近邻点；

2)相对局部像域的投影欧式距离度量计算式为：

3)相对局部像域的投影球面距离度量计算式为：

作为优选，步骤三中：

1)所述相对全局像域的概率密度函数

采用式(1)或式(2)或式(3)计算，具体计算方法如以下3式：

2)所述相对局部像域的概率密度函数

采用式(4)或式(5)或式(6)计算，具体计算方法如以下3式：

作为优选，步骤三中：

1)利用式(7)或式(8)或式(9)构建全局像域信息熵

具体公式为：

2)利用式(10)或式(11)或式(12)构建局部像域信息熵

具体公式为：

作为优选，所述步骤四中，获取决策函数的具体步骤为：

1)将全局像域信息熵

与局部像域信息熵

共同引入到支持向量数据描述(SVDD) 模型中

subject to||φ(x_i)-a||²≤R²+ξ_i,ξ_i≥0,1≤i≤N.

其中，φ(·)为高斯核诱导的非线性映射函数，R、a为SVDD获得最小包含球的半径和球心，ξ_i为松弛变量，N为训练样本数据个数，C为惩罚参数。

2)利用拉格朗日技巧，获得式(15)的对偶问题

通过式(16)，获得拉格朗日乘子α_i(1≤i≤N)；

3)获得决策函数

其中，x_s为任意一个满足

的支持向量。如果f(x)≤0，则x为目标 (正常)样本，否则为非目标(或异常)样本。

作为优选，惩罚参数C的数值从{0.01,0.05,0.1,0.3,0.5,0.7,0.9,1,1.5,2}中选取。

本发明的优点是：本发明提供一种支持向量数据描述(SVDD)惩罚参数正则方法，通过定义相对全部像域距离测度和相对局部像域距离测度，计算全局像域概率密度函数和局部像域概率密度函数，构建全局像域信息熵和局部像域信息熵，引入全局像域信息熵和局部像域信息熵到支持向量数据描述(SVDD)中，提高SVDD训练过程使用的信息量，减少训练过程对训练样本的不确定性，降低训练过程的惩罚参数敏感性，从而获得更好的决策模型。

附图说明

图1是本发明的流程示意图。

具体实施方式

以下具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

下面结合附图以实施例对本发明进行详细说明。

根据图1所示，一种全局信息加局部信息正则的支持向量数据描述方法,具体实施步骤如下：

1、从给定数据集中，提取训练样本；

2、对每个训练样本计算相对全局像域的位置欧式距离度量

其中，k(·,·)为高斯核函数。

3、对每个训练样本计算相对全局像域的投影欧式距离度量

4、对每个训练样本计算相对全局像域的投影球面距离度量

5、对每个训练样本计算相对局部像域的位置欧式距离度量

其中，K是设置的常量，

是样本点x_i的第j个近邻点。

6、对每个训练样本计算相对局部像域的投影欧式距离度量

7、对每个训练样本计算相对局部像域的投影球面距离度量

8、利用式(1)或式(2)或式(3)计算相对于全局像域的概率密度函数，分别对应如下3种方法

9、利用式(4)或式(5)或式(6)计算相对于局部像域的概率密度函数，分别对应如下3种方法

10、利用式(7)或式(8)或式(9)构建全局像域信息熵

11、利用式(10)或式(11)或式(12)构建局部像域信息熵

12、求解如下优化问题，获得拉格朗日乘子α_i(1≤i≤N)，惩罚参数C的数值从{0.01,0.05,0.1,0.3,0.5,0.7,0.9,1,1.5,2}中选取

13、给定未知样本x，通过以下决策函数进行决策

其中，x_s为任意一个满足

实施例1：

在真实的OCC数据集数据集上，利用本发明中方法进行学习，构建决策函数进行一类分类任务。如表1所示(GL-SVDDLE对应本发明方法中的位置欧式距离度量，GL-SVDDPE对应本发明方法中的投影欧式距离度量，GL-SVDDPS对应本发明方法中的投影球面距离度量)，由于本发明同时利用全局信息和局部信息，以及通过最小信息熵减少训练样本不确定性，降低SVDD对惩罚参数的敏感性，在OCC一类分类问题中获得了好的性能。

表1

实施例2：

在真实的樱桃高光谱数据集集上，利用本发明中方法进行学习，构建决策函数进行一类分类任务。如表2所示(GL-SVDDLE对应本发明方法中的位置欧式距离度量，GL-SVDDPE对应本发明方法中的投影欧式距离度量，GL-SVDDPS对应本发明方法中的投影球面距离度量)，由于本发明同时利用全局信息和局部信息，以及通过最小信息熵减少训练样本不确定性，降低SVDD对惩罚参数的敏感性，在樱桃高光谱数据集一类分类问题，包括成熟度鉴别和口感类型鉴别中获得了好的性能。

表2