CN105488521A

CN105488521A - 一种基于核函数的扩容样本筛选方法

Info

Publication number: CN105488521A
Application number: CN201510823909.1A
Authority: CN
Inventors: 章林柯; 魏娜; 李和君; 胡恒宾; 李大坤
Original assignee: 章林柯
Current assignee: Heiner cod (Hubei) Technology Co. Ltd.
Priority date: 2015-11-24
Filing date: 2015-11-24
Publication date: 2016-04-13
Anticipated expiration: 2035-11-24
Also published as: CN105488521B

Abstract

本发明提供一种基于核函数的扩容样本筛选方法，包括利用MMD方法初步筛选出与真实样本相容的扩容样本；利用KBCM方法计算已通过相容性检验的扩容样本的可信度；计算可信度较高的扩容样本与真实样本的紧致度；以紧致度最小化为目标对核参数进行逐次的迭代调整，选择紧致度最小状态时对应的核系数为最优核参数；正序添加可信度较高的扩容样本参与识别训练，完成高度适合噪声源识别模型的扩容样本筛选过程。本发明利用核函数方法对大量的扩容样本进行自动筛选，筛选出与真实样本尽可能相似的扩容样本参与识别训练，实现训练集的高效扩容，以提高小样本条件下噪声源识别正确率。

Description

一种基于核函数的扩容样本筛选方法

技术领域

本发明涉及噪声源识别技术领域，具体涉及一种基于核函数的扩容样本筛选方法。

背景技术

在船舶声学故障源识别实际应用中，由于实际典型试验故障样本的获取困难及昂贵的试验成本，使其成为一个小样本噪声源识别问题。样本扩容是提高小样本条件下故障源识别率的一个有效方法。通常将通过了一致性检验的全部扩容样本集直接应用于分类器训练，然而分类器系统的准确性并不是随扩容样本数量线性增加的。未对扩容样本质量进行评价控制带来的问题是：劣质的扩容样本信息可能会“对冲”真实样本信息，即出现“信息对冲”现象，导致分类器识别性能下降。因此，如何对样本可信度进行评价以筛选出高质量的扩容样本是提高噪声源识别率关键性的问题。

目前关于可信度的研究主要是针对仿真模型的校验、验证和确认(简称“VV&A”)方面。在面向仿真试验数据的可信度研究方面，使用广泛的一类数据可信度度量方法是以一致性检验为基础的，在一定显著水平下，利用Bayes公式对通过一致性检验的数据计算其信度，但该方法存在待定参数计算复杂等不足。基于信息散度的可信度度量方法是通过先验分布与实际试验样本分布的差异进行信息散度计算，适用于已知样本分布的情形，否则需计算样本的分布函数，这将增加算法的复杂度，同时还会引入计算误差。

船舶声学故障源样本是一个高维的时间序列，且其分布函数难以确定。若采用上述方法来度量样本可信度，除须克服上述方法自身的不足外，还将会面临“维数灾难”。若采用降维处理将高维数据变换到低维的特征空间中，这将容易损失一些有用的特征信息，对于小样本数据更是如此。

核函数方法具有有效处理高维输入的特性，可将m维高维空间的内积运算转化为n维低维输入空间的核函数计算，从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题，因此在实践中得到了越来越广泛的应用。因此，如何将这一方法应用到小样本情况下噪声源识别中，以提高噪声源识别率也就成为研究热点之一。

发明内容

本发明的目的是提供一种基于核函数的扩容样本筛选方法(KBESS方法)，利用核函数方法对大量的扩容样本进行自动筛选，筛选出与真实样本尽可能相似的扩容样本参与识别训练，实现训练集的高效扩容，以提高小样本条件下噪声源识别正确率。

为了实现上述目的，本发明采用的技术方案如下：

一种基于核函数的扩容样本筛选方法，利用核函数可有效处理高维输入的特性筛选出适合噪声源识别模型的高效扩容样本；对于不同的扩容样本构成的样本集，首先通过相容性检验筛选出与真实样本相容的扩容样本；然后利用径向基核函数对已通过检验的扩容样本计算其可信度；进一步以最小化紧致度为目标进行核参数选择，利用梯度下降算法，通过逐次迭代的方法，更新核函数中的核参数，以保证每次迭代后样本集紧致度的逐渐降低，最终实现紧致度最小化；选择紧致度最小状态时对应的核参数为最优核函数；再次计算最优核参数下扩容样本集的可信度；选取可信度排在前列的扩容样本正序添加参与训练，完成高度适合噪声源识别模型的扩容样本筛选过程。

根据以上方案，所述相容性检验是指通过MMD方法计算扩容样本与真实样本集在高维特征空间中的最大均值差异。

根据以上方案，所述扩容样本的可信度通过基于核函数的样本可信度度量方法(KBCM方法)来度量。

根据以上方案，包括如下具体步骤：

假设真实样本集和扩容样本集分别为X＝{x₁,x₂,...,x_M}和Y＝{y₁,y₂,...,y_N}，其中对定义在空间上的径向基核函数K(x,y)＝exp(-σ||x-y||²)，存在核非线性映射φ:初选核参数σ，将X和Y非线性映射到高维特征空间中，分别得到特征向量φ(x_i),i＝1,2,...,M和φ(y_j),j＝1,2,...,N；

(1)通过相容性检验初步筛选扩容样本：

a、通过MMD方法计算两样本集在高维特征空间中的最大均值差异，即：

MMD[F,x,y]＝||E[φ(x)]-E[φ(y)]||_H

其中，E(·)为函数期望值；H为核特征空间；φ(·)为原函数在特征空间中的达式；

b、将满足MMD[F,x,y]＝0的扩容样本组成新扩容样本集Y′＝{y₁,y₂,...,y_new}；

(2)度量初步筛选后扩容样本可信度：

通过基于核函数的样本可信度度量方法计算新扩容样本集Y′的可信度q_j：

q_{j} = \frac{1}{1 + \sqrt{K (y_{j}, y_{j}) - \frac{2}{M} Σ_{i = 1}^{M} K (y_{j}, x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} Σ_{k = 1}^{M} K (x_{i}, x_{k})}}

其中，q_j为扩容样本可信度；M为真实样本集所含样本数量；

(3)以最小化紧致度为目标，调整核参数：

a、按照可信度大小对Y′中各样本进行重排，得到Y′_σ＝{y_1σ,y_2σ,...,y_newσ}，其中q_1σ≥q_2σ≥...≥q_newσ，将真实样本与可信度较高的前L个扩容样本合并为新的数据集Z＝{x₁,x₂,...,x_M,y_1σ,y_2σ,...,y_Lσ}；

b、计算数据集Z的紧致度c(σ)：

c (σ) = (Σ_{i = 1}^{M} | | x_{i} - ν (σ) | |^{2} + Σ_{j = 1}^{L} | | y_{k_{j} (σ)} - ν (σ) | |^{2}) / (M + L)

其中，v为数据集Z的中心，

v (σ) = (Σ_{i = 1}^{M} x_{i} + Σ_{j = 1}^{L} y_{k_{j} (σ)}) / (M + L);

c、为了求解紧致度最小时所对应的核参数σ_k，通过采用梯度下降的方法来对核参数进行逐步的调整，即：

σ_{n + 1} = σ_{n} - ϵ_{n} \frac{\partial c (σ)}{\partial σ} |_{σ = σ_{n}}

其中n为迭代次数；ε_n为每一步的迭代步长；σ_n为第n次迭代后的核参数；

(4)对步骤(3)进行反复迭代，直至核参数收敛，迭代次数为20次，确定最优核参数σ_k及按照可信度大小重排后得到的扩容样本集

Y_{σ_{k}}^{'} = {y_{1 σ_{k}}, y_{2 σ_{k}}, ..., y_{{newσ}_{k}}},

其中

q_{1 σ_{k}} &GreaterEqual; q_{2 σ_{k}} &GreaterEqual; ... &GreaterEqual; q_{{newσ}_{k}};

(5)选取可信度较高的前X个扩容样本形成最终扩容样本集正序添加参与训练，完成扩容样本筛选过程。

所述扩容样本(ExpendedSample)是指在特征参数选择的基础上，综合集成并有效利用已有的相关先验信息(各类历史数据、专家知识、研究对象结构特性等)，并将其转化为虚拟样本，实现对已有小样本训练集的合理扩容所得扩容样本。

所述核函数(KernelFunction)为：设原始空间样本集Z＝{z₁,z₂,...,z_L},对定义在空间上的核函数K(·,·)，存在核非线性映射φ:将原始空间映射到一个高维特征空间H中，得到特征向量φ(z_i),i＝1,2,...,L。原始空间中任意两点的内积z_i·z_j被映射为特征向量的内积φ(z_i)·φ(z_j)，该内积可利用核函数K(·,·)来计算，即φ(z_i)·φ(z_j)＝K(z_i,z_j)。核函数可以有效处理高维输入。常用的核函数有：(1)径向基(RBF)核函数k(x,y)＝exp(-||x-y||²/2γ)；(2)Sigmoid核函数k(x,y)＝tanh(αx^Ty+β)；(3)多项式核函数k(x,y)＝(x^Ty+1)^d，d∈N；其中γ,α,β,d分别为参数。

所述梯度下降算法(GradientDescentAlgorithm)为：一种用于求解函数无约束极值问题的基本算法，它选择函数的负梯度方向(最速下降方向)作为迭代时的搜索方向。

本发明的有益效果是：

1)本发明利用核函数可有效处理高维输入的特点，通过相容性检验、可信度度量、核参数优选等步骤筛选出高效扩容样本，有效度量扩容样本的可信度，并正确指导分类器中训练样本的选择，能有效改善小样本情况下噪声源识别正确率；

2)本发明可指导扩容样本容量选择，避免过多的扩容样本信息对真实样本信息造成“信息对冲”现象。

附图说明

图1是本发明的流程示意图；

图2是本发明的试验评价结果示意图。

具体实施方式

下面结合附图与实施例对本发明的技术方案进行说明。

本发明提供一种基于核函数的扩容样本筛选方法，包括如下具体步骤：

(1)通过相容性检验初步筛选扩容样本：

MMD[F,x,y]＝||E[φ(x)]-E[φ(y)]||_H

其中，E(·)为函数期望值；H为核特征空间；φ(·)为原函数在特征空间中的达式；所述MMD方法指基于核函数的最大均值差异相容性检验方法。

(2)度量初步筛选后扩容样本可信度：

q_{j} = \frac{1}{1 + \sqrt{K (y_{j}, y_{j}) - \frac{2}{M} Σ_{i = 1}^{M} K (y_{j}, x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} Σ_{k = 1}^{M} K (x_{i}, x_{k})}}

其中，q_j为扩容样本可信度；M为真实样本集所含样本数量；

(3)以最小化紧致度为目标，调整核参数：

b、计算数据集Z的紧致度c(σ)：

c (σ) = (Σ_{i = 1}^{M} | | x_{i} - ν (σ) | |^{2} + Σ_{j = 1}^{L} | | y_{k_{j} (σ)} - ν (σ) | |^{2}) / (M + L)

其中，v为数据集Z的中心，

v (σ) = (Σ_{i = 1}^{M} x_{i} + Σ_{j = 1}^{L} y_{k_{j} (σ)}) / (M + L);

σ_{n + 1} = σ_{n} - ϵ_{n} \frac{\partial c (σ)}{\partial σ} |_{σ = σ_{n}}

Y_{σ_{k}}^{'} = {y_{1 σ_{k}}, y_{2 σ_{k}}, ..., y_{{newσ}_{k}}},

其中

q_{1 σ_{k}} &GreaterEqual; q_{2 σ_{k}} &GreaterEqual; ... &GreaterEqual; q_{{newσ}_{k}};

选用径向基核函数k(x,y)＝exp(-γ||x-y||²)设计试验来评价本发明的合理性和有效性，识别正确率如图2所示。

从试验结果来看，正序添加情况下的识别曲线远高于逆序添加和无扩容样本添加这两种情况下的识别曲线，且当正序添加的扩容样本数为200时，分类器识别率达到最高值。这证明了本发明能有效度量扩容样本的可信度，并正确指导分类器中训练样本的选择，能有效改善小样本情况下噪声源识别正确率；进一步，本发明还可指导扩容样本容量选择，避免过多的扩容样本信息对真实样本信息造成“信息对冲”现象。

以上实施例仅用以说明而非限制本发明的技术方案，尽管上述实施例对本发明进行了详细说明，本领域的相关技术人员应当理解：可以对本发明进行修改或者同等替换，但不脱离本发明精神和范围的任何修改和局部替换均应涵盖在本发明的权利要求范围内。

Claims

1.一种基于核函数的扩容样本筛选方法，其特征在于，利用核函数可有效处理高维输入的特性筛选出适合噪声源识别模型的高效扩容样本；对于不同的扩容样本构成的样本集，首先通过相容性检验筛选出与真实样本相容的扩容样本；然后利用径向基核函数对已通过检验的扩容样本计算其可信度；进一步以最小化紧致度为目标进行核参数选择，利用梯度下降算法，通过逐次迭代的方法，更新核函数中的核参数，以保证每次迭代后样本集紧致度的逐渐降低，最终实现紧致度最小化；选择紧致度最小状态时对应的核参数为最优核函数；再次计算最优核参数下扩容样本集的可信度；选取可信度排在前列的扩容样本正序添加参与训练，完成高度适合噪声源识别模型的扩容样本筛选过程。

2.根据权利要求1所述的基于核函数的扩容样本筛选方法，其特征在于，所述相容性检验是指通过MMD方法计算扩容样本与真实样本集在高维特征空间中的最大均值差异。

3.根据权利要求1所述的基于核函数的扩容样本筛选方法，其特征在于，所述扩容样本的可信度通过基于核函数的样本可信度度量方法来度量。

4.根据权利要求1所述的基于核函数的扩容样本筛选方法，其特征在于，包括如下具体步骤：

(1)通过相容性检验初步筛选扩容样本：

MMD[F,x,y]＝||E[φ(x)]-E[φ(y)]||_H

(2)度量初步筛选后扩容样本可信度：

q_{j} = \frac{1}{1 + \sqrt{K (y_{j}, y_{j}) - \frac{2}{M} Σ_{i = 1}^{M} K (y_{j}, x_{i}) + \frac{1}{M^{2}} Σ_{i = 1}^{M} Σ_{k = 1}^{M} K (x_{i}, x_{k})}}

其中，q_j为扩容样本可信度；M为真实样本集所含样本数量；

(3)以最小化紧致度为目标，调整核参数：

b、计算数据集Z的紧致度c(σ)：

c (σ) = (Σ_{i = 1}^{M} | | x_{i} - ν (σ) | |^{2} + Σ_{j = 1}^{L} | | y_{k_{j} (σ)} - ν (σ) | |^{2}) / (M + L)

其中，v为数据集Z的中心，

v (σ) = (Σ_{i = 1}^{M} x_{i} + Σ_{j = 1}^{L} y_{k_{j} (σ)}) / (M + L);

σ_{n + 1} = σ_{n} - ϵ_{n} \frac{\partial c (σ)}{\partial σ} |_{σ = σ_{n}}

Y_{σ_{k}}^{'} = {y_{1 σ_{k}}, y_{2 σ_{k}}, ..., y_{{newσ}_{k}}},

其中

q_{1 σ_{k}} &GreaterEqual; q_{2 σ_{k}} &GreaterEqual; ... &GreaterEqual; q_{{newσ}_{k}};