CN105488521A - 一种基于核函数的扩容样本筛选方法 - Google Patents
一种基于核函数的扩容样本筛选方法 Download PDFInfo
- Publication number
- CN105488521A CN105488521A CN201510823909.1A CN201510823909A CN105488521A CN 105488521 A CN105488521 A CN 105488521A CN 201510823909 A CN201510823909 A CN 201510823909A CN 105488521 A CN105488521 A CN 105488521A
- Authority
- CN
- China
- Prior art keywords
- sample
- sigma
- dilatation
- kernel function
- confidence level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供一种基于核函数的扩容样本筛选方法,包括利用MMD方法初步筛选出与真实样本相容的扩容样本;利用KBCM方法计算已通过相容性检验的扩容样本的可信度;计算可信度较高的扩容样本与真实样本的紧致度;以紧致度最小化为目标对核参数进行逐次的迭代调整,选择紧致度最小状态时对应的核系数为最优核参数;正序添加可信度较高的扩容样本参与识别训练,完成高度适合噪声源识别模型的扩容样本筛选过程。本发明利用核函数方法对大量的扩容样本进行自动筛选,筛选出与真实样本尽可能相似的扩容样本参与识别训练,实现训练集的高效扩容,以提高小样本条件下噪声源识别正确率。
Description
技术领域
本发明涉及噪声源识别技术领域,具体涉及一种基于核函数的扩容样本筛选方法。
背景技术
在船舶声学故障源识别实际应用中,由于实际典型试验故障样本的获取困难及昂贵的试验成本,使其成为一个小样本噪声源识别问题。样本扩容是提高小样本条件下故障源识别率的一个有效方法。通常将通过了一致性检验的全部扩容样本集直接应用于分类器训练,然而分类器系统的准确性并不是随扩容样本数量线性增加的。未对扩容样本质量进行评价控制带来的问题是:劣质的扩容样本信息可能会“对冲”真实样本信息,即出现“信息对冲”现象,导致分类器识别性能下降。因此,如何对样本可信度进行评价以筛选出高质量的扩容样本是提高噪声源识别率关键性的问题。
目前关于可信度的研究主要是针对仿真模型的校验、验证和确认(简称“VV&A”)方面。在面向仿真试验数据的可信度研究方面,使用广泛的一类数据可信度度量方法是以一致性检验为基础的,在一定显著水平下,利用Bayes公式对通过一致性检验的数据计算其信度,但该方法存在待定参数计算复杂等不足。基于信息散度的可信度度量方法是通过先验分布与实际试验样本分布的差异进行信息散度计算,适用于已知样本分布的情形,否则需计算样本的分布函数,这将增加算法的复杂度,同时还会引入计算误差。
船舶声学故障源样本是一个高维的时间序列,且其分布函数难以确定。若采用上述方法来度量样本可信度,除须克服上述方法自身的不足外,还将会面临“维数灾难”。若采用降维处理将高维数据变换到低维的特征空间中,这将容易损失一些有用的特征信息,对于小样本数据更是如此。
核函数方法具有有效处理高维输入的特性,可将m维高维空间的内积运算转化为n维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题,因此在实践中得到了越来越广泛的应用。因此,如何将这一方法应用到小样本情况下噪声源识别中,以提高噪声源识别率也就成为研究热点之一。
发明内容
本发明的目的是提供一种基于核函数的扩容样本筛选方法(KBESS方法),利用核函数方法对大量的扩容样本进行自动筛选,筛选出与真实样本尽可能相似的扩容样本参与识别训练,实现训练集的高效扩容,以提高小样本条件下噪声源识别正确率。
为了实现上述目的,本发明采用的技术方案如下:
一种基于核函数的扩容样本筛选方法,利用核函数可有效处理高维输入的特性筛选出适合噪声源识别模型的高效扩容样本;对于不同的扩容样本构成的样本集,首先通过相容性检验筛选出与真实样本相容的扩容样本;然后利用径向基核函数对已通过检验的扩容样本计算其可信度;进一步以最小化紧致度为目标进行核参数选择,利用梯度下降算法,通过逐次迭代的方法,更新核函数中的核参数,以保证每次迭代后样本集紧致度的逐渐降低,最终实现紧致度最小化;选择紧致度最小状态时对应的核参数为最优核函数;再次计算最优核参数下扩容样本集的可信度;选取可信度排在前列的扩容样本正序添加参与训练,完成高度适合噪声源识别模型的扩容样本筛选过程。
根据以上方案,所述相容性检验是指通过MMD方法计算扩容样本与真实样本集在高维特征空间中的最大均值差异。
根据以上方案,所述扩容样本的可信度通过基于核函数的样本可信度度量方法(KBCM方法)来度量。
根据以上方案,包括如下具体步骤:
假设真实样本集和扩容样本集分别为X={x1,x2,...,xM}和Y={y1,y2,...,yN},其中对定义在空间上的径向基核函数K(x,y)=exp(-σ||x-y||2),存在核非线性映射φ:初选核参数σ,将X和Y非线性映射到高维特征空间中,分别得到特征向量φ(xi),i=1,2,...,M和φ(yj),j=1,2,...,N;
(1)通过相容性检验初步筛选扩容样本:
a、通过MMD方法计算两样本集在高维特征空间中的最大均值差异,即:
MMD[F,x,y]=||E[φ(x)]-E[φ(y)]||H
其中,E(·)为函数期望值;H为核特征空间;φ(·)为原函数在特征空间中的达式;
b、将满足MMD[F,x,y]=0的扩容样本组成新扩容样本集Y′={y1,y2,...,ynew};
(2)度量初步筛选后扩容样本可信度:
通过基于核函数的样本可信度度量方法计算新扩容样本集Y′的可信度qj:
其中,qj为扩容样本可信度;M为真实样本集所含样本数量;
(3)以最小化紧致度为目标,调整核参数:
a、按照可信度大小对Y′中各样本进行重排,得到Y′σ={y1σ,y2σ,...,ynewσ},其中q1σ≥q2σ≥...≥qnewσ,将真实样本与可信度较高的前L个扩容样本合并为新的数据集Z={x1,x2,...,xM,y1σ,y2σ,...,yLσ};
b、计算数据集Z的紧致度c(σ):
其中,v为数据集Z的中心,
c、为了求解紧致度最小时所对应的核参数σk,通过采用梯度下降的方法来对核参数进行逐步的调整,即:
其中n为迭代次数;εn为每一步的迭代步长;σn为第n次迭代后的核参数;
(4)对步骤(3)进行反复迭代,直至核参数收敛,迭代次数为20次,确定最优核参数σk及按照可信度大小重排后得到的扩容样本集 其中
(5)选取可信度较高的前X个扩容样本形成最终扩容样本集正序添加参与训练,完成扩容样本筛选过程。
所述扩容样本(ExpendedSample)是指在特征参数选择的基础上,综合集成并有效利用已有的相关先验信息(各类历史数据、专家知识、研究对象结构特性等),并将其转化为虚拟样本,实现对已有小样本训练集的合理扩容所得扩容样本。
所述核函数(KernelFunction)为:设原始空间样本集Z={z1,z2,...,zL},对定义在空间上的核函数K(·,·),存在核非线性映射φ:将原始空间映射到一个高维特征空间H中,得到特征向量φ(zi),i=1,2,...,L。原始空间中任意两点的内积zi·zj被映射为特征向量的内积φ(zi)·φ(zj),该内积可利用核函数K(·,·)来计算,即φ(zi)·φ(zj)=K(zi,zj)。核函数可以有效处理高维输入。常用的核函数有:(1)径向基(RBF)核函数k(x,y)=exp(-||x-y||2/2γ);(2)Sigmoid核函数k(x,y)=tanh(αxTy+β);(3)多项式核函数k(x,y)=(xTy+1)d,d∈N;其中γ,α,β,d分别为参数。
所述梯度下降算法(GradientDescentAlgorithm)为:一种用于求解函数无约束极值问题的基本算法,它选择函数的负梯度方向(最速下降方向)作为迭代时的搜索方向。
本发明的有益效果是:
1)本发明利用核函数可有效处理高维输入的特点,通过相容性检验、可信度度量、核参数优选等步骤筛选出高效扩容样本,有效度量扩容样本的可信度,并正确指导分类器中训练样本的选择,能有效改善小样本情况下噪声源识别正确率;
2)本发明可指导扩容样本容量选择,避免过多的扩容样本信息对真实样本信息造成“信息对冲”现象。
附图说明
图1是本发明的流程示意图;
图2是本发明的试验评价结果示意图。
具体实施方式
下面结合附图与实施例对本发明的技术方案进行说明。
本发明提供一种基于核函数的扩容样本筛选方法,包括如下具体步骤:
假设真实样本集和扩容样本集分别为X={x1,x2,...,xM}和Y={y1,y2,...,yN},其中对定义在空间上的径向基核函数K(x,y)=exp(-σ||x-y||2),存在核非线性映射φ:初选核参数σ,将X和Y非线性映射到高维特征空间中,分别得到特征向量φ(xi),i=1,2,...,M和φ(yj),j=1,2,...,N;
(1)通过相容性检验初步筛选扩容样本:
a、通过MMD方法计算两样本集在高维特征空间中的最大均值差异,即:
MMD[F,x,y]=||E[φ(x)]-E[φ(y)]||H
其中,E(·)为函数期望值;H为核特征空间;φ(·)为原函数在特征空间中的达式;所述MMD方法指基于核函数的最大均值差异相容性检验方法。
b、将满足MMD[F,x,y]=0的扩容样本组成新扩容样本集Y′={y1,y2,...,ynew};
(2)度量初步筛选后扩容样本可信度:
通过基于核函数的样本可信度度量方法计算新扩容样本集Y′的可信度qj:
其中,qj为扩容样本可信度;M为真实样本集所含样本数量;
(3)以最小化紧致度为目标,调整核参数:
a、按照可信度大小对Y′中各样本进行重排,得到Y′σ={y1σ,y2σ,...,ynewσ},其中q1σ≥q2σ≥...≥qnewσ,将真实样本与可信度较高的前L个扩容样本合并为新的数据集Z={x1,x2,...,xM,y1σ,y2σ,...,yLσ};
b、计算数据集Z的紧致度c(σ):
其中,v为数据集Z的中心,
c、为了求解紧致度最小时所对应的核参数σk,通过采用梯度下降的方法来对核参数进行逐步的调整,即:
其中n为迭代次数;εn为每一步的迭代步长;σn为第n次迭代后的核参数;
(4)对步骤(3)进行反复迭代,直至核参数收敛,迭代次数为20次,确定最优核参数σk及按照可信度大小重排后得到的扩容样本集 其中
(5)选取可信度较高的前X个扩容样本形成最终扩容样本集正序添加参与训练,完成扩容样本筛选过程。
选用径向基核函数k(x,y)=exp(-γ||x-y||2)设计试验来评价本发明的合理性和有效性,识别正确率如图2所示。
从试验结果来看,正序添加情况下的识别曲线远高于逆序添加和无扩容样本添加这两种情况下的识别曲线,且当正序添加的扩容样本数为200时,分类器识别率达到最高值。这证明了本发明能有效度量扩容样本的可信度,并正确指导分类器中训练样本的选择,能有效改善小样本情况下噪声源识别正确率;进一步,本发明还可指导扩容样本容量选择,避免过多的扩容样本信息对真实样本信息造成“信息对冲”现象。
以上实施例仅用以说明而非限制本发明的技术方案,尽管上述实施例对本发明进行了详细说明,本领域的相关技术人员应当理解:可以对本发明进行修改或者同等替换,但不脱离本发明精神和范围的任何修改和局部替换均应涵盖在本发明的权利要求范围内。
Claims (4)
1.一种基于核函数的扩容样本筛选方法,其特征在于,利用核函数可有效处理高维输入的特性筛选出适合噪声源识别模型的高效扩容样本;对于不同的扩容样本构成的样本集,首先通过相容性检验筛选出与真实样本相容的扩容样本;然后利用径向基核函数对已通过检验的扩容样本计算其可信度;进一步以最小化紧致度为目标进行核参数选择,利用梯度下降算法,通过逐次迭代的方法,更新核函数中的核参数,以保证每次迭代后样本集紧致度的逐渐降低,最终实现紧致度最小化;选择紧致度最小状态时对应的核参数为最优核函数;再次计算最优核参数下扩容样本集的可信度;选取可信度排在前列的扩容样本正序添加参与训练,完成高度适合噪声源识别模型的扩容样本筛选过程。
2.根据权利要求1所述的基于核函数的扩容样本筛选方法,其特征在于,所述相容性检验是指通过MMD方法计算扩容样本与真实样本集在高维特征空间中的最大均值差异。
3.根据权利要求1所述的基于核函数的扩容样本筛选方法,其特征在于,所述扩容样本的可信度通过基于核函数的样本可信度度量方法来度量。
4.根据权利要求1所述的基于核函数的扩容样本筛选方法,其特征在于,包括如下具体步骤:
假设真实样本集和扩容样本集分别为X={x1,x2,...,xM}和Y={y1,y2,...,yN},其中对定义在空间上的径向基核函数K(x,y)=exp(-σ||x-y||2),存在核非线性映射φ:初选核参数σ,将X和Y非线性映射到高维特征空间中,分别得到特征向量φ(xi),i=1,2,...,M和φ(yj),j=1,2,...,N;
(1)通过相容性检验初步筛选扩容样本:
a、通过MMD方法计算两样本集在高维特征空间中的最大均值差异,即:
MMD[F,x,y]=||E[φ(x)]-E[φ(y)]||H
其中,E(·)为函数期望值;H为核特征空间;φ(·)为原函数在特征空间中的达式;
b、将满足MMD[F,x,y]=0的扩容样本组成新扩容样本集Y′={y1,y2,...,ynew};
(2)度量初步筛选后扩容样本可信度:
通过基于核函数的样本可信度度量方法计算新扩容样本集Y′的可信度qj:
其中,qj为扩容样本可信度;M为真实样本集所含样本数量;
(3)以最小化紧致度为目标,调整核参数:
a、按照可信度大小对Y′中各样本进行重排,得到Y′σ={y1σ,y2σ,...,ynewσ},其中q1σ≥q2σ≥...≥qnewσ,将真实样本与可信度较高的前L个扩容样本合并为新的数据集Z={x1,x2,...,xM,y1σ,y2σ,...,yLσ};
b、计算数据集Z的紧致度c(σ):
其中,v为数据集Z的中心,
c、为了求解紧致度最小时所对应的核参数σk,通过采用梯度下降的方法来对核参数进行逐步的调整,即:
其中n为迭代次数;εn为每一步的迭代步长;σn为第n次迭代后的核参数;
(4)对步骤(3)进行反复迭代,直至核参数收敛,迭代次数为20次,确定最优核参数σk及按照可信度大小重排后得到的扩容样本集 其中
(5)选取可信度较高的前X个扩容样本形成最终扩容样本集正序添加参与训练,完成扩容样本筛选过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510823909.1A CN105488521B (zh) | 2015-11-24 | 2015-11-24 | 一种基于核函数的扩容样本筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510823909.1A CN105488521B (zh) | 2015-11-24 | 2015-11-24 | 一种基于核函数的扩容样本筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105488521A true CN105488521A (zh) | 2016-04-13 |
CN105488521B CN105488521B (zh) | 2018-10-30 |
Family
ID=55675492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510823909.1A Active CN105488521B (zh) | 2015-11-24 | 2015-11-24 | 一种基于核函数的扩容样本筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105488521B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598243A (zh) * | 2019-07-26 | 2019-12-20 | 浙江大学 | 一种基于机械产品历史数据的虚拟样本扩容方法 |
CN113723476A (zh) * | 2021-08-13 | 2021-11-30 | 国网山东省电力公司枣庄供电公司 | 一种基于融合不定核特征提取的LightGBM变压器故障诊断方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142091A (zh) * | 2011-03-30 | 2011-08-03 | 东华大学 | 一种核集成优化分类方法 |
CN102955902A (zh) * | 2012-10-09 | 2013-03-06 | 中国人民解放军63892部队 | 雷达模拟设备可信度的评估方法及评估系统 |
CN103489007A (zh) * | 2013-10-13 | 2014-01-01 | 江西理工大学 | 基于样本先验信息的支持向量机核函数选择方法及应用 |
-
2015
- 2015-11-24 CN CN201510823909.1A patent/CN105488521B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142091A (zh) * | 2011-03-30 | 2011-08-03 | 东华大学 | 一种核集成优化分类方法 |
CN102955902A (zh) * | 2012-10-09 | 2013-03-06 | 中国人民解放军63892部队 | 雷达模拟设备可信度的评估方法及评估系统 |
CN103489007A (zh) * | 2013-10-13 | 2014-01-01 | 江西理工大学 | 基于样本先验信息的支持向量机核函数选择方法及应用 |
Non-Patent Citations (2)
Title |
---|
LINKE ZHANG 等: "Compatibility test between the simulated and real data under small samples conditions", 《ICSV21》 * |
章林柯 等: "潜艇机械噪声源分类识别的小样本研究思想及相关算法评述", 《船舶力学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598243A (zh) * | 2019-07-26 | 2019-12-20 | 浙江大学 | 一种基于机械产品历史数据的虚拟样本扩容方法 |
CN110598243B (zh) * | 2019-07-26 | 2021-04-30 | 浙江大学 | 一种基于机械产品历史数据的虚拟样本扩容方法 |
CN113723476A (zh) * | 2021-08-13 | 2021-11-30 | 国网山东省电力公司枣庄供电公司 | 一种基于融合不定核特征提取的LightGBM变压器故障诊断方法 |
CN113723476B (zh) * | 2021-08-13 | 2024-03-26 | 国网山东省电力公司枣庄供电公司 | 一种基于融合不定核特征提取的LightGBM变压器故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105488521B (zh) | 2018-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111739075B (zh) | 一种结合多尺度注意力的深层网络肺部纹理识别方法 | |
US11450066B2 (en) | 3D reconstruction method based on deep learning | |
US11544522B2 (en) | Methods, systems, and computer readable mediums for determining a system state of a power system using a convolutional neural network | |
CN107330463B (zh) | 基于cnn多特征联合和多核稀疏表示的车型识别方法 | |
CN111612754B (zh) | 基于多模态图像融合的mri肿瘤优化分割方法及系统 | |
CN102354397B (zh) | 基于面部特征器官相似性的人脸图像超分辨率重建方法 | |
CN103886328B (zh) | 基于脑网络模块结构特征的功能磁共振影像数据分类方法 | |
CN108446711A (zh) | 一种基于迁移学习的软件缺陷预测方法 | |
CN111583165A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN109583483A (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN106875373A (zh) | 基于卷积神经网络剪枝算法的手机屏幕mura缺陷检测方法 | |
CN103258214A (zh) | 基于图像块主动学习的遥感图像分类方法 | |
CN109978871B (zh) | 融合概率型和确定型纤维束追踪的纤维束筛选方法 | |
CN103177265B (zh) | 基于核函数与稀疏编码的高清图像分类方法 | |
CN110555836A (zh) | 一种超声图像中胎儿标准切面的自动识别方法和系统 | |
Mishra-Sharma et al. | Neural simulation-based inference approach for characterizing the Galactic Center γ-ray excess | |
CN110287806A (zh) | 一种基于改进ssd网络的交通标志识别方法 | |
CN108446616A (zh) | 基于全卷积神经网络集成学习的道路提取方法 | |
DE102018207880A1 (de) | Verfahren und Vorrichtung zum Bewerten einer unbekannten Auswirkung von Defekten eines Elements eines Photolithographieprozesses | |
CN101706443A (zh) | 一种服装面料接缝平整度评定方法 | |
CN114842019A (zh) | 一种电池板表面缺陷检测方法、系统、存储介质及设备 | |
CN105929216A (zh) | 一种卫星电源主母线电流区间预测方法 | |
CN105488521A (zh) | 一种基于核函数的扩容样本筛选方法 | |
CN110110406B (zh) | 一种基于Excel计算平台实现LS-SVM模型的边坡稳定性预测方法 | |
CN106446965A (zh) | 一种航天器可见光图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180704 Address after: 430000 Hubei, Wuhan East Lake New Technology Development Zone, Guandong Road Industrial Park, 2, No. 210-01, Chong Chuang Lou Applicant after: Heiner cod (Hubei) Technology Co. Ltd. Address before: 430033 No. 717, liberation Avenue, Wuhan, Hubei Province, 40-4-502 Applicant before: Zhang Linke |
|
GR01 | Patent grant | ||
GR01 | Patent grant |