CN108985327B - 一种基于因子分析的地形匹配区自组织优化分类方法 - Google Patents

一种基于因子分析的地形匹配区自组织优化分类方法 Download PDF

Info

Publication number
CN108985327B
CN108985327B CN201810572974.5A CN201810572974A CN108985327B CN 108985327 B CN108985327 B CN 108985327B CN 201810572974 A CN201810572974 A CN 201810572974A CN 108985327 B CN108985327 B CN 108985327B
Authority
CN
China
Prior art keywords
terrain
parameters
basic
coefficient
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810572974.5A
Other languages
English (en)
Other versions
CN108985327A (zh
Inventor
程向红
周月华
王子卉
范时秒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810572974.5A priority Critical patent/CN108985327B/zh
Publication of CN108985327A publication Critical patent/CN108985327A/zh
Application granted granted Critical
Publication of CN108985327B publication Critical patent/CN108985327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于因子分析的地形匹配区自组织优化分类方法,包括以下步骤:首先利用基本适配特征参数和适配性验证指标构建数据库,利用相关分析和因子分析建立简化的基本适配特征参数和地形适配性之间的物理关系,然后从建立的数据库中随机选取训练样本和测试样本,将训练样本划分成多个类别,并标记类别标签,样本训练之后共获得多组优化参数,其中每一组优化参数都采用遗传算法构建一个相应的支持向量机分类器,利用经训练得到的支持向量机分类器对测试样本进行分类,通过投票表决策略决定测试样本的类别标签。本发明具有分类正确率较高,误判风险较低的特点,可应用于地形匹配和航迹规划。

Description

一种基于因子分析的地形匹配区自组织优化分类方法
技术领域
本发明属于地形辅助导航适配技术,具体涉及一种基于因子分析的地形匹配区自组织优化分类方法。
背景技术
水下地形辅助导航对作为导航资源的地形区域的要求是:地形不会随时间发生明显变化;地形应有足够的变化;具有足够的分辨率和精度;符合隐蔽性要求。故地形适配区的特性是影响地形辅助导航系统精度的一个重要因素。
目前地形适配性研究主要从定性和定量两种角度讨论适配区选取问题,定量研究主要是通过建立数学关系表达式对适配性验证指标进行运算,而定性研究的优势在于,在实际应用中有时只需了解该区域是否适合匹配即可。
候选匹配区分类是指通过对基本适配特征的分析实现对适配性能的定性评价,近年来,关于候选匹配区分类问题的研究大致可总结为常用的5种类型:单一基本适配特征策略、交集策略、层次筛选策略、公式判定策略和分类器策略。前三种策略存在较大的主观性和经验性并且判定准则的提取难度较大,可能会导致评价结论存在冲突和争议性,另外公式判定策略中数学公式建立的真实性有待考察,故利用人工智能领域中的分类器策略作为适配性能的评判工具,一方面可以将分类器的知识通过机器学习融入分类器,另一方面也可以最大程度上降低主观性。
发明内容
发明目的:本发明的目的在于克服现有技术的不足,提出一种基于因子分析的地形匹配区自组织优化分类方法,可有效提高候选匹配区的分类正确率,降低分类结果的误判风险,避免一定的主观性,有利于指导地形匹配。
技术方案:本发明的基于因子分析的地形匹配区自组织优化分类方法,包括以下步骤:
(1)计算基本适配特征参数和适配性验证指标,建立面向地形适配性分析的数据库;
(2)采用皮尔逊相关系数对基本适配特征参数进行相关分析,具体为:根据水下潜器作业任务的实际应用,以保留相关系数值不大于0.9的基本适配特征参数中计算复杂度低者为基本准则,对基本适配特征参数进行筛选合并,得到简化的基本适配特征参数;
(3)先对简化的基本适配特征参数进行均值中心和方差规整,即标准化处理,然后利用主成分法从标准化处理后的基本适配特征参数中提取特征值大于1的主成分作为公共因子,同时计算未旋转的因子载荷矩阵;
(4)采用最大旋转法进行因子正交旋转,得到旋转因子载荷矩阵;
(5)分析旋转因子载荷矩阵中每一列的主成分载荷因子,建立简化的基本适配特征参数与地形适配性之间明确的物理关系;
(6)从步骤(1)建立的数据库中随机选取STrain个训练样本,将每个样本划分成k 个类别,类别标签记为Y={y1,y2,y3,…,yk},其中k=3,4,5,…,N,训练之后共获得t=k(k-1)/2 组优化参数,每一组优化参数包括最优特征子集subF*、支持向量机惩罚参数C*和高斯径向基核函数参数τ*,对每一组优化参数都采用如下方法构建一个相应的支持向量机分类器,从而得到t个支持向量机分类器:
将支持向量机的惩罚参数C、高斯径向基核函数参数τ和简化的基本适配特征参数三部分按照二进制形式编码,随机产生Npopulation个初始种群Group(0),设置进化代数计数器g的初始值为1、最大进化代数为MaxGeneration;
61)选取来自两个不同类别标签ym和yn的数据计算种群Group(g-1)中每个个体的适应度函数值,其中m=1,2,…,k-1,n=1,2,…,k-1,m<n;
62)判断进化代数计数器g是否达到MaxGeneration,若g≤MaxGeneration,则将种群Group(g-1)通过复制、选择、交叉和变异执行遗传操作,将优良子辈、交叉子辈和变异子辈三部分组成进化的新种群Group(g)后,令g=g+1,返回步骤61),若 g>MaxGeneration,则从Group(MaxGeneration)中输出一组适应度函数值最小的个体并解码得到一组最优特征子集subF*、支持向量机惩罚参数C*和高斯径向基核函数参数τ*,即得到一个支持向量机分类器;
(7)从步骤(1)建立的数据库中随机选取与训练样本不相同的STest个测试样本,先利用经训练构建的t个支持向量机分类器对每个测试样本进行分类,再利用投票表决策略来决定每个测试样本的类别标签。
进一步的,本发明方法中,步骤(1)中的基本适配特征参数包括高程均值、高程标准差、累加梯度均值、峰态系数、偏态系数、费歇信息量、地形粗糙度、丰度系数、坡度标准差、地形熵、布朗运动下的分形维数1、相关系数、相关长度、地形编码失真量、尺度-表面积法下的分形维数2,所述适配性验证指标采用匹配概率,基本适配特征参数和匹配概率分别根据以下公式计算:
高程均值
Figure GDA0003250276160000031
Figure GDA0003250276160000032
式中M1和M2表示候选匹配区东向和北向尺寸大小,h(i,j)表示网格点坐标为(i,j)处的地形水深值,i=1,2,…,M1,j=1,2,…,M2
高程标准差σ:
Figure GDA0003250276160000033
累加梯度均值G:
Figure GDA0003250276160000034
Gλ(i,j)=h(i+1,j)-h(i,j),GL(i,j)=h(i,j+1)-h(i,j)
式中Gλ(i,j)、GL(i,j)分别是网格点(i,j)在东向和北向的梯度值;
峰态系数Ce
Figure GDA0003250276160000035
偏态系数Cs:
Figure GDA0003250276160000036
费歇信息量FIC:
Figure GDA0003250276160000037
地形粗糙度r:
Figure GDA0003250276160000038
Figure GDA0003250276160000039
Figure GDA0003250276160000041
式中rλ和rL分别表示东向和北向的粗糙度;
丰度系数SNR:
Figure GDA0003250276160000042
坡度标准差Sσ
Figure GDA0003250276160000043
Figure GDA0003250276160000044
Figure GDA0003250276160000045
Figure GDA0003250276160000046
式中z取整数,即z=-1,0,1;
地形熵Hf
Figure GDA0003250276160000047
Figure GDA0003250276160000048
式中b(i,j)表示每个地形水深值占整体地形的概率;
布朗运动下分形维数1D1
D1=E+1-ρh=3-ρh
式中欧式空间维数E=2,自相似系数ρh计算方法为:
定义归一化尺度向量NSR=[1,2,…,k,…,M1],并定义归一化点对数向量和归一化多尺度水深值差向量:
NPN=[npn(1),npn(2),…,npn(k),…,npn(M1)]
NMSID=[ndi(1),ndi(2),…,ndi(k),…,ndi(M1)]
式中k取整数值,当两个水深点之间的距离d满足条件
Figure GDA0003250276160000051
时,npn(k)表示点对数目,ndi(k)表示所有点对的绝对差的平均值;
Figure GDA0003250276160000052
自相似系数ρh表示以横坐标lg(k),纵坐标lg(ndi(k))进行最小二乘法拟合的直线斜率;
相关系数ρ:
Figure GDA0003250276160000053
Figure GDA0003250276160000054
Figure GDA0003250276160000055
式中ρλ和ρL分别为东向相关系数和北向相关系数;
地形编码失真量
Figure GDA0003250276160000056
Figure GDA0003250276160000057
式中c(hm)表示地形匹配区域内被编码为同一个水深值hm的不同位置的个数,取M1=M2,因此m=1,2,…,M1,将位置(i,j)编码为位置
Figure GDA0003250276160000058
的失真量函数定义为:
Figure GDA0003250276160000059
相关长度β:
Figure GDA00032502761600000510
式中Δx和Δy分别表示东向和北向的位移增量;
尺度-表面积法分形维数2D2
Figure GDA00032502761600000511
匹配概率PCMA
Figure GDA0003250276160000061
其中CMA表示候选匹配区,p为候选匹配区中的每一个待匹配点,CMP(p)表示一个匹配实验成功的次数,NCMA为匹配实验总次数。
进一步的,本发明方法中,所述步骤(2)中,计算复杂度低者为计算值范围和量级不受候选匹配区尺寸大小影响的基本适配特征参数。
进一步的,本发明方法中,所述步骤(6)中,高斯径向基核函数的表达式为:
Figure GDA0003250276160000062
式中K(xq,x)表示高斯径向基核函数,xq和x均为s维向量,其中q=1,2,3,…,N,σg为高斯核宽度参数,τ为同σg成反比的参数。
进一步的,本发明方法中,所述步骤(6)中,适应度函数值根据下式计算:
Figure GDA0003250276160000063
式中FitnessGA-SVM表示适应度函数值,NSV表示支持向量的个数,NTrain表示训练样本的个数,CR表示分类正确率。
本发明首先利用基本适配特征参数和适配性验证指标构建数据库,利用相关分析和因子分析建立简化的基本适配特征参数和地形适配性之间的物理关系,然后从建立的数据库中随机选取训练样本和测试样本,将训练样本划分成多个类别,并标记类别标签,样本训练之后共获得多组优化参数,其中每一组优化参数都采用遗传算法构建一个相应的支持向量机分类器,利用经训练得到的支持向量机分类器对测试样本进行分类,通过投票表决策略决定测试样本的类别标签。本发明具有分类正确率较高,误判风险较低的特点,可应用于地形匹配和航迹规划。
本发明与现有技术相比,其有益效果是:
(1)针对客观性要求,利用因子分析从较完备的基本适配特征参数中提取出能够描述其物理属性的主成分载荷因子,建立了简化的基本适配特征参数与适配性之间明确的物理关系,(2)针对可靠性要求,相关分析中根据水下潜器作业任务的实际应用对基本适配特征参数进行筛选,满足了对惯性和地形组合导航系统高精度的实际需求,并将分类正确率和支持向量个数联合考虑用于计算遗传算法的适应度函数值,同时获得了良好的分类正确率和对新样本的适应能力,(3)针对自主性要求,利用一对一策略实现候选匹配区的k分类情形,在训练阶段,采用遗传算法自组织选取出一组基本适配特征参数的最优特征子集和支持向量机的惩罚参数和高斯径向基核函数参数,自主构建了一个相应的支持向量机分类器。利用本发明,可满足实际地形适配性分析的需求,显著提高候选匹配区的分类正确率,降低分类结果的误判风险,并利用自组织优化的支持向量机分类器对基准地形图中的候选匹配区逐一进行分类,通过分类性能评估为地形匹配提供支持。
附图说明
图1为本发明所应用的候选匹配区分类策略基本原理框图;
图2为本发明基于因子分析的地形匹配区自组织优化分类方法流程框图;
图3为本发明具体实施方式中构建地形适配性分析数据库的步骤图;
图4为本发明具体实施方式中染色体的编码结构示意图;
图5为本发明具体实施方式中多分类情形下一对一策略基本原理图;
图6为本发明具体实施方式中构建的基准地形图。
具体实施方式
为了详细的说明本发明公开的技术方案,下面结合说明书附图和具体实施方式做进一步的阐述。
如图1所示,候选匹配区的分类问题一般包括特征提取、特征选择和模式分类三个模块,特征提取模块主要采用因子分析方法,建立简化的基本适配特征参数与适配性之间明确的物理关系;特征选择和模式分类两大模块主要是基于遗传算法(GeneticAlgorithm,GA)和支持向量机(Support Vector Machine,SVM)的自组织优化分类方法,该分类方法将特征选择包含在了模式分类过程中,属于封装式的特征选择。
如图2所示,本发明的一种基于因子分析的地形匹配区自组织优化分类方法,具体步骤如下:
(1)计算基本适配特征参数和适配性验证指标,建立面向地形适配性分析的数据库;
(2)采用皮尔逊相关系数对基本适配特征参数进行相关分析,具体为:根据水下潜器作业任务的实际应用,以保留相关系数值不大于0.9的基本适配特征参数中计算复杂度低者为基本准则,对基本适配特征参数进行筛选合并,得到简化的基本适配特征参数;
(3)先对简化的基本适配特征参数进行均值中心和方差规整,即标准化处理,然后利用主成分法从标准化处理后的基本适配特征参数中提取特征值大于1的主成分作为公共因子,同时计算未旋转的因子载荷矩阵;
(4)采用最大旋转法进行因子正交旋转,得到旋转因子载荷矩阵;
(5)分析旋转因子载荷矩阵中每一列的主成分载荷因子,建立简化的基本适配特征参数与地形适配性之间明确的物理关系;
(6)从步骤(1)建立的数据库中随机选取STrain个训练样本,将每个样本划分成 k个类别,类别标签记为Y={y1,y2,y3,…,yk},其中k=3,4,5,…,N,训练之后共获得t=k(k-1)/2组优化参数,每一组优化参数包括最优特征子集subF*、支持向量机惩罚参数C* 和高斯径向基核函数参数τ*,其中每一组优化参数都采用如下方法构建一个相应的支持向量机分类器,从而得到t个支持向量机分类器,具体为:
将支持向量机的惩罚参数C、高斯径向基核函数参数τ和简化的基本适配特征参数三部分按照二进制形式编码,随机产生Npopulation个初始种群Group(0),设置进化代数计数器g的初始值为1、最大进化代数为MaxGeneration;
步骤(6)1选取来自两个不同类别标签ym和yn的数据计算种群Group(g-1)中每个个体的适应度函数值,其中m=1,2,…,k-1,n=1,2,…,k-1,m<n;
步骤(6)2判断进化代数计数器g是否达到MaxGeneration,若
g≤MaxGeneration,则将种群Group(g-1)通过复制、选择、交叉和变异执行遗传操作,将优良子辈、交叉子辈和变异子辈三部分组成进化的新种群Group(g),令g=g+1,返回步骤(6)1,并迭代执行遗传操作,若g>MaxGeneration,则从
Group(MaxGeneration)中输出一组适应度函数值最小的个体并解码得到一组最优特征子集subF*、支持向量机惩罚参数C*和高斯径向基核函数参数τ*,即得到一个支持向量机分类器;
(7)从步骤(1)建立的数据库中随机选取与训练样本不相同的STest个测试样本,先利用经训练构建的t个支持向量机分类器对每个测试样本进行分类,再利用投票表决策略来决定每个测试样本的类别标签。
步骤(1)中具体选取高程均值、高程标准差、累加梯度均值、峰态系数、偏态系数、费歇信息量、地形粗糙度、丰度系数、坡度标准差、地形熵、布朗运动下的分形维数1、相关系数、相关长度、地形编码失真量、尺度-表面积法下的分形维数2作为15维的基本适配特征参数,同时采用匹配概率作为适配性验证指标,并利用相关匹配算法计算匹配概率,基本适配特征参数和匹配概率分别根据以下公式计算:
高程均值
Figure GDA0003250276160000091
Figure GDA0003250276160000092
式中M1和M2表示候选匹配区东向和北向尺寸大小,h(i,j)表示网格点坐标为(i,j)处的地形水深值,i=1,2,…,M1,j=1,2,…,M2
高程标准差σ:
Figure GDA0003250276160000093
累加梯度均值G:
Figure GDA0003250276160000094
Gλ(i,j)=h(i+1,j)-h(i,j),GL(i,j)=h(i,j+1)-h(i,j)
式中Gλ(i,j)、GL(i,j)分别是网格点(i,j)在东向和北向的梯度值。
峰态系数Ce
Figure GDA0003250276160000095
偏态系数Cs:
Figure GDA0003250276160000096
费歇信息量FIC:
Figure GDA0003250276160000097
地形粗糙度r:
Figure GDA0003250276160000098
Figure GDA0003250276160000099
Figure GDA0003250276160000101
式中rλ和rL分别表示东向和北向的粗糙度。
丰度系数SNR:
Figure GDA0003250276160000102
坡度标准差Sσ
Figure GDA0003250276160000103
Figure GDA0003250276160000104
Figure GDA0003250276160000105
Figure GDA0003250276160000106
式中z取整数,即z=-1,0,1。
地形熵Hf
Figure GDA0003250276160000107
Figure GDA0003250276160000108
式中b(i,j)表示每个地形水深值占整体地形的概率;
布朗运动下分形维数1D1
D1=E+1-ρh=3-ρh
式中欧式空间维数E=2,自相似系数ρh计算方法为:
定义归一化尺度向量NSR=[1,2,…,k,…,M1],并定义归一化点对数向量和归一化多尺度水深值差向量:
NPN=[npn(1),npn(2),…,npn(k),…,npn(M1)]
NMSID=[ndi(1),ndi(2),…,ndi(k),…,ndi(M1)]
式中k取整数值,当两个水深点之间的距离d满足条件
Figure GDA0003250276160000111
时,npn(k)表示点对数目,ndi(k)表示所有点对的绝对差的平均值。
Figure GDA0003250276160000112
自相似系数ρh表示以横坐标lg(k),纵坐标lg(ndi(k))进行最小二乘法拟合的直线斜率。
相关系数ρ:
Figure GDA0003250276160000113
Figure GDA0003250276160000114
Figure GDA0003250276160000115
式中ρλ和ρL分别为东向相关系数和北向相关系数。
地形编码失真量
Figure GDA0003250276160000116
Figure GDA0003250276160000117
式中c(hm)表示地形匹配区域内被编码为同一个水深值hm的不同位置的个数,取M1=M2,因此m=1,2,…,M1,将位置(i,j)编码为位置
Figure GDA0003250276160000118
的失真量函数定义为:
Figure GDA0003250276160000119
相关长度β:
Figure GDA00032502761600001110
式中Δx和Δy分别表示东向和北向的位移增量。
尺度-表面积法分形维数2D2
Figure GDA00032502761600001111
匹配概率PCMA
Figure GDA0003250276160000121
其中CMA表示候选匹配区,p为候选匹配区中的每一个待匹配点,CMP(p)表示一个匹配实验成功的次数,NCMA为匹配实验总次数。
构建面向地形适配性分析的数据库步骤如图3所示,以基本适配特征参数和匹配概率构成的部分数据库如表1所示。
表1部分数据库形式
Figure GDA0003250276160000122
步骤(1)中的某些基本适配特征参数在定义上具有一定的相关性,故通过基本适配特征参数之间的相关分析进行参数的数目精简。为了更好地度量两个随机变量间的相关程度,在进行因子分析之前,首先对数据库中的基本适配特征参数进行相关分析,通过筛选或者合并皮尔逊相关系数>0.9的参数,得到简化的基本适配特征参数,然后利用因子分析建立简化的基本适配特征参数与适配性之间明确的物理关系,具体分析步骤为:
1)相关分析
所述步骤(2)中,计算基本适配特征参数之间的皮尔逊(Pearson)相关系数,其中系数值大于0.9表示具有很强相关性,尺度-表面积法的分形维数2、累加梯度均值、费歇信息量以及坡度标准差四个变量的相关系数值如表2所示。
表2部分变量间的Pearson相关系数
Figure GDA0003250276160000123
在实际应用中,以保留相关系数值不大于0.9的基本适配特征参数中计算复杂度低者为基本准则,由相关长度的公式可知,相关长度与地形自相似系数有关,且自相似系数与分形维数1相关,由于水下潜器作业任务需求和惯性导航系统精度等因素的不同,会导致候选匹配区的尺寸大小不同,对于地形编码失真量而言,其计算值的范围和量级会受到候选匹配区的尺寸影响。结合表2可知,相关分析使得15维的基本适配特征参数实现了筛选合并,因子分析时不考虑分形维数2、相关长度和地形编码失真量这三个参数。
2)因子分析
所述步骤(3)中,先对简化的基本适配特征参数进行均值中心和方差规整即标准化处理,然后从标准化处理后的参数中提取特征值大于1的主成分即公共因子,采用主成分法计算得未旋转的3项因子载荷矩阵如表3所示,3项主成分对应的特征根为 [5.736,1.975,1.642]。
表3未旋转的主成分载荷矩阵
Figure GDA0003250276160000131
由于表3中每一列的主成分载荷矩阵的因子大小和分布并没有呈现出明显的规律,参数之间相互耦合,不利于析取因子和命名解释,所述步骤(4)中,进一步采用最大方差法对载荷矩阵进行旋转,重定义因子的构成形式,旋转后的因子载荷矩阵如表4所示,旋转后,三个因子对应的特征根调整为[3.684,3.225,2.341],每一列的主成分载荷因子达到了较明显地靠近1和靠近0两级分离的目的,各基本适配特征参数对因子的贡献被集中起来。
表4旋转载荷矩阵
Figure GDA0003250276160000141
从表4中的数值大小可知,基本适配特征参数的主成分因子命名解释如下:
(1)由
Figure GDA0003250276160000142
r=0.917,Sσ=0.893这三个数值较靠近1,G=0.052,Cs=-0.066这两个数值较靠近0,可看出主成分1主要由高程标准差、地形粗糙度和坡度标准差决定,一般来说,地形起伏程度越大,采样得到的轮廓线辨识度越高,越有利于实现较高的地形匹配,因此主成分1反映了地形整体起伏情况,三个构成成分均为正相关关系,可命名为整体起伏幅度。
(2)由SNR=-0.882,D1=-0.867,ρ=0.739这三个数值较靠近1,r=-0.038,G=-0.081 这两个数值较靠近0,可看出主成分2主要由丰度系数,分形维数1和相关系数决定,在地形高程标准差相当时,粗糙度越大,即地形表面积越大,区域内地形波动越显著;同理,从地形波动的空间分布角度看,在高程变化范围相当的情况下,波动分布越不规律,平均高程落差速度随度量尺度的增长而变慢,即自相似系数越小,对地形匹配越有益;相关系数描述了地形区内的相似性波动情况。一般而言,地形波动程度越高,导致的误匹配风险越大,不利于实现较高的地形匹配,综上主成分2反映了地形波动情况,丰度系数和分形维数1呈负相关,相关系数呈正相关关系,可命名为波动复杂度。
(3)由Ce=0.859,Cs=0.871,Hf=-0.816这三个数值较靠近1,ρ=0.030,SNR=-0.036, G=0.093这三个数值较靠近0,可看出主成分3主要由峰态系数、偏态系数和地形熵决定,从概率分布曲线来看,峰态系数反映了曲线顶端尖峭或扁平程度,低阔峰对应较小峰态系数,表示地形高程数据分布更离散,地形整体信息更丰富,高狭峰对应较大峰态系数,则表示高程数据更集中;同理,偏态系数衡量曲线相对于平均值的不对称程度,针对实际地形,偏态系数值小于0,即具有负偏性,左侧离散程度强,地形整体信息越丰富,值大于0即具有正偏性,右侧离散程度强;地形熵与峰态系数相似,值越小,地形包含的信息越丰富,高程数据的分布越离散。一般而言,地形以更大概率形成的起伏显著、信息丰富的地形区,越有利于实现较高的地形匹配,综上主成分3反映了高程数据的概率分布情况,峰态系数和偏态系数呈正相关,地形熵呈负相关关系,可命名为概率信息丰富度。
所述步骤(6)中,高斯径向基核函数的表达式为:
Figure GDA0003250276160000151
式中K(xq,x)表示核函数,xq和x均为s维向量,其中q=1,2,3,…,N,σg为高斯核宽度参数,τ为同σg成反比的参数。
首先将支持向量机的惩罚参数C、高斯径向基核函数参数τ和经过因子分析提取出的12维基本适配特征参数三部分按照二进制形式编码,遗传算法染色体结构如图4所示,由于在训练支持向量机阶段,需要使用实数形式的C和τ,其解码转换方法为:
Figure GDA0003250276160000152
式中DC和Dτ分别是C和τ对应的二进制字符串的十进位值,同时C和τ的取值范围分别为C∈[Cmin,Cmax]和τ∈[τminmax]。
采用一对一策略实现候选匹配区的多分类情形,其基本原理图如图5所示,从步骤(1)构建的数据库中随机选取300个样本,其中包括100个训练样本和200个测试样本,选取水深范围为东经111.777°~113.129°、北纬15.893°~17.242°的海图水深数据,进行双线性插值处理后构建的基准地形图如图6所示,网格分辨率grid为120m,每个样本对应的候选匹配区尺寸均为25×25grid2,将每个训练样本划分为3个类别,类别标签记为Y={y1,y2,y3},训练之后共获得3组优化参数,每一组优化参数包括最优特征子集 subF*、支持向量机惩罚参数C*和高斯径向基核函数参数τ*,其中每一组优化参数都采用如下方法构建一个相应的支持向量机分类器,遗传算法的具体迭代步骤为:
1)随机产生Npopulation个初始种群Group(0),设置进化代数计数器为g=1、最大进化代数为MaxGeneration。
2)选取来自两个不同类别标签ym和yn的数据计算种群Group(i-1)中每个个体的适应度函数值,其中m=1,2,n=1,2,m<n,适应度函数值的表达式为:
Figure GDA0003250276160000161
式中FitnessGA-SVM表示适应度函数,NSV表示支持向量的个数,NTrain表示训练样本的个数,CR表示分类正确率。
3)判断g是否达到MaxGeneration,若g≤MaxGeneration,则将种群Group(g-1)通过复制、选择、交叉和变异执行遗传操作,将优良子辈、交叉子辈和变异子辈三部分组成进化的新种群Group(g),令g=g+1,返回步骤2)并进行迭代遗传操作,若 g>MaxGeneration,则从Group(MaxGeneration)中输出一组适应度函数值最小的个体并解码得到一组优化参数,即得到一个支持向量机分类器。
按上述具体遗传进化步骤分别执行3次,共获得3个支持向量机分类器,结束样本的训练阶段,进入测试阶段,先利用经训练构建的3个支持向量机分类器对每个测试样本进行分类,再利用投票表决策略来决定每个测试样本的类别标签,进一步利用分类性能评估指标对分类器的性能进行分析。
基于遗传算法和支持向量机的仿真参数设置的依据为:遗传算法的种群规模影响优化的最终结果及算法的执行效率,设置太小优化性能不会太好,设置较大易使算法陷入局部最优解,计算复杂度也较高,一般种群规模取10~200;交叉概率控制交叉操作被使用的拼读,设置太小算法搜索会陷入迟钝,设置较大易使算法高性能模式遭到破坏,一般交叉概率取0.25~1;最大进化代数一般取值在100~1000;编码长度是依据支持向量机惩罚参数和核函数参数的取值范围而选择,编码长度为6位的二进制编码位串可以表示0~63的十进制数,取5折交叉验证法评估GA-SVM算法的泛化能力,因此为了保证算法的代表性及算法的实用性,具体参数值如表5所示。
表5 GA-SVM的参数设置
Figure GDA0003250276160000162
Figure GDA0003250276160000171
本发明针对四种分类方法进行讨论:
(1)无特征选择+无参数优化(NN)。GA既不执行特征选择也不执行参数优化,只有适配特征全部作为SVM的输入向量,并且SVM参数设置为C=1,τ=1/13。
(2)特征选择+无参数优化(FS)。GA染色体编码部分仅保留了基本适配特征部分,至于分类方法流程及相关实验参数设置保持不变。
(3)参数优化+无特征选择(PO)。GA染色体编码部分只有参数C和τ的编码,分类方法流程及相关实验参数设置保持不变。
(4)特征选择+参数优化(FSPO)。GA同时用于特征选择和参数优化,即基于GA- SVM的候选匹配区自组织优化分类方法。
本发明的可行性和有效性从分类方法性能、分类方法计算复杂度和分类方法误判风险三方面进行验证:
选用平均分类正确率(AA)和全局分类正确率(OA)作为分类性能的评估指标,定义如下:
Figure GDA0003250276160000172
Figure GDA0003250276160000173
式中N(PredictionCategory=yi∩RealCategory=yi)表示真实类别为yi的样本中被分类方法正确检测出的样本个数;N(RealCategory=yi)表示真实类别为yi的样本数(i=1,2,3)。
计算复杂度用搜索时间(GA运行时间)和分类时间(SVM分类器的训练和测试时间)衡量,第一类错误是指将适配性优的区域误判为适配性一般的区域或者适配性一般的区域误判为适配性差的区域,第二类错误是指将适配性差的区域误判为适配性一般的区域或者适配性一般的区域误判为适配性优的区域。
不同分类方法的性能比较、计算复杂度比较、误判风险比较分别如表6、表7、表8所示。
表6不同分类方法性能比较
Figure GDA0003250276160000181
表7不同分类方法计算复杂度比较
Figure GDA0003250276160000182
表8不同分类方法误判风险比较
Figure GDA0003250276160000183
由表6可知,同NN方法相比,FS和PO方法分别将OA提高了12.89%和15.36%,这说明无论是只进行特征选择还是只进行参数优化,对SVM的分类性能都会有所改善。另外,同FS和PO方法相比,FSPO方法将OA分别提高了4.07%和1.84%,可见联合优化方法(FSPO)要比独立优化方法(FS、PO)的分类效果好。由表7可知,对于GA-SVM 而言,由于需要构建3个分类器导致GA需要运行3次,所以搜索时间并不占优势,但其分类时间较短,主要是因为同时从特征选择和参数优化两个角度对SVM进行了优化,使得分类器具有良好的分类性能。由表8可知,同PO相比,FSPO方法分类结果的误判风险更低。
由于本发明的候选匹配区分类问题是一个三分类问题,因此构建的自组织优化分类器由三个支持向量机组成,其中每个支持向量机又都是由遗传算法优化得到的,表9给出了经遗传算法搜索得到的3个最优个体的解码形式。
表9分类器训练所得参数
Figure GDA0003250276160000184
Figure GDA0003250276160000191
由表9所知,最优特征子集将性能相对较好的基本适配特征参数组合在一起,这说明了本发明所提出的基于因子分析和GA-SVM的自组织优化分类方法能够提取出地形基本适配特征参数中的共性特征,建立基本适配特征参数与地形适配性之间明确的物理解释,具有一定的客观性,同时在完成特征选择和参数优化的基础上,有效改善支持向量机的性能,并进一步提高候选匹配区的正确率,降低了分类结果的误判风险,自主性和可靠性高。

Claims (5)

1.一种基于因子分析的地形匹配区自组织优化分类方法,其特征在于,该方法包括以下步骤:
(1)计算基本适配特征参数和适配性验证指标,建立面向地形适配性分析的数据库;
(2)采用皮尔逊相关系数对基本适配特征参数进行相关分析,具体为:根据水下潜器作业任务的实际应用,以保留相关系数值不大于0.9的基本适配特征参数中计算复杂度低者为基本准则,对基本适配特征参数进行筛选合并,得到简化的基本适配特征参数;
(3)先对简化的基本适配特征参数进行均值中心和方差规整,即标准化处理,然后利用主成分法从标准化处理后的基本适配特征参数中提取特征值大于1的主成分作为公共因子,同时计算未旋转的因子载荷矩阵;
(4)采用最大旋转法进行因子正交旋转,得到旋转因子载荷矩阵;
(5)分析旋转因子载荷矩阵中每一列的主成分载荷因子,建立简化的基本适配特征参数与地形适配性之间明确的物理关系;
(6)从步骤(1)建立的数据库中随机选取STrain个训练样本,将每个样本划分成k个类别,类别标签记为Y={y1,y2,y3,…,yk},其中k=3,4,5,…,N,训练之后共获得t=k(k-1)/2组优化参数,每一组优化参数包括最优特征子集subF*、支持向量机惩罚参数C*和高斯径向基核函数参数τ*,对每一组优化参数都采用如下方法构建一个相应的支持向量机分类器,从而得到t个支持向量机分类器:
将支持向量机的惩罚参数C、高斯径向基核函数参数τ和简化的基本适配特征参数三部分按照二进制形式编码,随机产生Npopulation个初始种群Group(0),设置进化代数计数器g的初始值为1、最大进化代数为MaxGeneration;
61)选取来自两个不同类别标签ym和yn的数据计算种群Group(g-1)中每个个体的适应度函数值,其中m=1,2,…,k-1,n=1,2,…,k-1,m<n;
62)判断进化代数计数器g是否达到MaxGeneration,若g≤MaxGeneration,则将种群Group(g-1)通过复制、选择、交叉和变异执行遗传操作,将优良子辈、交叉子辈和变异子辈三部分组成进化的新种群Group(g)后,令g=g+1,返回步骤61),若g>MaxGeneration,则从Group(MaxGeneration)中输出一组适应度函数值最小的个体并解码得到一组最优特征子集subF*、支持向量机惩罚参数C*和高斯径向基核函数参数τ*,即得到一个支持向量机分类器;
(7)从步骤(1)建立的数据库中随机选取与训练样本不相同的STest个测试样本,先利用经训练构建的t个支持向量机分类器对每个测试样本进行分类,再利用投票表决策略来决定每个测试样本的类别标签。
2.根据权利要求1所述的一种基于因子分析的地形匹配区自组织优化分类方法,其特征在于,所述步骤(1)中的基本适配特征参数包括高程均值、高程标准差、累加梯度均值、峰态系数、偏态系数、费歇信息量、地形粗糙度、丰度系数、坡度标准差、地形熵、布朗运动下的分形维数1、相关系数、相关长度、地形编码失真量、尺度-表面积法下的分形维数2,所述适配性验证指标采用匹配概率,基本适配特征参数和匹配概率分别根据以下公式计算:
高程均值
Figure FDA0003250276150000021
Figure FDA0003250276150000022
式中M1和M2表示候选匹配区东向和北向尺寸大小,h(i,j)表示网格点坐标为(i,j)处的地形水深值,i=1,2,…,M1,j=1,2,…,M2
高程标准差σ:
Figure FDA0003250276150000023
累加梯度均值G:
Figure FDA0003250276150000024
Gλ(i,j)=h(i+1,j)-h(i,j),GL(i,j)=h(i,j+1)-h(i,j)
式中Gλ(i,j)、GL(i,j)分别是网格点(i,j)在东向和北向的梯度值;
峰态系数Ce
Figure FDA0003250276150000025
偏态系数Cs:
Figure FDA0003250276150000026
费歇信息量FIC:
Figure FDA0003250276150000031
地形粗糙度r:
Figure FDA0003250276150000032
Figure FDA0003250276150000033
Figure FDA0003250276150000034
式中rλ和rL分别表示东向和北向的粗糙度;
丰度系数SNR:
Figure FDA0003250276150000035
坡度标准差Sσ
Figure FDA0003250276150000036
Figure FDA0003250276150000037
Figure FDA0003250276150000038
Figure FDA0003250276150000039
式中z取整数,即z=-1,0,1;
地形熵Hf
Figure FDA00032502761500000310
Figure FDA0003250276150000041
式中b(i,j)表示每个地形水深值占整体地形的概率;
布朗运动下分形维数1D1
D1=E+1-ρh=3-ρh
式中欧式空间维数E=2,自相似系数ρh计算方法为:
定义归一化尺度向量NSR=[1,2,…,k,…,M1],并定义归一化点对数向量和归一化多尺度水深值差向量:
NPN=[npn(1),npn(2),…,npn(k),…,npn(M1)]
NMSID=[ndi(1),ndi(2),…,ndi(k),…,ndi(M1)]
式中k取整数值,当两个水深点之间的距离d满足条件
Figure FDA0003250276150000042
时,npn(k)表示点对数目,ndi(k)表示所有点对的绝对差的平均值;
Figure FDA0003250276150000043
自相似系数ρh表示以横坐标lg(k),纵坐标lg(ndi(k))进行最小二乘法拟合的直线斜率;
相关系数ρ:
Figure FDA0003250276150000044
Figure FDA0003250276150000045
Figure FDA0003250276150000046
式中ρλ和ρL分别为东向相关系数和北向相关系数;
地形编码失真量
Figure FDA0003250276150000047
Figure FDA0003250276150000048
式中c(hm)表示地形匹配区域内被编码为同一个水深值hm的不同位置的个数,取M1=M2,因此m=1,2,…,M1,将位置(i,j)编码为位置
Figure FDA0003250276150000049
的失真量函数定义为:
Figure FDA0003250276150000051
相关长度β:
Figure FDA0003250276150000052
式中Δx和Δy分别表示东向和北向的位移增量;
尺度-表面积法分形维数2D2
Figure FDA0003250276150000053
匹配概率PCMA
Figure FDA0003250276150000054
其中CMA表示候选匹配区,p为候选匹配区中的每一个待匹配点,CMP(p)表示一个匹配实验成功的次数,NCMA为匹配实验总次数。
3.根据权利要求1所述的一种基于因子分析的地形匹配区自组织优化分类方法,其特征在于,所述步骤(2)中,计算复杂度低者为计算值范围和量级不受候选匹配区尺寸大小影响的基本适配特征参数。
4.根据权利要求1、2或3所述的一种基于因子分析的地形匹配区自组织优化分类方法,其特征在于,所述步骤(6)中,高斯径向基核函数的表达式为:
Figure FDA0003250276150000055
式中K(xq,x)表示高斯径向基核函数,xq和x均为s维向量,其中q=1,2,3,…,N,σg为高斯核宽度参数,τ为同σg成反比的参数。
5.根据权利要求1、2或3所述的一种基于因子分析的地形匹配区自组织优化分类方法,其特征在于,所述步骤(6)中,适应度函数值根据下式计算:
Figure FDA0003250276150000056
式中FitnessGA-SVM表示适应度函数值,NSV表示支持向量的个数,NTrain表示训练样本的个数,CR表示分类正确率。
CN201810572974.5A 2018-06-05 2018-06-05 一种基于因子分析的地形匹配区自组织优化分类方法 Active CN108985327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810572974.5A CN108985327B (zh) 2018-06-05 2018-06-05 一种基于因子分析的地形匹配区自组织优化分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810572974.5A CN108985327B (zh) 2018-06-05 2018-06-05 一种基于因子分析的地形匹配区自组织优化分类方法

Publications (2)

Publication Number Publication Date
CN108985327A CN108985327A (zh) 2018-12-11
CN108985327B true CN108985327B (zh) 2022-02-11

Family

ID=64540755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810572974.5A Active CN108985327B (zh) 2018-06-05 2018-06-05 一种基于因子分析的地形匹配区自组织优化分类方法

Country Status (1)

Country Link
CN (1) CN108985327B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457779B (zh) * 2019-07-23 2022-12-06 南京国睿信维软件有限公司 城轨齿轮传动系统部件的参数权重特征推荐方法及其应用
CN113033931B (zh) * 2019-12-24 2023-12-29 中国移动通信集团浙江有限公司 闭环自适应个体及区域分配方法、装置及计算设备
CN111639443B (zh) * 2020-06-10 2023-06-30 上海海事大学 一种基于可变分组的偏态分布最优参数估计方法
CN112161621B (zh) * 2020-09-24 2022-11-25 北京理工大学 一种无模型辅助导航适配区域选取方法
CN113822432B (zh) * 2021-04-06 2024-02-06 京东科技控股股份有限公司 样本数据的处理方法、装置、电子设备及存储介质
CN114239742B (zh) * 2021-12-21 2024-04-02 中国人民解放军国防科技大学 基于规则分类器的医疗数据分类方法及相关设备
CN114543809B (zh) * 2022-02-18 2023-11-14 东南大学 基于改进遗传算法的多路径地形匹配方法
CN116738551B (zh) * 2023-08-09 2023-10-17 陕西通信规划设计研究院有限公司 用于bim模型的采集数据智能处理方法
CN117571742B (zh) * 2024-01-12 2024-04-05 贵州大学 基于人工智能实现芯片质检的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103047983A (zh) * 2013-01-14 2013-04-17 哈尔滨工程大学 水下机器人的面地形匹配导航方法
CN103743402A (zh) * 2014-01-03 2014-04-23 东南大学 一种基于地形信息量的水下智能自适应地形匹配方法
CN104484891A (zh) * 2014-10-22 2015-04-01 哈尔滨工程大学 一种基于纹理特征和地形特征参数的水下地形匹配方法
CN106643714A (zh) * 2017-03-15 2017-05-10 北京航空航天大学 一种自主实时机载地形辅助惯性导航方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103047983A (zh) * 2013-01-14 2013-04-17 哈尔滨工程大学 水下机器人的面地形匹配导航方法
CN103743402A (zh) * 2014-01-03 2014-04-23 东南大学 一种基于地形信息量的水下智能自适应地形匹配方法
CN104484891A (zh) * 2014-10-22 2015-04-01 哈尔滨工程大学 一种基于纹理特征和地形特征参数的水下地形匹配方法
CN106643714A (zh) * 2017-03-15 2017-05-10 北京航空航天大学 一种自主实时机载地形辅助惯性导航方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Geomagnetic Aided Navigation Suitability Evaluation Based on Principal Component Analysis》;Peng Wang 等;《2012 International Conference on Industrial Control and Electronics Engineering》;20121004;全文 *
《基于因子分析的地形适配性问题研究》;朱桐乾 等;《中国惯性技术学会会议论文集》;20171210;全文 *
《基于改进粒子群优化的水下地形辅助导航方法》;程向红 等;《中国惯性技术学报》;20171231;第25卷(第6期);全文 *
《基于改进遗传算法的噪声自适应地形匹配算法》;徐中外 等;《广西大学学报(自然科学版)》;20171030;第42卷(第5期);全文 *

Also Published As

Publication number Publication date
CN108985327A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108985327B (zh) 一种基于因子分析的地形匹配区自组织优化分类方法
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN106682233A (zh) 一种基于深度学习与局部特征融合的哈希图像检索方法
CN104392253B (zh) 一种草图数据集的交互式类别标注方法
CN101329736B (zh) 基于特征选择和隐马尔科夫模型的图像分割方法
CN101710422B (zh) 基于全局流形原型聚类算法与分水岭算法的图像分割方法
CN111832615A (zh) 一种基于前景背景特征融合的样本扩充方法及系统
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN104794496A (zh) 一种改进mRMR算法的遥感特征优选算法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN106203373B (zh) 一种基于深度视觉词袋模型的人脸活体检测方法
CN107273818A (zh) 遗传算法融合差分进化的选择性集成人脸识别方法
CN104537353A (zh) 基于三维点云的三维人脸年龄分类装置及方法
CN112489168A (zh) 一种图像数据集生成制作方法、装置、设备及存储介质
CN113487600A (zh) 一种特征增强尺度自适应感知船舶检测方法
CN108229505A (zh) 基于fisher多级字典学习的图像分类方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN109615421B (zh) 一种基于多目标进化算法的个性化商品推荐方法
CN107016377A (zh) 基于sgasen算法的人脸识别优化方法
CN112215278B (zh) 一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法
Xiao et al. Contact pitch and location prediction for directed self-assembly template verification
Arai Improved ISODATA clustering method with parameter estimation based on genetic algorithm
CN106339354A (zh) 基于改进pca的云计算网络中高维数据可视化方法
CN114549689B (zh) 一种基于图卷积神经网络的河流模式识别方法与装置
CN114492569A (zh) 一种基于宽度学习系统的台风路径分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant