CN114445700A - 一种面向不平衡sar图像数据的证据融合目标识别方法 - Google Patents
一种面向不平衡sar图像数据的证据融合目标识别方法 Download PDFInfo
- Publication number
- CN114445700A CN114445700A CN202111526231.2A CN202111526231A CN114445700A CN 114445700 A CN114445700 A CN 114445700A CN 202111526231 A CN202111526231 A CN 202111526231A CN 114445700 A CN114445700 A CN 114445700A
- Authority
- CN
- China
- Prior art keywords
- sar image
- classification result
- data
- training
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 230000004927 fusion Effects 0.000 title claims abstract description 40
- 238000012937 correction Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 223
- 238000005070 sampling Methods 0.000 claims description 74
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000013441 quality evaluation Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000001154 acute effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241000364051 Pima Species 0.000 description 2
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 210000001685 thyroid gland Anatomy 0.000 description 2
- 241001497337 Euscorpius gamma Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明公开了一种面向不平衡SAR图像数据的证据融合目标识别方法,分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别,并分别得到第一分类结果、第二分类结果和第三分类结果;根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正;将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合,得到SAR图像目标数据的分类结果;本发明在决策层将不同分类器的结果进行融合,充分利用不同分类器的互补知识,可以大大提升目标识别的鲁棒性。
Description
技术领域
本发明属于信息融合及目标识别技术领域,尤其涉及一种面向不平衡SAR图像数据的证据融合目标识别方法。
背景技术
舰船目标识别目前在军事侦查,预警,打击中发挥着十分重要的作用。为了保障我国的全球海洋权益,提升远海远洋持续监视能力和海上安全防御能力,舰船目标快速精准识别是其中的一项关键的支撑技术。
目标识别系统一般是利用传感器探测当前数据集对目标类别进行识别。现实中渔船,货船,客船等民用船舶比较常见,对于军用舰艇,例如战斗舰艇、军用快艇等,由于受到敌方干扰和伪装等人为因素的影响,导致一方很难收集到其敌方这类船舶的信息,从而导致舰船的数据不平衡,舰船目标的整体分布情况和单个类别的分布情况差异较大。
对于不平衡数据,在进行目标识别时,特征挑选和分类器训练往往会更多关注多数类样本,忽略少数类样本,将少数类样本直接分为多数类,导致最终的分类结果不理想。如在某个数据集中,93个数据为客船类,7个数据为货船类,则在进行数据分类时,可能会将7个货船类中的全部或部分均分类为客船类。
在不平衡数据分类问题中,为了平衡少数类与多数类样本的数量,通常有删除多数类样本的欠采样方法,增加少数类样本的过采样方法和将欠采样方法与过采样方法连接在一起的组合采样方法。
传统的数据采样方法中,欠采样方法因为从多数类样本中删除数据来平衡样本分布,但减少数据的同时,也会丢失一些有助于分类的重要信息。过采样方法因为从少数类样本中生成数据以平衡样本比例,可能会导致过度拟合和边缘化的问题。组合采样方法是将欠采样方法和过采样方法进行混合,但普通的集成组合并不一定可以使得分类器性能增强。
发明内容
本发明的目的是提供一种面向不平衡SAR图像数据的证据融合目标识别方法,分别通过不同的方法构建分类器对SAR图像目标数据进行分类,在对各分类器输出的结果进行证据融合,以提升SAR图像目标数据的分类精度。
本发明采用以下技术方案:一种面向不平衡SAR图像数据的证据融合目标识别方法,包括以下步骤:
分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别,并分别得到第一分类结果、第二分类结果和第三分类结果;其中,第一分类器采用欠采样训练集训练得到,第二分类器采用过采样训练集训练得到,第三分类器采用组合采样训练集训练得到;所述欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成;所述第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值;
根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正;
将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合,得到SAR图像目标数据的分类结果;所述分类结果包括若干个类别标签以及SAR图像目标数据属于该类别标签的概率值。
进一步地,根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正包括:
采用质量评价规则,基于邻域估计每个分类结果的可信度,并根据可信度对分类结果进行重分配,得到重分配概率值;其中,分类器为第一分类器、第二分类器或第三分类器;分类结果为第一分类结果、第二分类结果或第三分类结果;
采用信念再分配方法确定重分配概率值中属于其他类/未知类的第一概率值;其中,其他类为在分类结果中除重分配概率值对应的类别之外的每一类别,未知类为分类结果中不存在的类别;
将每一类别对应的非重分配概率值与第一概率值相加,得到每一类别重分配后的概率值;
组合每一类别重分配后的概率值,得到修正后的分类结果。
进一步地,组合每一类别重分配后的概率值包括:
组合每一类别重分配后的概率值以及未知类的概率值。
进一步地,可信度通过置信因子实现,置信因子的计算方法为:
在训练集中选择SAR图像目标数据的K个近邻SAR图像训练数据;其中,训练集为欠采样训练集、过采样训练集或组合采样训练集;
根据K个近邻SAR图像训练数据、并结合计算分类结果的置信因子;其中,αl为第l个分类结果的置信因子,γl为调整属性距离和概率距离对置信因子的影响因子,dl为SAR图像目标数据和K个近邻SAR图像训练数据的平均距离。
进一步地,dl通过以下公式计算得出:
其中,为SAR图像目标数据和第k个近邻SAR图像训练数据的属性距离,是SAR图像目标数据的分类结果ml和第k个近邻SAR图像训练数据的概率距离,是训练集中的SAR图像训练数据和K个近邻SAR图像训练数据之间的平均属性距离,s为训练集中SAR图像训练数据的数量,为训练集中SAR图像训练数据x和第k个近邻SAR图像训练数据之间的属性距离,是训练集中的SAR图像训练数据和K个近邻SAR图像训练数据之间的平均概率距离,为训练集中SAR图像训练数据x和第k个近邻SAR图像训练数据之间的概率距离。
进一步地,质量评价规则基于可靠性矩阵实现,可靠性矩阵中的元素通过计算,其中,Φij为SAR图像目标数据被分为ωi类且其真实类别为ωj类的概率,ωji为近邻SAR图像训练数据被分为ωi类且其真实类别为ωj类的概率,ωgi为近邻SAR图像训练数据被分为ωi类且其真实类别为ωg类的概率,且有c为SAR图像训练数据集中的类别标签数。
进一步地,ωji的计算方法为:
其中,tkj为第k个近邻SAR图像训练数据的真实类别为ωj,λl为第l个分类结果的距离影响参数,为SAR图像目标数据和第k个近邻SAR图像训练数据的相对距离,pk(ωi)为第k个近邻SAR图像训练数据被分为ωi的概率。
本发明的另一种技术方案:一种面向不平衡SAR图像数据的证据融合目标识别装置,包括:
识别模块,用于分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别,并分别得到第一分类结果、第二分类结果和第三分类结果;其中,第一分类器采用欠采样训练集训练得到,第二分类器采用过采样训练集训练得到,第三分类器采用组合采样训练集训练得到;欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成;第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及SAR图像目标数据属于该类别标签的概率值;
修正模块,用于根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正;
融合模块,用于将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合,得到SAR图像目标数据的分类结果;分类结果包括若干个类别标签以及SAR图像目标数据属于该类别标签的概率值。
本发明的另一种技术方案:一种面向不平衡SAR图像数据的证据融合目标识别装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的一种面向不平衡SAR图像数据的证据融合目标识别方法。
本发明的有益效果是:本发明分别通过欠采样训练集、过采样训练集和组合采样训练集训练出对应的分类器,再通过三个分类器分别对SAR图像目标数据进行分类,最后通过置信因子和可靠性矩阵对分类结果进行修正,通过信念再分配方法对分类结果进行重分配;在决策层将不同分类器的结果进行融合,充分利用不同分类器的互补知识,可以大大提升目标识别的鲁棒性。
附图说明
图1为本发明实施例一种面向不平衡SAR图像数据的证据融合目标识别方法的流程图;
图2为本发明另一实施例一种面向不平衡SAR图像数据的证据融合目标识别装置的模块结构示意图;
图3为本发明另一实施例一种面向不平衡SAR图像数据的证据融合目标识别装置的结构示意图;
图4为本发明实施例中多个SAR图像训练数据的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
由于每种方法(欠采样、过采样和组合采样)在解决数据不平衡问题时都有其优点和局限性,所以,通过对三种采样方法的优劣信息在决策层面上进行组合,实现数据采样融合目标识别。因此,本发明提出了一种谨慎的质量评价规则,根据样本的近邻来评估每个分类结果的可信度,然后根据评估结果对分类结果进行修改,采用一种新的信念再分配方法对修正后的分类结果进行新的概率再分配,即一个类别的概率可以部分转移到其他类别,以及整个类别框架所定义的未知类别。通过这种修正机制来降低每种分类策略的错误风险。最后将不同采样方法改进后的分类结果进行证据融合,得到最终的分类结果。
本发明将标签已知的海洋舰船SAR图像目标数据作为训练集,通过三种采样方法(欠采样,过采样,组合采样)获得三种分类器。根据谨慎的质量评价规则和概率再分配方法修正三种分类器的分类结果,利用修正后的分类结果进行决策层面上的融合来对海洋目标进行识别。
该方法主要由三部分组成:
第一部分是证据信任估计的计算。根据属性信息找出SAR图像目标数据的N个属性近邻,然后根据分类器的输出结果从这N个属性近邻中寻找K个概率近邻,通过这两类信息来确保选择的近邻具有属性和分类结果的相似性。根据样本和近邻之间的平均距离计算置信因子αl,将分类器的结果分为两部分,一是根据置信因子进行重分配的mlr,二是分类结果依然保留在原始分类结果中的mlo。
第二部分是进行可靠性矩阵Φ的计算,来反映对样本误分类的认识。对于近邻样本已知标签t和分类器得到结果pi,根据贝叶斯准则,计算当样本标签为ωj但被误分类为ωi的概率。
第三部分提出一个谨慎的概率修正规则,将一个类的概率转移到另一个类以及未知类中。通过对三种采样方法的分类器进行概率修正,将修正后的概率进行证据融合,得到最终的预测结果。
具体的,如图1所示,本发明实施例公开了一种面向不平衡SAR图像数据的证据融合目标识别方法,包括以下步骤:步骤S110、分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别,并分别得到第一分类结果、第二分类结果和第三分类结果;其中,第一分类器采用欠采样训练集训练得到,第二分类器采用过采样训练集训练得到,第三分类器采用组合采样训练集训练得到;欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成;第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及SAR图像目标数据属于该类别标签的概率值;步骤S120、根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正;步骤S130、将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合,得到SAR图像目标数据的分类结果;分类结果包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值。
本发明分别通过欠采样训练集、过采样训练集和组合采样训练集训练出对应的分类器,再通过三个分类器分别对SAR图像目标数据进行分类,最后通过置信因子和可靠性矩阵对分类结果进行修正,通过信念再分配方法对分类结果进行重分配;在决策层将不同分类器的结果进行融合,充分利用不同分类器的互补知识,可以大大提升目标识别的鲁棒性。
下面结合具体实施方案对上述方法做进一步说明。
在本实施例中,为了利用三种采样方法(分别为欠采样、过采样和组合采样)的优点,将三种采样方法进行结合。首先构建三个采样训练集,然后根据三个采样训练集分别训练分类器,即为C1、C2和C3,如图4所示,每个训练集中包含有多个SAR图像训练数据xi,i∈1,2,...,s,每个训练集中的类别标签为ωi,i∈1,2,...,c。
对于每个分类器,训练集中第i个SAR图像训练数据的分类结果为pi={pi,1,pi,2,...,pi,c},pi,c即表示第i个SAR图像训练数据xi被分到第ωc类的概率,pi,j即为SAR图像训练数据xi属于ωj类的概率。SAR图像训练数据的真实标签(标签即为真实类别)为t1,t2,...,ts,当ti(ωj)=1、ti(ωg)=0且ωj≠ωg时,SAR图像训练数据xi的真实标签为ωj。
当需要对一个SAR图像目标数据y进行分类时,对于每一个分类器Cl的预测结果(即分类结果)为ml,l∈1,2,3。对于每一个分类器,SAR图像目标数据总是和近邻SAR图像训练数据之间有着相近的性能表现,所以可以通过在SAR图像训练数据中寻找近邻SAR图像训练数据来评估每一个分类器的可靠性。由于属性特征值域范围非常大,所以这里将属性特征aj采用一般的线性归一化方法将数值固定在[0,1]之间:
关于属性特征,即从SAR图像训练数据中提取的用来进行目标识别的一些属性,如舰船类的船只具有前角为锐角的属性,那么,当SAR图像目标数据的属性具有“前角是锐角”的属性时,则从SAR图像训练数据中找出一些具有“前角是锐角”的属性的SAR图像训练数据,将这些SAR图像训练数据定义为与SAR图像目标数据具有相近属性的属性近邻SAR图像训练数据。
另外,当SAR图像目标数据的属性具有“速度超过100公里/小时”的属性时,则从SAR图像训练数据中找出一些具有“速度大于100公里/小时”的属性的SAR图像训练数据,将这些SAR图像训练数据定义为与SAR图像目标数据具有相近属性的属性近邻SAR图像训练数据。当SAR图像目标数据的属性具有“载客量大于100人”的属性时,则从SAR图像训练数据中找出一些具有“载客量大于100人”的属性的SAR图像训练数据,将这些SAR图像训练数据定义为与SAR图像目标数据具有相近属性的属性近邻SAR图像训练数据。优选的,属性信息还可以有大小,体积,船体容量等。
相同类别的样本之间的属性也具有相似性,而属性之间的相似性可以通过各个样本属性之间的距离来进行度量,距离也就是对相似性的一种体现方式。同样情况下,根据分类器得到的概率同样满足相同类别样本的概率也具有相似性这一条件,而概率之间的相似性可以通过各个分类器对样本之间的输出结果之间的距离进行度量。所以,为了获得可以和SAR图像目标数据有相近性能的近邻SAR图像训练数据,提出通过属性和概率来寻找近邻的方法。
当属性特征aj为舰船载客量大小时,针对两个SAR图像训练数据x1和x2,x1的载客量为100,即aj1=100,x2的载客量为99,即aj2=99。这两个SAR图像训练数据的属性距离为d=aj1-aj2=1。由于这两个SAR图像训练数据属性距离相似,可以说明具有相似的属性特征,即x2可以作为x1的近邻SAR图像训练数据。
在通过不同分类器对SAR图像目标数据分类后,就需要对分类结果进行修正。具体的方法为,采用质量评价规则,基于邻域估计每个分类结果的可信度,并根据可信度对分类结果进行重分配,得到重分配概率值;其中,分类器为第一分类器、第二分类器或第三分类器;分类结果为第一分类结果、第二分类结果或第三分类结果;采用信念再分配方法确定重分配概率值中属于其他类/未知类的第一概率值;其中,其他类为在分类结果中除重分配概率值对应的类别之外的每一类别,未知类为分类结果中不存在的类别;将每一类别对应的非重分配概率值与第一概率值相加,得到每一类别重分配后的概率值;组合每一类别重分配后的概率值,得到修正后的分类结果。
具体的,可信度通过置信因子实现,置信因子的计算方法为:
在训练集中选择SAR图像目标数据的K个近邻SAR图像训练数据;其中,训练集为欠采样训练集、过采样训练集或组合采样训练集;根据K个近邻SAR图像训练数据、并结合计算分类结果的置信因子;其中,αl为第l个分类结果,γl为调整属性距离和概率距离对置信因子的影响因子,dl为SAR图像目标数据和K个近邻SAR图像训练数据的平均距离。
下面以一个分类结果为例,来描述置信因子的计算方法,具体:
首先,在训练集中挑选N个SAR图像目标数据的属性近邻SAR图像训练数据,从这些属性近邻SAR图像训练数据中,进一步挑选K个概率近邻SAR图像训练数据,得到的这K个概率近邻SAR图像训练数据可以对SAR图像目标数据的可靠性估计提供先验知识。
通过引入置信因子αl,l=1,2,3,来计算SAR图像目标数据和近邻SAR图像训练数据之间的差异,将SAR图像目标数据的属性和分类结果中概率的距离一起考虑来度量差异。
αl根据SAR图像目标数据和概率近邻SAR图像训练数据的平均距离来计算,平均距离即表示二者之间相似度的大小。当距离较小时,说明可靠性估计的置信度较高,具体公式如下:
其中,γl用来调整属性距离和概率距离对置信因子的影响因子,dl为SAR图像目标数据和K个近邻SAR图像训练数据的平均距离,即SAR图像目标数据y和K个近邻相对于属性特征和分类器结果输出的平均距离。这里采用平均归一化度量来减少K值和数据离散度对可靠性估计的影响。是SAR图像目标数据y和第k个近邻SAR图像训练数据之间的属性距离。是SAR图像目标数据y的分类结果ml和第k个近邻SAR图像训练数据的概率距离。是训练集中的SAR图像训练数据和K个近邻SAR图像训练数据之间的平均属性距离,s为训练集中SAR图像训练数据的数量,为训练集中SAR图像训练数据x和第k个近邻SAR图像训练数据之间的属性距离,即SAR图像训练数据xi和K近邻的属性距离,是训练集中的SAR图像训练数据和K个近邻SAR图像训练数据之间的平均概率距离,即SAR图像训练数据xi的分类器输出pi和K近邻的平均概率距离,是训练集中SAR图像训练数据x和第k个近邻SAR图像训练数据之间的概率距离,即SAR图像训练数据的分类器输出pi和K近邻的概率距离。
得到置信因子后,通过置信因子将SAR图像目标数据的分类结果分为两部分,一部分mlr是修正过程中根据质量估计(即置信因子)进行重新分配的概率,mlr=αlml;另一部分mlo仍然保持在原始分类结果中,mlo=(1-αl)ml。
在得到分类结果中各类别对应的需要进行重分配概率值后,还需要精细评估该部分概率值中都应重分配到那些类别中,即根据选择的K个近邻SAR图像训练数据的分类结果进行精细化的可靠性评估,然后根据评估结果对分类结果进行修正。
在本实施例中,因为挑选的近邻SAR图像训练数据并不完全等同于SAR图像目标数据,所以不能完全的根据这些近邻而估计分类器的可靠性,引入可靠性矩阵Φ来反映对SAR图像目标数据误分类的情况,该矩阵中包含了需要重分配的概率值被分配到其他类别中的比例。例如,Φij代表SAR图像目标数据被分类为ωi但真实标签为ωj的概率。
可靠性矩阵中的元素通过计算,其中,Φij为SAR图像目标数据被分为ωi类且其真实类别为ωj类的概率,ωji为近邻SAR图像训练数据被分为ωi类且其真实类别为ωj类的概率,ωgi为近邻SAR图像训练数据被分为ωi类且其真实类别为ωg类的概率,且有c为训练集中的类别标签数。
具体的,该可靠性矩阵是通过SAR图像训练数据被分类器进行分类后得到的分类结果和该SAR图像训练数据的真实标签之间计算得出的。
如近邻SAR图像训练数据的真实标签t和分类器的预测结果pi,估计SAR图像目标数据被分为ωi但真实标签为ωj的概率ωji,具体公式为:
其中,tkj为第k个近邻SAR图像训练数据的真实类别为ωj,λl为第l个分类结果的距离影响参数,λl>0为控制距离的影响参数,为SAR图像目标数据和第k个近邻SAR图像训练数据的相对距离,pk(ωi)为第k个近邻SAR图像训练数据被分为ωi的概率。SAR图像目标数据和K个近邻的相对距离通过计算,为SAR图像目标数据和K个近邻SAR图像训练数据之间的属性距离最小值,为SAR图像目标数据和K个近邻SAR图像训练数据之间的概率距离最小值。
根据贝叶斯法则推导出SAR图像目标数据在被分为ωi时实际属于ωj的概率,
当时,c是数据集中类别数。对于给定的采样方法(欠采样、过采样和组合采样)下的SAR图像目标数据,都用类似的方法计算可靠性矩阵。可靠性矩阵可以捕获SAR图像目标数据在分类到A类时,属于B类的条件概率的先验知识。将SAR图像目标数据属于每一类的修正概率通过可靠性矩阵计算得到:
由于可靠性矩阵根据SAR图像目标数据的近邻SAR图像训练数据的信息获得,近邻SAR图像训练数据并不能完全代表SAR图像目标数据,所以如果单纯利用可靠性矩阵对分类结果进行调整,可能会增大错误风险。所以,本实施例中引入一个谨慎的概率修正规则,它可以将一个类别的概率谨慎的转移到另一个类别或者未知类别中,这种未知类别在融合过程中起着中立的作用,可以控制每个证据对融合结果的影响。
具体的,引入一个平衡因子βl,来调整转移到单类和未知类的概率。希望通过适当的对未知类进行建模,谨慎的降低证据修正的错误风险,将概率转移到单类ωj和未知类Ω中:
最后,结合没有进行修正的证据,可以得到最后更新的证据:
当然,在具有分到未知类的分类结果中,组合每一类别重分配后的概率值时,需要将未知类的概率值也加入其内。
综上,就得到了对每个分类结果进行修正后的分类结果。将三个采样方法得到的分类器的分类结果根据修正规则进行修正,再将修正后的证据进行证据融合:
对于三个调谐矢量参数(即γl、λl、βl),参数γl用来确定置信因子αl,并且它可以控制SAR图像目标数据与近邻SAR图像训练数据的距离对置信度的影响。γl越大,则置信因子αl越小,如果γl过大,只会有一小部分概率值进入修正过程,这对提高分类性能是不利的。如果γl过小,则一大部分概率值会被重新分配,但是当近邻SAR图像训练数据没有完全接近SAR图像目标数据时,可能会增加概率再分配的风险。参数λl用来计算可靠性矩阵Φ。参数βl用来平衡单例类别和未知类之间的概率。
对于三种采样方法,都可以求得相应的修正概率,而最终优化的目的是使得误差值之和尽可能的小,利用融合后的分类结果mf与真实标签t非常接近,也就是说误差之和非常小。
在目标识别中,希望融合后的结果与真实标签尽可能接近。所以在对分类器进行优化的时候,最小化融合后分类结果和真实标签的距离来寻找最优的调谐矢量参数值。
上式中,||·||代表欧氏距离,s表示SAR图像训练数据数。根据多次试验发现,在大多数情况下,γ∈[0.5,1.5]、λ>0、β∈[0,1]时,比较合适,优选的,选择fmincon优化方法最小化目标函数可以得到三个调谐矢量参数。
针对不同数据采样方法(欠采样、过采样和组合采样)之间重要的互补知识,本发明根据近邻样本之间具有相似性,先后挑选出K个属性和概率近邻样本,针对近邻样本估计可靠性矩阵,该矩阵解释了SAR图像目标数据被分类到A类时属于B类的条件概率,进而对给定分类器的每一个分类结果的质量进行精细化表征。
在对分类结果进行修正时,由于不能完全凭借近邻SAR图像训练数据的信息进行修正,提出了一种新的信念再分配方法,将一类的信念转移到另一类的信念和未知类中,利用未知类来捕获可靠性矩阵估计中的不确定性,通过对未知类建模可以适当地降低信念修正的误差风险。
本发明在对SAR图像目标数据进行识别时,通过假设其属于每一类的方式,将三种数据采样方法修正后的分类结果进行证据融合。这一步骤综合考虑了SAR图像目标数据会属于每一类的情况,并且通过证据融合方法大大提升了识别结果的鲁棒性。
针对不平衡数据识别分类问题,在数据层面上有欠采样,过采样和组合采样方法,每种方法在处理不平衡数据上都有其独特的优势。本发明通过合适的方式将这三种方法在决策层结合起来,充分利用不同方法之间的互补知识。针对不同的采样方法产生的分类结果质量可能不同,基于属性和概率近邻,提出了一种谨慎的质量评价规则,质量评价规则基于可靠性矩阵实现,设计可靠性矩阵,以评估每个分类结果的可信度。然后根据评价对分类结果进行修改,采用一种新的信念再分配方法,将一个类别的概率转移到其他单个类别或者未知类中,通过这种修正机制来降低每种分类策略的错误风险。最后将不同采样方法修正后的分类结果通过证据融合规则进行结合,生成最终的分类结果,提高分类的准确率。
验证实施例:
如表1所示,是本发明验证过程中所使用的仿真验证数据集的基本信息表,通过8组仿真数据来实验证明本发明的有效性和准确性。
表1验证过程中所使用的数据集的基本信息
数据集 | 样本个数 | 属性 | 类别 | 不平衡数 |
Penbased | 1100 | 16 | 10 | 1.06 |
Pima | 768 | 8 | 2 | 1.87 |
Abalone | 2560 | 8 | 3 | 5 |
Dermatology | 366 | 34 | 6 | 5.55 |
Pageblocks0 | 5472 | 10 | 2 | 8.79 |
Genus | 2880 | 2 | 3 | 20 |
Yeast | 1484 | 8 | 7 | 23.15 |
Yeast4 | 1484 | 8 | 2 | 28.1 |
Yeast5 | 1484 | 8 | 2 | 32.73 |
Thyroid | 720 | 21 | 3 | 36.94 |
Ecoli | 336 | 7 | 8 | 71.5 |
Pageblocks | 548 | 10 | 5 | 164 |
Shuttle | 2175 | 9 | 4 | 853 |
本实验采用的对照方法为欠采样nearmiss算法,过采样smote算法,组合采样smotetomek算法,以及投票法和平均法。欠采样方法nearmiss从多数类中通过一些启发式规则挑选出最具有代表性的数据进行训练,来减轻随机欠采样造成的信息损失。过采样方法smote不是简单地复制少数类样本,而是通过计算少数类样本之间的近邻,选择样本不平衡比例设置采样比例,按照公式在两个少数类样本之间构建新的样本。组合采样方法smotetomek组合了欠采样方法tomelink和过采样方法smote。投票法是基于多数原则,分类结果由大多数分类器的分类结果所决定。平均法取多个分类器的平均值来得到最终的分类结果。我们选取的基分类器是KNN,SVM和RF。
表2-4是实验结果。传统的分类方法一般以准确率作为性能评价指标,但是当样本个数不平衡时,由于少数类样本对总体准确率的影响较小,即使分类算法将全部数据分类为多数类,依旧可以获得较高的准确率。因此,针对不平衡数据的性能评估问题,本发明使用AUC值来进行表示,AUC值是ROC曲线下的面积。本实验数据中有二分类和多分类数据,针对二分类问题,将少数类样本分为正类,多数类样本分为负类。针对多分类数据,将少数类样本分为正类,剩余样本全部分为负类。在实际分类中,会出现四种情况:数据是正类预测结果也为正类的真正类(True Positive,TP);数据为正类但预测为负类的假负类(FalseNegative,FN);数据为负类但预测为正类的假正类(False Positive,FP);数据为负类且预测也为负类的真负类(True Negative,TN)。ROC曲线的纵坐标是真正率(TPR),横坐标是假正率(FPR)。
通过表2-4可以看出,本发明提出的将三种分类器进行修正后融合的AUC值明显优于给出的对照方法,这说明将不同采样方法之间的知识进行互补来提高分类器性能是非常有用的。
表2使用RF分类器的AUC值
表3使用KNN分类器的AUC值
数据集 | Smote | Nearmiss | Smotetomek | Voting | Average | Ours |
Penbased | 99.15 | 98.63 | 99.15 | 98.11 | 99.16 | 99.74 |
Pima | 72.54 | 75.63 | 74.81 | 69.07 | 71.26 | 77.35 |
Abalone | 68.19 | 65.56 | 71.22 | 71.47 | 70.29 | 72.23 |
Dermatology | 99.06 | 98.45 | 98.95 | 97.27 | 98.08 | 99.09 |
Pageblocks0 | 93.36 | 92.38 | 95.81 | 90.89 | 95.33 | 97.51 |
Genus | 94.32 | 89.38 | 93.89 | 89.67 | 93.69 | 95.18 |
Yeast | 84.42 | 84.56 | 87.42 | 76.78 | 89.62 | 90.24 |
Yeast4 | 66.06 | 79.54 | 81.86 | 78.46 | 82.15 | 86.75 |
Yeast5 | 86.02 | 96.84 | 92.51 | 86.02 | 98.83 | 85.65 |
Thyroid | 93.75 | 62.18 | 91.38 | 80.21 | 93.96 | 95.45 |
Ecoli | 93.31 | 93.35 | 93.29 | 90.38 | 95.09 | 95.85 |
Pageblocks | 97.48 | 94.92 | 94.56 | 94.55 | 98.49 | 93.50 |
Shuttle | 99.78 | 86.64 | 99.58 | 96.89 | 98.99 | 99.97 |
表4使用SVM分类器的AUC值
本发明还公开了一种面向不平衡SAR图像数据的证据融合目标识别装置,如图2所示,包括:识别模块210,用于分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别,并分别得到第一分类结果、第二分类结果和第三分类结果;其中,第一分类器采用欠采样训练集训练得到,第二分类器采用过采样训练集训练得到,第三分类器采用组合采样训练集训练得到;欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成;第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值;修正模块220,用于根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正;融合模块230,用于将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合,得到SAR图像目标数据的分类结果;分类结果包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值。
需要说明的是,上述装置的模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将所述装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明还公开了一种面向不平衡SAR图像数据的证据融合目标识别装置,如图3所示,包括存储器310、处理器320以及存储在存储器中并可在处理器上运行的计算机程序330,处理器320执行计算机程序330时实现上述的一种面向不平衡SAR图像数据的证据融合目标识别方法。
所述装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该装置可包括但不仅限于,处理器、存储器。本领域技术人员可以理解,该装置可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器在一些实施例中可以是所述装置的内部存储单元,例如装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述装置的外部存储设备,例如所述装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述装置的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。本领域普通技术人员可以意识到,结合本发明中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
Claims (10)
1.一种面向不平衡SAR图像数据的证据融合目标识别方法,其特征在于,包括以下步骤:
分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别,并分别得到第一分类结果、第二分类结果和第三分类结果;其中,第一分类器采用欠采样训练集训练得到,第二分类器采用过采样训练集训练得到,第三分类器采用组合采样训练集训练得到;所述欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成;所述第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值;
根据修正规则分别对所述第一分类结果、第二分类结果和第三分类结果进行修正;
将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合,得到所述SAR图像目标数据的分类结果;所述分类结果包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值。
2.如权利要求1所述的一种面向不平衡SAR图像数据的证据融合目标识别方法,其特征在于,根据修正规则分别对所述第一分类结果、第二分类结果和第三分类结果进行修正包括:
采用质量评价规则,基于邻域估计每个分类结果的可信度,并根据可信度对分类结果进行重分配,得到重分配概率值;其中,所述分类器为第一分类器、第二分类器或第三分类器;所述分类结果为第一分类结果、第二分类结果或第三分类结果;
采用信念再分配方法确定所述重分配概率值中属于其他类/未知类的第一概率值;其中,所述其他类为在所述分类结果中除所述重分配概率值对应的类别之外的每一类别,所述未知类为所述分类结果中不存在的类别;
将每一类别对应的非重分配概率值与所述第一概率值相加,得到每一类别重分配后的概率值;
组合每一类别重分配后的概率值,得到修正后的分类结果。
3.如权利要求2所述的一种面向不平衡SAR图像数据的证据融合目标识别方法,其特征在于,组合每一类别重分配后的概率值包括:
组合每一类别重分配后的概率值以及未知类的概率值。
5.如权利要求4所述的一种面向不平衡SAR图像数据的证据融合目标识别方法,其特征在于,dl通过以下公式计算得出:
9.一种面向不平衡SAR图像数据的证据融合目标识别装置,其特征在于,包括:
识别模块,用于分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别,并分别得到第一分类结果、第二分类结果和第三分类结果;其中,第一分类器采用欠采样训练集训练得到,第二分类器采用过采样训练集训练得到,第三分类器采用组合采样训练集训练得到;所述欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成;所述第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值;
修正模块,用于根据修正规则分别对所述第一分类结果、第二分类结果和第三分类结果进行修正;
融合模块,用于将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合,得到所述SAR图像目标数据的分类结果;所述分类结果包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值。
10.一种面向不平衡SAR图像数据的证据融合目标识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的一种一种面向不平衡SAR图像数据的证据融合目标识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111526231.2A CN114445700B (zh) | 2021-12-14 | 2021-12-14 | 一种面向不平衡sar图像数据的证据融合目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111526231.2A CN114445700B (zh) | 2021-12-14 | 2021-12-14 | 一种面向不平衡sar图像数据的证据融合目标识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114445700A true CN114445700A (zh) | 2022-05-06 |
CN114445700B CN114445700B (zh) | 2024-03-05 |
Family
ID=81363533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111526231.2A Active CN114445700B (zh) | 2021-12-14 | 2021-12-14 | 一种面向不平衡sar图像数据的证据融合目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445700B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126504A (zh) * | 2019-12-27 | 2020-05-08 | 西北工业大学 | 多源不完备信息融合图像目标分类方法 |
US10970650B1 (en) * | 2020-05-18 | 2021-04-06 | King Abdulaziz University | AUC-maximized high-accuracy classifier for imbalanced datasets |
CN113702728A (zh) * | 2021-07-12 | 2021-11-26 | 广东工业大学 | 一种基于组合采样和LightGBM的变压器故障诊断方法及系统 |
-
2021
- 2021-12-14 CN CN202111526231.2A patent/CN114445700B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126504A (zh) * | 2019-12-27 | 2020-05-08 | 西北工业大学 | 多源不完备信息融合图像目标分类方法 |
US10970650B1 (en) * | 2020-05-18 | 2021-04-06 | King Abdulaziz University | AUC-maximized high-accuracy classifier for imbalanced datasets |
CN113702728A (zh) * | 2021-07-12 | 2021-11-26 | 广东工业大学 | 一种基于组合采样和LightGBM的变压器故障诊断方法及系统 |
Non-Patent Citations (1)
Title |
---|
童涛;杨桄;李昕;叶怡;王寿彪;: "基于D-S证据理论的多特征融合SAR图像目标识别方法", 国土资源遥感, no. 02, 30 June 2013 (2013-06-30), pages 37 - 41 * |
Also Published As
Publication number | Publication date |
---|---|
CN114445700B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amini et al. | Deep evidential regression | |
Pei et al. | SAR automatic target recognition based on multiview deep learning framework | |
CN108596053B (zh) | 一种基于ssd和车辆姿态分类的车辆检测方法和系统 | |
US6397200B1 (en) | Data reduction system for improving classifier performance | |
CN111340144B (zh) | 风险样本检测方法、装置、电子设备及存储介质 | |
JP2008262331A (ja) | オブジェクト追跡装置およびオブジェクト追跡方法 | |
CN115034257B (zh) | 一种基于特征融合的跨模态信息目标识别方法及装置 | |
CN111126504A (zh) | 多源不完备信息融合图像目标分类方法 | |
CN110135428B (zh) | 图像分割处理方法和装置 | |
CN111738319A (zh) | 一种基于大规模样本的聚类结果评价方法及装置 | |
CN110705631B (zh) | 一种基于svm的散货船舶设备状态检测方法 | |
CN114445700B (zh) | 一种面向不平衡sar图像数据的证据融合目标识别方法 | |
Lübbering et al. | Decoupling autoencoders for robust one-vs-rest classification | |
Ma et al. | A membership-based resampling and cleaning algorithm for multi-class imbalanced overlapping data | |
CN113011376B (zh) | 海上船舶遥感分类方法、装置、计算机设备及存储介质 | |
Rusyn et al. | Upper-bound estimates for classifiers based on a dissimilarity function | |
Lübbering et al. | Bounding open space risk with decoupling autoencoders in open set recognition | |
CN115269571A (zh) | 基于数据处理的数据质量评估方法 | |
JP7056751B2 (ja) | 船舶検出システム、方法およびプログラム | |
US11210605B1 (en) | Dataset suitability check for machine learning | |
Laanaya et al. | Classifier fusion for post-classification of textured images | |
Qin et al. | An ATR method for imbalanced data SAR images based on CCEGAN | |
US20230101250A1 (en) | Method for generating a graph structure for training a graph neural network | |
CN114821252B (zh) | 一种图像识别算法的自成长方法 | |
US20240112022A1 (en) | Malleable confidence models and machine learning prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |