CN114445700A

CN114445700A - 一种面向不平衡sar图像数据的证据融合目标识别方法

Info

Publication number: CN114445700A
Application number: CN202111526231.2A
Authority: CN
Inventors: 刘准钆; 牛佳伟; 鹿瑶; 潘泉; 程咏梅
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-05-06
Anticipated expiration: 2041-12-14
Also published as: CN114445700B

Abstract

本发明公开了一种面向不平衡SAR图像数据的证据融合目标识别方法，分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别，并分别得到第一分类结果、第二分类结果和第三分类结果；根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正；将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合，得到SAR图像目标数据的分类结果；本发明在决策层将不同分类器的结果进行融合，充分利用不同分类器的互补知识，可以大大提升目标识别的鲁棒性。

Description

一种面向不平衡SAR图像数据的证据融合目标识别方法

技术领域

本发明属于信息融合及目标识别技术领域，尤其涉及一种面向不平衡SAR图像数据的证据融合目标识别方法。

背景技术

舰船目标识别目前在军事侦查，预警，打击中发挥着十分重要的作用。为了保障我国的全球海洋权益，提升远海远洋持续监视能力和海上安全防御能力，舰船目标快速精准识别是其中的一项关键的支撑技术。

目标识别系统一般是利用传感器探测当前数据集对目标类别进行识别。现实中渔船，货船，客船等民用船舶比较常见，对于军用舰艇，例如战斗舰艇、军用快艇等，由于受到敌方干扰和伪装等人为因素的影响，导致一方很难收集到其敌方这类船舶的信息，从而导致舰船的数据不平衡，舰船目标的整体分布情况和单个类别的分布情况差异较大。

对于不平衡数据，在进行目标识别时，特征挑选和分类器训练往往会更多关注多数类样本，忽略少数类样本，将少数类样本直接分为多数类，导致最终的分类结果不理想。如在某个数据集中，93个数据为客船类，7个数据为货船类，则在进行数据分类时，可能会将7个货船类中的全部或部分均分类为客船类。

在不平衡数据分类问题中，为了平衡少数类与多数类样本的数量，通常有删除多数类样本的欠采样方法，增加少数类样本的过采样方法和将欠采样方法与过采样方法连接在一起的组合采样方法。

传统的数据采样方法中，欠采样方法因为从多数类样本中删除数据来平衡样本分布，但减少数据的同时，也会丢失一些有助于分类的重要信息。过采样方法因为从少数类样本中生成数据以平衡样本比例，可能会导致过度拟合和边缘化的问题。组合采样方法是将欠采样方法和过采样方法进行混合，但普通的集成组合并不一定可以使得分类器性能增强。

发明内容

本发明的目的是提供一种面向不平衡SAR图像数据的证据融合目标识别方法，分别通过不同的方法构建分类器对SAR图像目标数据进行分类，在对各分类器输出的结果进行证据融合，以提升SAR图像目标数据的分类精度。

本发明采用以下技术方案：一种面向不平衡SAR图像数据的证据融合目标识别方法，包括以下步骤：

分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别，并分别得到第一分类结果、第二分类结果和第三分类结果；其中，第一分类器采用欠采样训练集训练得到，第二分类器采用过采样训练集训练得到，第三分类器采用组合采样训练集训练得到；所述欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成；所述第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值；

根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正；

将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合，得到SAR图像目标数据的分类结果；所述分类结果包括若干个类别标签以及SAR图像目标数据属于该类别标签的概率值。

进一步地，根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正包括：

采用质量评价规则，基于邻域估计每个分类结果的可信度，并根据可信度对分类结果进行重分配，得到重分配概率值；其中，分类器为第一分类器、第二分类器或第三分类器；分类结果为第一分类结果、第二分类结果或第三分类结果；

采用信念再分配方法确定重分配概率值中属于其他类/未知类的第一概率值；其中，其他类为在分类结果中除重分配概率值对应的类别之外的每一类别，未知类为分类结果中不存在的类别；

将每一类别对应的非重分配概率值与第一概率值相加，得到每一类别重分配后的概率值；

组合每一类别重分配后的概率值，得到修正后的分类结果。

进一步地，组合每一类别重分配后的概率值包括：

组合每一类别重分配后的概率值以及未知类的概率值。

进一步地，可信度通过置信因子实现，置信因子的计算方法为：

在训练集中选择SAR图像目标数据的K个近邻SAR图像训练数据；其中，训练集为欠采样训练集、过采样训练集或组合采样训练集；

根据K个近邻SAR图像训练数据、并结合

计算分类结果的置信因子；其中，α_l为第l个分类结果的置信因子，γ_l为调整属性距离和概率距离对置信因子的影响因子，d_l为SAR图像目标数据和K个近邻SAR图像训练数据的平均距离。

进一步地，d_l通过以下公式计算得出：

其中，

为SAR图像目标数据和第k个近邻SAR图像训练数据的属性距离，

是SAR图像目标数据的分类结果m_l和第k个近邻SAR图像训练数据的概率距离，

是训练集中的SAR图像训练数据和K个近邻SAR图像训练数据之间的平均属性距离，s为训练集中SAR图像训练数据的数量，

为训练集中SAR图像训练数据x和第k个近邻SAR图像训练数据之间的属性距离，

是训练集中的SAR图像训练数据和K个近邻SAR图像训练数据之间的平均概率距离，

为训练集中SAR图像训练数据x和第k个近邻SAR图像训练数据之间的概率距离。

进一步地，质量评价规则基于可靠性矩阵实现，可靠性矩阵中的元素通过

计算，其中，Φ_ij为SAR图像目标数据被分为ω_i类且其真实类别为ω_j类的概率，ω_ji为近邻SAR图像训练数据被分为ω_i类且其真实类别为ω_j类的概率，ω_gi为近邻SAR图像训练数据被分为ω_i类且其真实类别为ω_g类的概率，且有

c为SAR图像训练数据集中的类别标签数。

进一步地，ω_ji的计算方法为：

其中，t_kj为第k个近邻SAR图像训练数据的真实类别为ω_j，λ_l为第l个分类结果的距离影响参数，

为SAR图像目标数据和第k个近邻SAR图像训练数据的相对距离，p_k(ω_i)为第k个近邻SAR图像训练数据被分为ω_i的概率。

进一步地，

通过以下公式计算：

其中，

为SAR图像目标数据和K个近邻SAR图像训练数据之间的属性距离最小值，

为SAR图像目标数据和K个近邻SAR图像训练数据之间的概率距离最小值。

本发明的另一种技术方案：一种面向不平衡SAR图像数据的证据融合目标识别装置，包括：

识别模块，用于分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别，并分别得到第一分类结果、第二分类结果和第三分类结果；其中，第一分类器采用欠采样训练集训练得到，第二分类器采用过采样训练集训练得到，第三分类器采用组合采样训练集训练得到；欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成；第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及SAR图像目标数据属于该类别标签的概率值；

修正模块，用于根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正；

融合模块，用于将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合，得到SAR图像目标数据的分类结果；分类结果包括若干个类别标签以及SAR图像目标数据属于该类别标签的概率值。

本发明的另一种技术方案：一种面向不平衡SAR图像数据的证据融合目标识别装置，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的一种面向不平衡SAR图像数据的证据融合目标识别方法。

本发明的有益效果是：本发明分别通过欠采样训练集、过采样训练集和组合采样训练集训练出对应的分类器，再通过三个分类器分别对SAR图像目标数据进行分类，最后通过置信因子和可靠性矩阵对分类结果进行修正，通过信念再分配方法对分类结果进行重分配；在决策层将不同分类器的结果进行融合，充分利用不同分类器的互补知识，可以大大提升目标识别的鲁棒性。

附图说明

图1为本发明实施例一种面向不平衡SAR图像数据的证据融合目标识别方法的流程图；

图2为本发明另一实施例一种面向不平衡SAR图像数据的证据融合目标识别装置的模块结构示意图；

图3为本发明另一实施例一种面向不平衡SAR图像数据的证据融合目标识别装置的结构示意图；

图4为本发明实施例中多个SAR图像训练数据的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

由于每种方法(欠采样、过采样和组合采样)在解决数据不平衡问题时都有其优点和局限性，所以，通过对三种采样方法的优劣信息在决策层面上进行组合，实现数据采样融合目标识别。因此，本发明提出了一种谨慎的质量评价规则，根据样本的近邻来评估每个分类结果的可信度，然后根据评估结果对分类结果进行修改，采用一种新的信念再分配方法对修正后的分类结果进行新的概率再分配，即一个类别的概率可以部分转移到其他类别，以及整个类别框架所定义的未知类别。通过这种修正机制来降低每种分类策略的错误风险。最后将不同采样方法改进后的分类结果进行证据融合，得到最终的分类结果。

本发明将标签已知的海洋舰船SAR图像目标数据作为训练集，通过三种采样方法(欠采样，过采样，组合采样)获得三种分类器。根据谨慎的质量评价规则和概率再分配方法修正三种分类器的分类结果，利用修正后的分类结果进行决策层面上的融合来对海洋目标进行识别。

该方法主要由三部分组成：

第一部分是证据信任估计的计算。根据属性信息找出SAR图像目标数据的N个属性近邻，然后根据分类器的输出结果从这N个属性近邻中寻找K个概率近邻，通过这两类信息来确保选择的近邻具有属性和分类结果的相似性。根据样本和近邻之间的平均距离计算置信因子α_l，将分类器的结果分为两部分，一是根据置信因子进行重分配的m_lr，二是分类结果依然保留在原始分类结果中的m_lo。

第二部分是进行可靠性矩阵Φ的计算，来反映对样本误分类的认识。对于近邻样本已知标签t和分类器得到结果p_i，根据贝叶斯准则，计算当样本标签为ω_j但被误分类为ω_i的概率。

第三部分提出一个谨慎的概率修正规则，将一个类的概率转移到另一个类以及未知类中。通过对三种采样方法的分类器进行概率修正，将修正后的概率进行证据融合，得到最终的预测结果。

具体的，如图1所示，本发明实施例公开了一种面向不平衡SAR图像数据的证据融合目标识别方法，包括以下步骤：步骤S110、分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别，并分别得到第一分类结果、第二分类结果和第三分类结果；其中，第一分类器采用欠采样训练集训练得到，第二分类器采用过采样训练集训练得到，第三分类器采用组合采样训练集训练得到；欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成；第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及SAR图像目标数据属于该类别标签的概率值；步骤S120、根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正；步骤S130、将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合，得到SAR图像目标数据的分类结果；分类结果包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值。

本发明分别通过欠采样训练集、过采样训练集和组合采样训练集训练出对应的分类器，再通过三个分类器分别对SAR图像目标数据进行分类，最后通过置信因子和可靠性矩阵对分类结果进行修正，通过信念再分配方法对分类结果进行重分配；在决策层将不同分类器的结果进行融合，充分利用不同分类器的互补知识，可以大大提升目标识别的鲁棒性。

下面结合具体实施方案对上述方法做进一步说明。

在本实施例中，为了利用三种采样方法(分别为欠采样、过采样和组合采样)的优点，将三种采样方法进行结合。首先构建三个采样训练集，然后根据三个采样训练集分别训练分类器，即为C₁、C₂和C₃，如图4所示，每个训练集中包含有多个SAR图像训练数据x_i，i∈1,2,...,s，每个训练集中的类别标签为ω_i，i∈1,2,...,c。

对于每个分类器，训练集中第i个SAR图像训练数据的分类结果为p_i＝{p_i,1,p_i,2,...,p_i,c}，p_i,c即表示第i个SAR图像训练数据x_i被分到第ω_c类的概率，p_i,j即为SAR图像训练数据x_i属于ω_j类的概率。SAR图像训练数据的真实标签(标签即为真实类别)为t₁,t₂,...,t_s，当t_i(ω_j)＝1、t_i(ω_g)＝0且ω_j≠ω_g时，SAR图像训练数据x_i的真实标签为ω_j。

当需要对一个SAR图像目标数据y进行分类时，对于每一个分类器C_l的预测结果(即分类结果)为m_l,l∈1,2,3。对于每一个分类器，SAR图像目标数据总是和近邻SAR图像训练数据之间有着相近的性能表现，所以可以通过在SAR图像训练数据中寻找近邻SAR图像训练数据来评估每一个分类器的可靠性。由于属性特征值域范围非常大，所以这里将属性特征a_j采用一般的线性归一化方法将数值固定在[0,1]之间：

关于属性特征，即从SAR图像训练数据中提取的用来进行目标识别的一些属性，如舰船类的船只具有前角为锐角的属性，那么，当SAR图像目标数据的属性具有“前角是锐角”的属性时，则从SAR图像训练数据中找出一些具有“前角是锐角”的属性的SAR图像训练数据，将这些SAR图像训练数据定义为与SAR图像目标数据具有相近属性的属性近邻SAR图像训练数据。

另外，当SAR图像目标数据的属性具有“速度超过100公里/小时”的属性时，则从SAR图像训练数据中找出一些具有“速度大于100公里/小时”的属性的SAR图像训练数据，将这些SAR图像训练数据定义为与SAR图像目标数据具有相近属性的属性近邻SAR图像训练数据。当SAR图像目标数据的属性具有“载客量大于100人”的属性时，则从SAR图像训练数据中找出一些具有“载客量大于100人”的属性的SAR图像训练数据，将这些SAR图像训练数据定义为与SAR图像目标数据具有相近属性的属性近邻SAR图像训练数据。优选的，属性信息还可以有大小，体积，船体容量等。

相同类别的样本之间的属性也具有相似性，而属性之间的相似性可以通过各个样本属性之间的距离来进行度量，距离也就是对相似性的一种体现方式。同样情况下，根据分类器得到的概率同样满足相同类别样本的概率也具有相似性这一条件，而概率之间的相似性可以通过各个分类器对样本之间的输出结果之间的距离进行度量。所以，为了获得可以和SAR图像目标数据有相近性能的近邻SAR图像训练数据，提出通过属性和概率来寻找近邻的方法。

当属性特征a_j为舰船载客量大小时，针对两个SAR图像训练数据x₁和x₂，x₁的载客量为100，即a_j1＝100，x₂的载客量为99，即a_j2＝99。这两个SAR图像训练数据的属性距离为d＝a_j1-a_j2＝1。由于这两个SAR图像训练数据属性距离相似，可以说明具有相似的属性特征，即x₂可以作为x₁的近邻SAR图像训练数据。

在通过不同分类器对SAR图像目标数据分类后，就需要对分类结果进行修正。具体的方法为，采用质量评价规则，基于邻域估计每个分类结果的可信度，并根据可信度对分类结果进行重分配，得到重分配概率值；其中，分类器为第一分类器、第二分类器或第三分类器；分类结果为第一分类结果、第二分类结果或第三分类结果；采用信念再分配方法确定重分配概率值中属于其他类/未知类的第一概率值；其中，其他类为在分类结果中除重分配概率值对应的类别之外的每一类别，未知类为分类结果中不存在的类别；将每一类别对应的非重分配概率值与第一概率值相加，得到每一类别重分配后的概率值；组合每一类别重分配后的概率值，得到修正后的分类结果。

具体的，可信度通过置信因子实现，置信因子的计算方法为：

在训练集中选择SAR图像目标数据的K个近邻SAR图像训练数据；其中，训练集为欠采样训练集、过采样训练集或组合采样训练集；根据K个近邻SAR图像训练数据、并结合

计算分类结果的置信因子；其中，α_l为第l个分类结果，γ_l为调整属性距离和概率距离对置信因子的影响因子，d_l为SAR图像目标数据和K个近邻SAR图像训练数据的平均距离。

下面以一个分类结果为例，来描述置信因子的计算方法，具体：

首先，在训练集中挑选N个SAR图像目标数据的属性近邻SAR图像训练数据，从这些属性近邻SAR图像训练数据中，进一步挑选K个概率近邻SAR图像训练数据，得到的这K个概率近邻SAR图像训练数据可以对SAR图像目标数据的可靠性估计提供先验知识。

通过引入置信因子α_l,l＝1,2,3，来计算SAR图像目标数据和近邻SAR图像训练数据之间的差异，将SAR图像目标数据的属性和分类结果中概率的距离一起考虑来度量差异。

α_l根据SAR图像目标数据和概率近邻SAR图像训练数据的平均距离来计算，平均距离即表示二者之间相似度的大小。当距离较小时，说明可靠性估计的置信度较高，具体公式如下：

其中，γ_l用来调整属性距离和概率距离对置信因子的影响因子，

d_l为SAR图像目标数据和K个近邻SAR图像训练数据的平均距离，即SAR图像目标数据y和K个近邻相对于属性特征和分类器结果输出的平均距离。这里采用平均归一化度量来减少K值和数据离散度对可靠性估计的影响。

是SAR图像目标数据y和第k个近邻SAR图像训练数据之间的属性距离。

是SAR图像目标数据y的分类结果m_l和第k个近邻SAR图像训练数据的概率距离。

为训练集中SAR图像训练数据x和第k个近邻SAR图像训练数据之间的属性距离，即SAR图像训练数据x_i和K近邻的属性距离，

是训练集中的SAR图像训练数据和K个近邻SAR图像训练数据之间的平均概率距离，即SAR图像训练数据x_i的分类器输出p_i和K近邻的平均概率距离，

是训练集中SAR图像训练数据x和第k个近邻SAR图像训练数据之间的概率距离，即SAR图像训练数据的分类器输出p_i和K近邻的概率距离。

得到置信因子后，通过置信因子将SAR图像目标数据的分类结果分为两部分，一部分m_lr是修正过程中根据质量估计(即置信因子)进行重新分配的概率，m_lr＝α_lm_l；另一部分m_lo仍然保持在原始分类结果中，m_lo＝(1-α_l)m_l。

在得到分类结果中各类别对应的需要进行重分配概率值后，还需要精细评估该部分概率值中都应重分配到那些类别中，即根据选择的K个近邻SAR图像训练数据的分类结果进行精细化的可靠性评估，然后根据评估结果对分类结果进行修正。

在本实施例中，因为挑选的近邻SAR图像训练数据并不完全等同于SAR图像目标数据，所以不能完全的根据这些近邻而估计分类器的可靠性，引入可靠性矩阵Φ来反映对SAR图像目标数据误分类的情况，该矩阵中包含了需要重分配的概率值被分配到其他类别中的比例。例如，Φ_ij代表SAR图像目标数据被分类为ω_i但真实标签为ω_j的概率。

可靠性矩阵中的元素通过

c为训练集中的类别标签数。

具体的，该可靠性矩阵是通过SAR图像训练数据被分类器进行分类后得到的分类结果和该SAR图像训练数据的真实标签之间计算得出的。

如近邻SAR图像训练数据的真实标签t和分类器的预测结果p_i，估计SAR图像目标数据被分为ω_i但真实标签为ω_j的概率ω_ji，具体公式为：

其中，t_kj为第k个近邻SAR图像训练数据的真实类别为ω_j，λ_l为第l个分类结果的距离影响参数，λ_l＞0为控制距离的影响参数，

为SAR图像目标数据和第k个近邻SAR图像训练数据的相对距离，p_k(ω_i)为第k个近邻SAR图像训练数据被分为ω_i的概率。SAR图像目标数据和K个近邻的相对距离通过

计算，

根据贝叶斯法则推导出SAR图像目标数据在被分为ω_i时实际属于ω_j的概率，

当

时，c是数据集中类别数。对于给定的采样方法(欠采样、过采样和组合采样)下的SAR图像目标数据，都用类似的方法计算可靠性矩阵。可靠性矩阵可以捕获SAR图像目标数据在分类到A类时，属于B类的条件概率的先验知识。将SAR图像目标数据属于每一类的修正概率通过可靠性矩阵计算得到：

由于可靠性矩阵根据SAR图像目标数据的近邻SAR图像训练数据的信息获得，近邻SAR图像训练数据并不能完全代表SAR图像目标数据，所以如果单纯利用可靠性矩阵对分类结果进行调整，可能会增大错误风险。所以，本实施例中引入一个谨慎的概率修正规则，它可以将一个类别的概率谨慎的转移到另一个类别或者未知类别中，这种未知类别在融合过程中起着中立的作用，可以控制每个证据对融合结果的影响。

具体的，引入一个平衡因子β_l，来调整转移到单类和未知类的概率。希望通过适当的对未知类进行建模，谨慎的降低证据修正的错误风险，将概率转移到单类ω_j和未知类Ω中：

最后，结合没有进行修正的证据，可以得到最后更新的证据：

当然，在具有分到未知类的分类结果中，组合每一类别重分配后的概率值时，需要将未知类的概率值也加入其内。

综上，就得到了对每个分类结果进行修正后的分类结果。将三个采样方法得到的分类器的分类结果根据修正规则进行修正，再将修正后的证据进行证据融合：

对于三个调谐矢量参数(即γ_l、λ_l、β_l)，参数γ_l用来确定置信因子α_l，并且它可以控制SAR图像目标数据与近邻SAR图像训练数据的距离对置信度的影响。γ_l越大，则置信因子α_l越小，如果γ_l过大，只会有一小部分概率值进入修正过程，这对提高分类性能是不利的。如果γ_l过小，则一大部分概率值会被重新分配，但是当近邻SAR图像训练数据没有完全接近SAR图像目标数据时，可能会增加概率再分配的风险。参数λ_l用来计算可靠性矩阵Φ。参数β_l用来平衡单例类别和未知类之间的概率。

对于三种采样方法，都可以求得相应的修正概率，而最终优化的目的是使得误差值之和尽可能的小，利用融合后的分类结果m^f与真实标签t非常接近，也就是说误差之和非常小。

在目标识别中，希望融合后的结果与真实标签尽可能接近。所以在对分类器进行优化的时候，最小化融合后分类结果和真实标签的距离来寻找最优的调谐矢量参数值。

上式中，||·||代表欧氏距离，s表示SAR图像训练数据数。根据多次试验发现，在大多数情况下，γ∈[0.5,1.5]、λ＞0、β∈[0,1]时，比较合适，优选的，选择fmincon优化方法最小化目标函数可以得到三个调谐矢量参数。

针对不同数据采样方法(欠采样、过采样和组合采样)之间重要的互补知识，本发明根据近邻样本之间具有相似性，先后挑选出K个属性和概率近邻样本，针对近邻样本估计可靠性矩阵，该矩阵解释了SAR图像目标数据被分类到A类时属于B类的条件概率，进而对给定分类器的每一个分类结果的质量进行精细化表征。

在对分类结果进行修正时，由于不能完全凭借近邻SAR图像训练数据的信息进行修正，提出了一种新的信念再分配方法，将一类的信念转移到另一类的信念和未知类中，利用未知类来捕获可靠性矩阵估计中的不确定性，通过对未知类建模可以适当地降低信念修正的误差风险。

本发明在对SAR图像目标数据进行识别时，通过假设其属于每一类的方式，将三种数据采样方法修正后的分类结果进行证据融合。这一步骤综合考虑了SAR图像目标数据会属于每一类的情况，并且通过证据融合方法大大提升了识别结果的鲁棒性。

针对不平衡数据识别分类问题，在数据层面上有欠采样，过采样和组合采样方法，每种方法在处理不平衡数据上都有其独特的优势。本发明通过合适的方式将这三种方法在决策层结合起来，充分利用不同方法之间的互补知识。针对不同的采样方法产生的分类结果质量可能不同，基于属性和概率近邻，提出了一种谨慎的质量评价规则，质量评价规则基于可靠性矩阵实现，设计可靠性矩阵，以评估每个分类结果的可信度。然后根据评价对分类结果进行修改，采用一种新的信念再分配方法，将一个类别的概率转移到其他单个类别或者未知类中，通过这种修正机制来降低每种分类策略的错误风险。最后将不同采样方法修正后的分类结果通过证据融合规则进行结合，生成最终的分类结果，提高分类的准确率。

验证实施例：

如表1所示，是本发明验证过程中所使用的仿真验证数据集的基本信息表，通过8组仿真数据来实验证明本发明的有效性和准确性。

表1验证过程中所使用的数据集的基本信息

数据集	样本个数	属性	类别	不平衡数
					Penbased	1100	16	10	1.06
Pima	768	8	2	1.87
					Abalone	2560	8	3	5
Dermatology	366	34	6	5.55
					Pageblocks0	5472	10	2	8.79
Genus	2880	2	3	20
					Yeast	1484	8	7	23.15
Yeast4	1484	8	2	28.1
					Yeast5	1484	8	2	32.73
Thyroid	720	21	3	36.94
					Ecoli	336	7	8	71.5
Pageblocks	548	10	5	164
					Shuttle	2175	9	4	853

本实验采用的对照方法为欠采样nearmiss算法，过采样smote算法，组合采样smotetomek算法，以及投票法和平均法。欠采样方法nearmiss从多数类中通过一些启发式规则挑选出最具有代表性的数据进行训练，来减轻随机欠采样造成的信息损失。过采样方法smote不是简单地复制少数类样本，而是通过计算少数类样本之间的近邻，选择样本不平衡比例设置采样比例，按照公式

在两个少数类样本之间构建新的样本。组合采样方法smotetomek组合了欠采样方法tomelink和过采样方法smote。投票法是基于多数原则，分类结果由大多数分类器的分类结果所决定。平均法取多个分类器的平均值来得到最终的分类结果。我们选取的基分类器是KNN，SVM和RF。

表2-4是实验结果。传统的分类方法一般以准确率作为性能评价指标，但是当样本个数不平衡时，由于少数类样本对总体准确率的影响较小，即使分类算法将全部数据分类为多数类，依旧可以获得较高的准确率。因此，针对不平衡数据的性能评估问题，本发明使用AUC值来进行表示，AUC值是ROC曲线下的面积。本实验数据中有二分类和多分类数据，针对二分类问题，将少数类样本分为正类，多数类样本分为负类。针对多分类数据，将少数类样本分为正类，剩余样本全部分为负类。在实际分类中，会出现四种情况：数据是正类预测结果也为正类的真正类(True Positive,TP)；数据为正类但预测为负类的假负类(FalseNegative,FN)；数据为负类但预测为正类的假正类(False Positive,FP)；数据为负类且预测也为负类的真负类(True Negative,TN)。ROC曲线的纵坐标是真正率(TPR)，横坐标是假正率(FPR)。

通过表2-4可以看出，本发明提出的将三种分类器进行修正后融合的AUC值明显优于给出的对照方法，这说明将不同采样方法之间的知识进行互补来提高分类器性能是非常有用的。

表2使用RF分类器的AUC值

表3使用KNN分类器的AUC值

数据集	Smote	Nearmiss	Smotetomek	Voting	Average	Ours
							Penbased	99.15	98.63	99.15	98.11	99.16	99.74
Pima	72.54	75.63	74.81	69.07	71.26	77.35
							Abalone	68.19	65.56	71.22	71.47	70.29	72.23
Dermatology	99.06	98.45	98.95	97.27	98.08	99.09
							Pageblocks0	93.36	92.38	95.81	90.89	95.33	97.51
Genus	94.32	89.38	93.89	89.67	93.69	95.18
							Yeast	84.42	84.56	87.42	76.78	89.62	90.24
Yeast4	66.06	79.54	81.86	78.46	82.15	86.75
							Yeast5	86.02	96.84	92.51	86.02	98.83	85.65
Thyroid	93.75	62.18	91.38	80.21	93.96	95.45
							Ecoli	93.31	93.35	93.29	90.38	95.09	95.85
Pageblocks	97.48	94.92	94.56	94.55	98.49	93.50
							Shuttle	99.78	86.64	99.58	96.89	98.99	99.97

表4使用SVM分类器的AUC值

本发明还公开了一种面向不平衡SAR图像数据的证据融合目标识别装置，如图2所示，包括：识别模块210，用于分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别，并分别得到第一分类结果、第二分类结果和第三分类结果；其中，第一分类器采用欠采样训练集训练得到，第二分类器采用过采样训练集训练得到，第三分类器采用组合采样训练集训练得到；欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成；第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值；修正模块220，用于根据修正规则分别对第一分类结果、第二分类结果和第三分类结果进行修正；融合模块230，用于将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合，得到SAR图像目标数据的分类结果；分类结果包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值。

需要说明的是，上述装置的模块之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将所述装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明还公开了一种面向不平衡SAR图像数据的证据融合目标识别装置，如图3所示，包括存储器310、处理器320以及存储在存储器中并可在处理器上运行的计算机程序330，处理器320执行计算机程序330时实现上述的一种面向不平衡SAR图像数据的证据融合目标识别方法。

所述装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该装置可包括但不仅限于，处理器、存储器。本领域技术人员可以理解，该装置可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器在一些实施例中可以是所述装置的内部存储单元，例如装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述装置的外部存储设备，例如所述装置上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括所述装置的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。本领域普通技术人员可以意识到，结合本发明中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种面向不平衡SAR图像数据的证据融合目标识别方法，其特征在于，包括以下步骤：

根据修正规则分别对所述第一分类结果、第二分类结果和第三分类结果进行修正；

将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合，得到所述SAR图像目标数据的分类结果；所述分类结果包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值。

2.如权利要求1所述的一种面向不平衡SAR图像数据的证据融合目标识别方法，其特征在于，根据修正规则分别对所述第一分类结果、第二分类结果和第三分类结果进行修正包括：

采用质量评价规则，基于邻域估计每个分类结果的可信度，并根据可信度对分类结果进行重分配，得到重分配概率值；其中，所述分类器为第一分类器、第二分类器或第三分类器；所述分类结果为第一分类结果、第二分类结果或第三分类结果；

采用信念再分配方法确定所述重分配概率值中属于其他类/未知类的第一概率值；其中，所述其他类为在所述分类结果中除所述重分配概率值对应的类别之外的每一类别，所述未知类为所述分类结果中不存在的类别；

将每一类别对应的非重分配概率值与所述第一概率值相加，得到每一类别重分配后的概率值；

组合每一类别重分配后的概率值，得到修正后的分类结果。

3.如权利要求2所述的一种面向不平衡SAR图像数据的证据融合目标识别方法，其特征在于，组合每一类别重分配后的概率值包括：

组合每一类别重分配后的概率值以及未知类的概率值。

4.如权利要求2或3所述的一种面向不平衡SAR图像数据的证据融合目标识别方法，其特征在于，所述可信度通过置信因子实现，所述置信因子的计算方法为：

在训练集中选择SAR图像目标数据的K个近邻SAR图像训练数据；其中，所述训练集为欠采样训练集、过采样训练集或组合采样训练集；

根据K个所述近邻SAR图像训练数据、并结合

计算所述分类结果的置信因子；其中，α_l为第l个分类结果的置信因子，γ_l为调整属性距离和概率距离对置信因子的影响因子，d_l为SAR图像目标数据和K个近邻SAR图像训练数据的平均距离。

5.如权利要求4所述的一种面向不平衡SAR图像数据的证据融合目标识别方法，其特征在于，d_l通过以下公式计算得出：

其中，

为SAR图像目标数据和第k个近邻SAR图像训练数据的属性距离，

6.如权利要求2或3或5所述的一种面向不平衡SAR图像数据的证据融合目标识别方法，其特征在于，所述质量评价规则基于可靠性矩阵实现，所述可靠性矩阵中的元素通过

c为训练集中的类别标签数。

7.如权利要求6所述的一种面向不平衡SAR图像数据的证据融合目标识别方法，其特征在于，ω_ji的计算方法为：

8.如权利要求7所述的一种面向不平衡SAR图像数据的证据融合目标识别方法，其特征在于，

通过以下公式计算：

其中，

9.一种面向不平衡SAR图像数据的证据融合目标识别装置，其特征在于，包括：

识别模块，用于分别通过第一分类器、第二分类器和第三分类器对SAR图像目标数据进行目标识别，并分别得到第一分类结果、第二分类结果和第三分类结果；其中，第一分类器采用欠采样训练集训练得到，第二分类器采用过采样训练集训练得到，第三分类器采用组合采样训练集训练得到；所述欠采样训练集、过采样训练集和组合采样训练集均由若干个SAR图像训练数据组成；所述第一分类结果、第二分类结果和第三分类结果均包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值；

修正模块，用于根据修正规则分别对所述第一分类结果、第二分类结果和第三分类结果进行修正；

融合模块，用于将修正后的第一分类结果、修正后的第二分类结果和修正后的第三分类结果融合，得到所述SAR图像目标数据的分类结果；所述分类结果包括若干个类别标签以及所述SAR图像目标数据属于该类别标签的概率值。

10.一种面向不平衡SAR图像数据的证据融合目标识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的一种一种面向不平衡SAR图像数据的证据融合目标识别方法。