CN108733633A

CN108733633A - 一种样本分布调整的不平衡数据回归方法及装置

Info

Publication number: CN108733633A
Application number: CN201810480319.7A
Authority: CN
Inventors: 艾轶博; 张卫冬; 王璠; 陈佳; 张涛; 孙畅
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2018-11-02

Abstract

本发明提供一种样本分布调整的不平衡数据回归方法及装置，能够建立更佳准确的回归模型。所述方法包括：S101，向初始设置的回归模型中输入待判别的样本数据，根据回归模型样本数据分类的准确性，更新样本数据的权值，其中，初始设置的回归模型为Adaboost算法的弱分类器，所述样本数据为：不平衡样本数据；S102，在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，不断迭代更新样本数据的权值直至达到预设的识别误差要求。本发明适用于解决样本数据中的不平衡数据问题。

Description

一种样本分布调整的不平衡数据回归方法及装置

技术领域

本发明涉及数据处理领域，特别是指一种样本分布调整的不平衡数据回归方法及装置。

背景技术

不平衡数据是指数据对象中的各类别数据不均衡。在实际分类问题中，少数类数据往往包含更重要的信息，通过解决不平衡数据问题，可以充分发挥包含更重要信息的少数类数据的作用。所常见的问题中，罕见病调查数据、吉祥物投票、以及不可维修长期服役结构的失效信息等，这些问题都是典型的不平衡数据问题。在这些不平衡数据问题中，对于表征目的具有重要信息的这类数据，叫做关键表征数据。关键表征数据与非关键表征数据严重不平衡，是典型的二分类不平衡数据问题，可以认为关键表征数据为不平衡数据中的正样本，而非关键表征数据为不平衡数据中的负样本，可以采用一定的方法通过数据中正负样本分布调整，来充分挖掘正样本中的数据信息。

基于不平衡数据直接构建的回归模型，其输出结果的准确性较低。

发明内容

本发明要解决的技术问题是提供一种样本分布调整的不平衡数据回归方法及装置，以解决现有技术所存在的基于不平衡数据直接构建的回归模型其输出结果准确性较低的问题。

为解决上述技术问题，本发明实施例提供一种样本分布调整的不平衡数据回归方法，包括：

S101，向初始设置的回归模型中输入待判别的样本数据，根据回归模型样本数据分类的准确性，更新样本数据的权值，其中，初始设置的回归模型为Adaboost算法的弱分类器，所述样本数据为：不平衡样本数据；

S102，在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，不断迭代更新样本数据的权值直至达到预设的识别误差要求。

进一步地，所述S101包括：

向初始设置的回归模型中输入待判别的样本数据；

判断回归模型的回归结果与真实的样本数据xⁱ之间的相对误差是否大于预设的第一误差；

若大于，则判断样本数据xⁱ为错分样本，提高样本数据xⁱ的权值；

否则，则判断样本数据xⁱ为非错分样本，降低样本数据xⁱ的权值。

进一步地，所述S102包括：

S1021，在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，根据S101的权值更新规则不断更新样本数据的权值；

S1022，判断不平衡样本数据中的关键表征数据x^m与回归模型的回归结果之间相对误差是否小于预设的第二误差；

S1023，若是，则认为迭代达到预设的识别误差要求，结束不平衡样本数据分布调整；

S1024，否则，则返回S1021继续执行。

本发明实施例还提供一种样本分布调整的不平衡数据回归装置，包括：

第一更新模块，用于向初始设置的回归模型中输入待判别的样本数据，根据回归模型样本数据分类的准确性，更新样本数据的权值，其中，初始设置的回归模型为Adaboost算法的弱分类器，所述样本数据为：不平衡样本数据；

第二更新模块，用于在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，不断迭代更新样本数据的权值直至达到预设的识别误差要求。

进一步地，所述第一更新模块包括：

输入单元，用于向初始设置的回归模型中输入待判别的样本数据；

判断单元，用于判断回归模型的回归结果与真实的样本数据xⁱ之间的相对误差是否大于预设的第一误差；

提高单元，用于若大于，则判断样本数据xⁱ为错分样本，提高样本数据xⁱ的权值；

降低单元，用于否则，则判断样本数据xⁱ为非错分样本，降低样本数据xⁱ的权值。

进一步地，所述第二更新模块包括：

训练单元，用于在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，根据所述第一更新模块的权值更新规则不断更新样本数据的权值；

判断单元，用于判断不平衡样本数据中的关键表征数据x^m与回归模型的回归结果之间相对误差是否小于预设的第二误差；

结束单元，用于若是，则认为迭代达到预设的识别误差要求，结束不平衡样本数据分布调整；

返回单元，用于否则，则返回所述训练单元继续执行。

本发明的上述技术方案的有益效果如下：

上述方案中，向初始设置的回归模型中输入待判别的样本数据，根据回归模型样本数据分类的准确性，更新样本数据的权值，其中，初始设置的回归模型为Adaboost算法的弱分类器，所述样本数据为：不平衡样本数据；在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，不断迭代更新样本数据的权值直至达到预设的识别误差要求，结束不平衡数据的分布调整，以便利用最后得到的更新权值后的样本数据及其分布建立最终的回归模型。这样，利用Adaboost分类器思想，通过不断更新样本权值调整样本数据分布来解决样本数据中的不平衡数据问题，再利用调整后的不平衡数据建立更佳准确的回归模型。

附图说明

图1为本发明实施例提供的样本分布调整的不平衡数据回归方法的流程示意图；

图2为本发明实施例提供的样本分布调整的不平衡数据回归方法的详细流程示意图；

图3为本发明实施例提供的利用本发明所述的不平衡数据回归方法建立累计振铃计数数峰值前C_acc趋势模型的流程示意图；

图4为本发明实施例提供的累计振铃计数峰值前直接指数回归与本发明所述的不平衡数据回归方法进行回归拟合结果对比示意图；

图5为本发明实施例提供的样本分布调整的不平衡数据回归装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的基于不平衡数据直接构建的回归模型其输出结果准确性较低的问题，提供一种样本分布调整的不平衡数据回归方法及装置。

实施例一

如图1所示，本发明实施例提供的样本分布调整的不平衡数据回归方法，包括：

S101，向初始设置的回归模型中输入待判别的样本数据，根据回归模型样本数据分类的准确性，更新样本数据的权值，其中，初始设置的回归模型为自适应提升算法(Adaptive boosting，Adaboost)算法的弱分类器，所述样本数据为：不平衡样本数据；

S102，在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，不断迭代更新样本数据的权值直至达到预设的识别误差要求，结束不平衡数据的分布调整。

本发明实施例所述的样本分布调整的不平衡数据回归方法，向初始设置的回归模型中输入待判别的样本数据，根据回归模型样本数据分类的准确性，更新样本数据的权值，其中，初始设置的回归模型为Adaboost算法的弱分类器，所述样本数据为：不平衡样本数据；在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，不断迭代更新样本数据的权值直至达到预设的识别误差要求，结束不平衡数据的分布调整，以便利用得到的更新权值后的样本数据及其分布建立最终的回归模型。这样，利用Adaboost分类器思想，通过不断更新样本权值调整样本数据分布来解决样本数据中的不平衡数据问题，再利用调整后的不平衡数据建立更佳准确的回归模型。

本实施例中，Adaboost分类器方法通过新的“弱分类器”的不断地加入，直到达到某个设定的误差要求，最终联合生成一个强分类器。在弱分类器训练时，其算法如下，在构造下一训练集时，对于被准确分类的样本点，要降低其权重；反之，对于未被准确分类的样本点则要提高其权重。然后，样本集及其样本点的更新权重进入下一个分类器进行训练，该过程不断迭代直至达到识别误差要求。Adaboost分类器能够自适应的调整弱学习算法的错误率，使其在弱学习算法学习的过程中经过若干次迭代以后整体错误率能够达到的期望值。

如图2所示，在前述样本分布调整的不平衡数据回归方法的具体实施方式中，进一步地，所述向初始设置的回归模型中输入待判别的样本数据，根据回归模型样本数据分类的准确性，更新样本数据的权值，其中，初始设置的回归模型为Adaboost算法的弱分类器，所述样本数据为：不平衡样本数据(S101)包括：

向初始设置的回归模型中输入待判别的样本数据(为初始样本数据)；

本实施例中，将回归模型看作Adaboost算法的弱分类器，初始情况时认为样本空间D中的所有样本数据为均匀分布，当回归模型的回归结果与真实的样本数据xⁱ之间的相对误差大于预设的第一误差e_r时，则判断样本数据xⁱ为错分样本，提高样本数据xⁱ的权值，否则，则判断样本数据xⁱ为非错分样本(也可以称为：正分样本)，降低样本数据xⁱ的权值。

本实施例中，对于被准确分类的样本(非错分样本)，要降低其权值；反之，对于未被准确分类的样本(错分样本)则要提高其权值，具体算法如下：

begin initalize D＝{x¹,y₁…xⁿ,y_n},W₁(i)＝1/n,i＝1,…,n；y_i表示xⁱ的标记，y_i的取值为1或-1，将y_i与下文的h_k(xⁱ)比较，如果一致表示xⁱ被正确分类，不一致表示xⁱ被错误分类；W₁(i)表示样本数据xⁱ在第1次迭代中的权值；

k←0 ％←表示赋值

do k←k+1

将样本空间D按照W_k(i)分布输入参与第k次迭代的回归模型的弱分类器C_k

输出的回归结果

％确定错分样本与非错分样本

E_k←对使用W_k(i)的D测量C_k的训练误差

α_k←0.5ln[(1-E_k)/E_k]，其中，α_k表示第k次迭代中根据训练误差计算出的权值调整系数；

％根据得到的α_k调整xⁱ的权值

其中，n表示样本空间D中的样本数，Z_k为规范化因子，使得W_k+1成为一个概率分布。

如图2所示，在前述样本分布调整的不平衡数据回归方法的具体实施方式中，进一步地，所述在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，不断迭代更新样本数据的权值直至达到预设的识别误差要求，结束不平衡数据的分布调整(S102)包括：

S1024，否则，则返回S1021继续执行。

本实施例中，执行S101得到新的权值之后，继续进行训练，按照S101的规律，不断更新样本权值，当不平衡数据中的关键表征数据x^m与回归模型的回归结果之间相对误差小于预设的第二误差e_p时，则认为不平衡数据分布调整结束，最后根据样本数据以及S102得到的更新后的样本数据的权值建立最终的回归模型。具体算法如下：

％关键表征数据回归结果达到精度要求

return W_k+1(i)％返回样本权值调整结果

end

G(x)＝f(xⁱ,W_k+1(i))％得到最终回归模型

为了更好地理解本发明如何调整不平衡数据的分布，以提高回归模型的准确度这一技术问题，提供了一个具体的实例：在高速列车齿轮箱箱体材料疲劳损伤基于性能退化的寿命预测研究中的累积振铃计数趋势模型的建立应用该算法进行具体的说明。

通过前期的大量的实验和研究，已经建立好累积振铃计数出现峰值前的趋势模型：

c_acc＝a_t1*exp(b_t1*t_acc)

其中，c_acc表示累积振铃计数；t_acc表示累积振铃计数对应的时间，为1,2，……，t_peak；a_t1表示指数拟合参数；b_t1表示指数拟合参数。

由于箱体材料疲劳损伤过程较长，声发射信号数据量大，相对整个疲劳过程，累积振铃计数峰值信号附近的数据较少。因此，由疲劳试验中声发射信号得到的累积振铃计数值，直接利用指数回归方法拟合的c_acc趋势模型，很难使累积振铃计数峰值信号出现在回归曲线的合理误差范围内。而累积振铃计数峰值信号对箱体材料的疲劳损伤表征具有重要意义，说明此刻箱体材料内部正发生着大量金属键的断裂，在累积振铃计数峰值信号以后，累计振铃计数值减少，说明材料微观层次的损伤正逐渐演变为宏观裂纹直至断裂。因此，需要对疲劳过程的声发射信号样本分布进行更新，增加峰值附近信号的权重，通过改变样本分布来解决这一问题，这是典型的不平衡数据问题。

将指数回归累积振铃计数出现峰值前的趋势模型看作Adaboost算法的弱分类器，初始情况时认为所有峰值信号前的累积振铃计数值为均匀分布，认为回归结果与真实值相对误差大于20％的为错分样本，增加错分样本训练权值，构成新样本，进行新的学习，以此规律，不断更新样本权值，当峰值时刻数据与回归模型相对误差为0.5％以下时，认为累积振铃计数数据分布调整结束，最后根据调整后的数据拟合峰值信号前c_acc趋势模型，具体流程如图3所示。

图4为利用本发明实施例提供的样本分布调整的不平衡数据回归方法得到的累积振铃计数c_acc趋势模型和直接用指数回归方法得到的c_acc趋势模型的拟合结果。可以看出直接用指数回归方法是对现有数据的拟合，要满足大多数数据的误差要求，但不能突出累积振铃计数峰值信号的关键表征作用，不能反映箱体材料疲劳损伤过程的累积振铃计数c_acc的趋势变化；利用Adaboost方法调整样本数据的分布，拟合结果能够强化累积振铃计数峰值信号的表征作用，反映累积振铃计数c_acc序列的趋势变化，得到预期的拟合结果。

实施例二

本发明还提供一种样本分布调整的不平衡数据回归装置的具体实施方式，由于本发明提供的样本分布调整的不平衡数据回归装置与前述样本分布调整的不平衡数据回归方法的具体实施方式相对应，该样本分布调整的不平衡数据回归装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述样本分布调整的不平衡数据回归方法具体实施方式中的解释说明，也适用于本发明提供的样本分布调整的不平衡数据回归装置的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

如图5所示，本发明实施例还提供一种样本分布调整的不平衡数据回归装置，包括：

第一更新模块11，用于向初始设置的回归模型中输入待判别的样本数据，根据回归模型样本数据分类的准确性，更新样本数据的权值，其中，初始设置的回归模型为Adaboost算法的弱分类器，所述样本数据为：不平衡样本数据；

第二更新模块12，用于在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，不断迭代更新样本数据的权值直至达到预设的识别误差要求。

本发明实施例所述的样本分布调整的不平衡数据回归装置，向初始设置的回归模型中输入待判别的样本数据，根据回归模型样本数据分类的准确性，更新样本数据的权值，其中，初始设置的回归模型为Adaboost算法的弱分类器，所述样本数据为：不平衡样本数据；在回归模型中加入弱分类器，更新权值后的样本数据进入加入的弱分类器进行训练，不断迭代更新样本数据的权值直至达到预设的识别误差要求，结束不平衡数据的分布调整；利用得到的更新权值后的样本数据及其分布建立最终的回归模型。这样，利用Adaboost分类器思想，通过不断更新样本权值调整样本数据分布来解决样本数据中的不平衡数据问题，再利用调整后的不平衡数据建立更佳准确的回归模型。

在前述样本分布调整的不平衡数据回归装置的具体实施方式中，进一步地，所述第一更新模块包括：

在前述样本分布调整的不平衡数据回归装置的具体实施方式中，进一步地，初始设置的回归模型为Adaboost算法的弱分类器，初始时认为所有样本数据为均匀分布。

在前述样本分布调整的不平衡数据回归装置的具体实施方式中，进一步地，所述第二更新模块包括：

返回单元，用于否则，则返回所述训练单元继续执行。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种样本分布调整的不平衡数据回归方法，其特征在于，包括：

2.根据权利要求1所述的样本分布调整的不平衡数据回归方法，其特征在于，所述S101包括：

向初始设置的回归模型中输入待判别的样本数据；

3.根据权利要求2所述的样本分布调整的不平衡数据回归方法，其特征在于，所述S102包括：

S1024，否则，则返回S1021继续执行。

4.一种样本分布调整的不平衡数据回归装置，其特征在于，包括：

5.根据权利要求4所述的样本分布调整的不平衡数据回归装置，其特征在于，所述第一更新模块包括：

6.根据权利要求5所述的样本分布调整的不平衡数据回归装置，其特征在于，所述第二更新模块包括：

返回单元，用于否则，则返回所述训练单元继续执行。