CN110033025A

CN110033025A - 一种AdaBoost算法中的强分类器的构建方法

Info

Publication number: CN110033025A
Application number: CN201910196264.1A
Authority: CN
Inventors: 宋鹏峰; 叶庆卫
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-07-19

Abstract

本发明公开了一种AdaBoost算法中的强分类器的构建方法，其构建用于代表带权重训练样本矩阵中的每列中的每个特征与样本标记之间映射关系的矛盾方程组；利用最小二乘法解矛盾方程组的矩阵形式，进而确定用于代表特征与样本标记之间映射关系的拟合多项式函数；将带权重训练样本矩阵中的每列中的每个特征的值代入拟合多项式函数中，得到对应的拟合值；比较每列对应的拟合值向量与样本标记向量，得到每列的拟合误差，并将最小拟合误差对应的一列相应的拟合多项式函数作为最佳弱分类器；根据以往得到的最佳弱分类器构建当前的强分类器，再通过计算当前的强分类器的分类误差，确定是否再迭代寻优；优点是构建过程中收敛速度快，且构建的强分类器的分类精度高。

Description

一种AdaBoost算法中的强分类器的构建方法

技术领域

本发明涉及一种模式分类技术，尤其是涉及一种AdaBoost算法中的强分类器的构建方法。

背景技术

模式分类是数据挖掘的重要研究方向，多种算法已应用于对事物的分类识别研究，其主要由两个阶段构成：学习和分类。学习已知类别标记的数据构建分类器，得到分类器后对未知类别标记的数据进行分类。AdaBoost算法的思想就是通过调整样本的权重和弱分类器的权值，从训练出的弱分类器中筛选出误分率最小的弱分类器组合成一个强分类器。AdaBoost算法已广泛应用于各个领域，如人脸检测、文本分类、车辆检测等。

目前，AdaBoost算法的改进型算法主要有三种，分别为RealAdaBoost算法、GentleAdaBoost算法、logitBoost算法。RealAdaBoost算法，其获取每一个弱分类器的输出样本属于某类别的概率后，通过一个对数函数将0～1的概率值映射到实数域，最后所得强分类器的结果是所有映射函数的和。Gentle AdaBoost算法，其在每次迭代时，基于最小二乘做加权回归，最后将所有回归函数值的和作为强分类器的结果。logitBoost算法是基于机器学习的判别分类算法，其根据样本数据集构建弱分类器，通过负对数似然函数计算样本权重，调用分类器检测样本的分类，并在下一轮的迭代过程中增加判错样本的权重，经过反复调用该弱分类器，赋予判错样本较大的权重，最终使得弱分类器在迭代过程中变为强分类器。上述改进型AdaBoost算法存在强分类器训练过程较慢难以收敛，分类精度不高等问题。因此，有必要研究一种改进的强分类器以使AdaBoost算法收敛速度快，且分类精度高。

发明内容

本发明所要解决的技术问题是提供一种AdaBoost算法中的强分类器的构建方法，其构建过程中训练复杂度低，收敛速度快，且构建的强分类器的分类精度高。

本发明解决上述技术问题所采用的技术方案为：一种AdaBoost算法中的强分类器的构建方法，其特征在于包括以下步骤：

步骤一：给定一个训练样本矩阵，记为并给定与对应的样本标记向量，记为G，其中，的维数为m×n，G的维数为m×1，m表示中包含的训练样本的总个数，m为正整数，m≥2，i为正整数，i的初始值为1，1≤i≤m，n表示中的每个训练样本中包含的特征的总个数，n为正整数，n≥1，j为正整数，j的初始值为1，1≤j≤n，对应表示中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，上述特征的值均为实数，g₁表示中的所有特征的样本标记，g₂表示中的所有特征的样本标记，g_i表示中的所有特征的样本标记，g_m表示中的所有特征的样本标记，上述样本标记的值为+1或-1；

步骤二：获取第t次强分类器寻优所使用的带权重训练样本矩阵，记为X^(t)，其中，t表示强分类器寻优的次数，t为正整数，t的初始值为1，对应表示X^(t)中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本，当t＝1时即为即为即为即为当t＞1时对应表示第t-1次强分类器寻优所使用的带权重训练样本矩阵X^(t-1)中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，当t＝1时即为即为即为即为当t＞1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，当t＝1时即为即为即为即为当t＞1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，当t＝1时即为即为即为即为当t＞1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，当t＝1时即为即为即为即为当t＞1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，上述特征的值均为实数，表示第t次强分类器寻优过程中的权重，表示第t次强分类器寻优过程中的权重，表示第t次强分类器寻优过程中的权重，表示第t次强分类器寻优过程中的权重，当t＝1时

步骤三：将X^(t)中当前待处理的第j列定义为当前列；

步骤四：构建一个用于代表当前列中的每个特征与对应的样本标记之间映射关系的矛盾方程组，描述为：然后将该矛盾方程组转换为矩阵形式，描述为：接着令并令则有再利用最小二乘法求解得到A的唯一解，记为其中，k为整数，k的初始值为0，0≤k≤L，L为正整数，L≥1，α₀、α₁、α₂、α_k、α_L均为系数，为的平方，为的k次方，为的L次方，为α₀的唯一解，为α₁的唯一解，为α₂的唯一解，为α_k的唯一解，为α_L的唯一解；

步骤五：根据确定用于代表X^(t)中的特征与对应的样本标记之间映射关系的拟合多项式函数，描述为：然后将当前列中的每个特征的值代入中进行求解，若求解得到的值大于0，则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为+1；若求解得到的值小于或等于0，则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为-1；再将当前列对应的所有拟合值构成列向量，记为F，其中，f()为拟合多项式函数表示形式，f₁表示用于代表与g₁之间映射关系的拟合值，f₂表示用于代表与g₂之间映射关系的拟合值，f_i表示用于代表与g_i之间映射关系的拟合值，f_m表示用于代表与g_m之间映射关系的拟合值；

步骤六：计算当前列的拟合误差，记为err_j，其中，[f_i≠g_i]为指示函数，若f_i≠g_i则[f_i≠g_i]返回值1，若f_i＝g_i则[f_i≠g_i]返回值0；

步骤七：令j＝j+1，将X^(t)中待处理的下一列作为当前列，然后返回步骤四继续执行，直至X^(t)中的所有列处理完毕，得到X^(t)中的每列的拟合误差；再将n个拟合误差中值最小的拟合误差记为ε^(t)，并将ε^(t)对应的一列相应的拟合多项式函数作为第t次强分类器寻优过程中的最佳弱分类器，记为h^(t)(x)；其中，j＝j+1中的“＝”为赋值符号，x为输入变量；

步骤八：构建第t次强分类器寻优过程中得到的强分类器，记为Q^(t)(x)，其中，t'为正整数，t'的初始值为1，h^(t')(x)为第t'次强分类器寻优过程中的最佳弱分类器，β^(t')表示h^(t')(x)的权重，ε^(t')表示第t'次强分类器寻优过程中的n个拟合误差中值最小的拟合误差；

步骤九：使t'自1变化至t，将ε^(t')对应的一列中的每个特征的值作为输入，代入中进行求解，若求解得到Q^(t)(x)的值大于0，则将Q^(t)(x)的值重置为+1；若求解得到Q^(t)(x)的值小于或等于0，则将Q^(t)(x)的值重置为-1；再将得到的重置值按序构成列向量，描述为其中，q₁表示ε^(t')对应的一列中的第1个特征的值代入中进行求解得到Q^(t)(x)的值的重置值，q₂表示ε^(t')对应的一列中的第2个特征的值代入中进行求解得到Q^(t)(x)的值的重置值，q_i表示ε^(t')对应的一列中的第i个特征的值代入中进行求解得到Q^(t)(x)的值的重置值，q_m表示ε^(t')对应的一列中的第m个特征的值代入中进行求解得到Q^(t)(x)的值的重置值；

步骤十：计算第t次强分类器寻优过程中得到的分类误差，记为其中，[q_i≠g_i]为指示函数，若q_i≠g_i则[q_i≠g_i]返回值1，若q_i＝g_i则[q_i≠g_i]返回值0；

步骤十一：将作为第t次强分类器寻优过程中得到的强分类器的评估指标，判断是否成立，如果成立，则将t次强分类器寻优过程中的最佳弱分类器组合成最终的强分类器，记为Q^final(x)，Q^final(x)＝sign(Q^(t)(x))；否则，执行步骤十二；其中，err_final为设定的评估阈值，sign()为符号函数，

步骤十二：计算第t+1次强分类器寻优过程中X^(t)中的每个训练样本的权重，将第t+1次强分类器寻优过程中的权重记为然后令t＝t+1，再返回步骤二继续执行；其中，exp()表示以自然基数e为底的指数函数，β^(t)表示h^(t)(x)的权重，Z^(t)表示归一化常数因子，t＝t+1中的“＝”为赋值符号。

与现有技术相比，本发明的优点在于：

1)本发明方法构建了特征值与样本标记之间的映射关系，引入最小二乘法得到拟合多项式函数，把连续的拟合值转换成了离散的分类值，即一次拟合就可得到特征的最佳分类值，改进了传统AdaBoost算法中须遍历完所有特征值才可得到最佳分类值的方法，因此减少了强分类器构建过程中训练的时间复杂度，加快了训练速度。

2)本发明方法求解得到了关于特征值与样本标记之间映射关系的拟合多项式函数，并从线性多项式拟合扩展到了非线性多项式拟合，在一定阶数范围内有效地提高了构建的强分类器的分类精度。

附图说明

图1为本发明方法的总体流程框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种AdaBoost算法中的强分类器的构建方法，其总体流程框图如图1所示，其包括以下步骤：

步骤一：给定一个训练样本矩阵，记为并给定与对应的样本标记向量，记为G，其中，的维数为m×n，G的维数为m×1，m表示中包含的训练样本的总个数，m为正整数，m≥2，i为正整数，i的初始值为1，1≤i≤m，n表示中的每个训练样本中包含的特征的总个数，n为正整数，n≥1，j为正整数，j的初始值为1，1≤j≤n，对应表示中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，对应表示中的第1个特征、第2个特征、第j个特征、第n个特征，上述特征的值均为实数，g₁表示中的所有特征的样本标记，g₂表示中的所有特征的样本标记，g_i表示中的所有特征的样本标记，g_m表示中的所有特征的样本标记，上述样本标记的值为+1或-1。

步骤三：将X^(t)中当前待处理的第j列定义为当前列。

步骤四：构建一个用于代表当前列中的每个特征与对应的样本标记之间映射关系的矛盾方程组，描述为：然后将该矛盾方程组转换为矩阵形式，描述为：接着令并令则有再利用最小二乘法求解得到A的唯一解，记为其中，k为整数，k的初始值为0，0≤k≤L，L为正整数，L≥1，在本实施例中取L＝2，α₀、α₁、α₂、α_k、α_L均为系数，为的平方，为的k次方，为的L次方，为α₀的唯一解，为α₁的唯一解，为α₂的唯一解，为α_k的唯一解，为α_L的唯一解。

步骤五：根据确定用于代表X^(t)中的特征与对应的样本标记之间映射关系的拟合多项式函数，描述为：若L＝1则为线性拟合函数，若L＞1则为非线性拟合函数；然后将当前列中的每个特征的值代入中进行求解，若求解得到的值大于0，则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为+1；若求解得到的值小于或等于0，则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为-1；再将当前列对应的所有拟合值构成列向量，记为F，其中，f()为拟合多项式函数表示形式，f₁表示用于代表与g₁之间映射关系的拟合值，f₂表示用于代表与g₂之间映射关系的拟合值，f_i表示用于代表与g_i之间映射关系的拟合值，f_m表示用于代表与g_m之间映射关系的拟合值。

步骤六：按下标一一对比中的每个拟合值与中的每个样本标记，提取出拟合值与对应的样本标记不相同的下标；然后根据第t次强分类器寻优过程中中下标为提取出的下标的训练样本的权重，计算当前列的拟合误差，记为err_j，其中，[f_i≠g_i]为指示函数，若f_i≠g_i则[f_i≠g_i]返回值1，若f_i＝g_i则[f_i≠g_i]返回值0。

步骤七：令j＝j+1，将X^(t)中待处理的下一列作为当前列，然后返回步骤四继续执行，直至X^(t)中的所有特征列处理完毕，得到X^(t)中的每列的拟合误差；再将n个拟合误差中值最小的拟合误差记为ε^(t)，并将ε^(t)对应的一列相应的拟合多项式函数作为第t次强分类器寻优过程中的最佳弱分类器，记为h^(t)(x)；其中，j＝j+1中的“＝”为赋值符号，x为输入变量。

步骤八：构建第t次强分类器寻优过程中得到的强分类器，记为Q^(t)(x)，其中，t'为正整数，t'的初始值为1，h^(t')(x)为第t'次强分类器寻优过程中的最佳弱分类器，β^(t')表示h^(t')(x)的权重，ε^(t')表示第t'次强分类器寻优过程中的n个拟合误差中值最小的拟合误差。

步骤九：使t'自1变化至t，将ε^(t')对应的一列中的每个特征的值作为输入，代入中进行求解，若求解得到Q^(t)(x)的值大于0，则将Q^(t)(x)的值重置为+1；若求解得到Q^(t)(x)的值小于或等于0，则将Q^(t)(x)的值重置为-1；再将得到的重置值按序构成列向量，描述为其中，q₁表示ε^(t')对应的一列中的第1个特征的值代入中进行求解得到Q^(t)(x)的值的重置值，q₂表示ε^(t')对应的一列中的第2个特征的值代入中进行求解得到Q^(t)(x)的值的重置值，q_i表示ε^(t')对应的一列中的第i个特征的值代入中进行求解得到Q^(t)(x)的值的重置值，q_m表示ε^(t')对应的一列中的第m个特征的值代入中进行求解得到Q^(t)(x)的值的重置值。

步骤十：按下标一一对比中的每个值与中的每个样本标记，提取出中的值与对应的样本标记不相同的下标；根据下标寻找样本，获得其样本权重；计算第t次强分类器寻优过程中得到的分类误差，记为其中，[q_i≠g_i]为指示函数，若q_i≠g_i则[q_i≠g_i]返回值1，若q_i＝g_i则[q_i≠g_i]返回值0；

步骤十一：将作为第t次强分类器寻优过程中得到的强分类器的评估指标，判断是否成立，如果成立，则将t次强分类器寻优过程中的最佳弱分类器组合成最终的强分类器，记为Q^final(x)，Q^final(x)＝sign(Q^(t)(x))；否则，执行步骤十二；其中，err_final为设定的评估阈值，在本实施例中取err_final＝0.1，sign()为符号函数，

以下为验证本发明方法的可行性和有效性，对本发明方法进行实验。

1)给定一个样本矩阵并给定对应的样本标记向量

2)获取第1次强分类器寻优所使用的带权重训练样本矩阵X⁽¹⁾，样本权重分布为

3)将X⁽¹⁾中当前待处理的第1列定义为当前列，当前列为

4)构建一个用于代表当前列中的每个特征与对应的样本标记之间映射关系的矛盾方程组，描述为：本实例以二阶拟合(即L＝2)为例可得接着将该矛盾方程组写成矩阵形式，即引入最小二乘法求解求得

5)根据确定拟合多项式函数为然后将当前列中的每个特征的值代入拟合多项式函数中，得到结果为根据求解得到的值大于0，则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为+1；若求解得到的值小于或等于0，则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为-1，进而可以得到

6)按下标一一对比中的每个拟合值与中的每个样本标记；进而得到下标7和下标10两个的拟合值与对应的样本标记不相等，累加对应的两个训练样本的权重，即得到当前列的拟合误差err₁＝20％。

7)令j＝2，将第2列作为当前列；按步骤4)至步骤6)的过程，以相同的方法获得第2列的二阶多项式拟合函数和拟合误差；然后令j＝3，将第3列作为当前列，按步骤4)至步骤6)的过程，以相同的方法获得第3列的二阶多项式拟合函数和拟合误差。比较3个拟合误差，其中值最小的为第一轮次的拟合误差ε⁽¹⁾，由计算可得，最小的拟合误差ε⁽¹⁾＝0.2，此时二阶拟合函数为h⁽¹⁾(x)＝4.4586x²-4.5506+0.9802，至此得到了第一轮次的最佳弱分类器。

8)构建第1次强分类器寻优过程中得到的强分类器：计算得到第一轮次最佳弱分类器的权重β⁽¹⁾＝0.6931，得到Q⁽¹⁾(x)＝0.6931×(4.4586x²-4.5506x+0.9802)。

9)将ε⁽¹⁾＝0.2对应的一列，即第1列中的每个特征的值作为输入代入Q⁽¹⁾(x)＝0.6931×(4.4586x²-4.5506x+0.9802)中，计算可得重置值构成的列向量为

10)按下标一一对比重置值构成的列向量与对应的样本标记计算得到分类误差

11)将作为评估指标，设定本实施例中err_final＝0.1，该轮次结束，不满足结束迭代要求，随后执行步骤12)准备进入下一轮次。

12)计算下一轮训练样本的权重，对于该弱分类器中被正确分类的九个训练样本{1,3,4,5,6，8,9}，权值更新为：对于错误分类的训练样本{7,10}的权值更新为：再按步骤2)至步骤11)的过程进行迭代可得，第二轮次最佳弱分类器，计算可得二阶拟合函数为h²(x)＝6.5162x²-10.2378x+1.6786，计算得到β⁽²⁾＝1.3540。由此可得，计算重置值构成的列向量为分类误差满足迭代结束要求。将两轮次寻优过程中的弱分类器组合成最终的强分类器，记为Q^final(x)，Q^final(x)＝sign(Q⁽²⁾(x))＝sign(0.6931h⁽¹⁾(x)+1.3540h⁽²⁾(x))。至此完成了本发明方法对训练样本的训练。

利用上述得到的强分类器Q^final(x)＝sign(Q⁽²⁾(x))＝sign(0.6931h⁽¹⁾(x)+1.3540h⁽²⁾(x))进行测试。

给定测试样本矩阵并给定测试样本矩阵对应的样本标记向量然后利用Q^final(x)＝sign(Q⁽²⁾(x))＝sign(0.6931h⁽¹⁾(x)+1.3540h⁽²⁾(x))对测试样本矩阵进行分类测试，将测试样本矩阵中的三个测试样本分别根据最佳弱分类器训练中拟合的特征号，将测试样本中的特征值代入强分类器Q^final(x)＝sign(Q⁽²⁾(x))＝sign(0.6931h⁽¹⁾(x)+1.3540h⁽²⁾(x))中，可得分类结果分别为+1、+1、-1，记测试结果向量为再将测试结果向量与测试样本矩阵对应的样本标记向量对比，发现分类完全准确，这充分说明了本发明方法的可行性和有效性。

Claims

1.一种AdaBoost算法中的强分类器的构建方法，其特征在于包括以下步骤：

步骤三：将X^(t)中当前待处理的第j列定义为当前列；

步骤八：构建第t次强分类器寻优过程中得到的强分类器，记为Q^(t)(x)，其中，t'为正整数，t'的初始值为1，h^(t'⁾(x)为第t'次强分类器寻优过程中的最佳弱分类器，β^(t'⁾表示h^(t'⁾(x)的权重，ε^(t'⁾表示第t'次强分类器寻优过程中的n个拟合误差中值最小的拟合误差；

步骤九：使t'自1变化至t，将ε^(t'⁾对应的一列中的每个特征的值作为输入，代入中进行求解，若求解得到Q^(t)(x)的值大于0，则将Q^(t)(x)的值重置为+1；若求解得到Q^(t)(x)的值小于或等于0，则将Q^(t)(x)的值重置为-1；再将得到的重置值按序构成列向量，描述为其中，q₁表示ε^(t'⁾对应的一列中的第1个特征的值代入中进行求解得到Q^(t)(x)的值的重置值，q₂表示ε^(t'⁾对应的一列中的第2个特征的值代入中进行求解得到Q^(t)(x)的值的重置值，q_i表示ε^(t'⁾对应的一列中的第i个特征的值代入中进行求解得到Q^(t)(x)的值的重置值，q_m表示ε^(t')对应的一列中的第m个特征的值代入中进行求解得到Q^(t)(x)的值的重置值；