CN110033025A - 一种AdaBoost算法中的强分类器的构建方法 - Google Patents

一种AdaBoost算法中的强分类器的构建方法 Download PDF

Info

Publication number
CN110033025A
CN110033025A CN201910196264.1A CN201910196264A CN110033025A CN 110033025 A CN110033025 A CN 110033025A CN 201910196264 A CN201910196264 A CN 201910196264A CN 110033025 A CN110033025 A CN 110033025A
Authority
CN
China
Prior art keywords
feature
value
strong classifier
column
fitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910196264.1A
Other languages
English (en)
Inventor
宋鹏峰
叶庆卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201910196264.1A priority Critical patent/CN110033025A/zh
Publication of CN110033025A publication Critical patent/CN110033025A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种AdaBoost算法中的强分类器的构建方法,其构建用于代表带权重训练样本矩阵中的每列中的每个特征与样本标记之间映射关系的矛盾方程组;利用最小二乘法解矛盾方程组的矩阵形式,进而确定用于代表特征与样本标记之间映射关系的拟合多项式函数;将带权重训练样本矩阵中的每列中的每个特征的值代入拟合多项式函数中,得到对应的拟合值;比较每列对应的拟合值向量与样本标记向量,得到每列的拟合误差,并将最小拟合误差对应的一列相应的拟合多项式函数作为最佳弱分类器;根据以往得到的最佳弱分类器构建当前的强分类器,再通过计算当前的强分类器的分类误差,确定是否再迭代寻优;优点是构建过程中收敛速度快,且构建的强分类器的分类精度高。

Description

一种AdaBoost算法中的强分类器的构建方法
技术领域
本发明涉及一种模式分类技术,尤其是涉及一种AdaBoost算法中的强分类器的构建方法。
背景技术
模式分类是数据挖掘的重要研究方向,多种算法已应用于对事物的分类识别研究,其主要由两个阶段构成:学习和分类。学习已知类别标记的数据构建分类器,得到分类器后对未知类别标记的数据进行分类。AdaBoost算法的思想就是通过调整样本的权重和弱分类器的权值,从训练出的弱分类器中筛选出误分率最小的弱分类器组合成一个强分类器。AdaBoost算法已广泛应用于各个领域,如人脸检测、文本分类、车辆检测等。
目前,AdaBoost算法的改进型算法主要有三种,分别为RealAdaBoost算法、GentleAdaBoost算法、logitBoost算法。RealAdaBoost算法,其获取每一个弱分类器的输出样本属于某类别的概率后,通过一个对数函数将0~1的概率值映射到实数域,最后所得强分类器的结果是所有映射函数的和。Gentle AdaBoost算法,其在每次迭代时,基于最小二乘做加权回归,最后将所有回归函数值的和作为强分类器的结果。logitBoost算法是基于机器学习的判别分类算法,其根据样本数据集构建弱分类器,通过负对数似然函数计算样本权重,调用分类器检测样本的分类,并在下一轮的迭代过程中增加判错样本的权重,经过反复调用该弱分类器,赋予判错样本较大的权重,最终使得弱分类器在迭代过程中变为强分类器。上述改进型AdaBoost算法存在强分类器训练过程较慢难以收敛,分类精度不高等问题。因此,有必要研究一种改进的强分类器以使AdaBoost算法收敛速度快,且分类精度高。
发明内容
本发明所要解决的技术问题是提供一种AdaBoost算法中的强分类器的构建方法,其构建过程中训练复杂度低,收敛速度快,且构建的强分类器的分类精度高。
本发明解决上述技术问题所采用的技术方案为:一种AdaBoost算法中的强分类器的构建方法,其特征在于包括以下步骤:
步骤一:给定一个训练样本矩阵,记为 并给定与对应的样本标记向量,记为G,其中,的维数为m×n,G的维数为m×1,m表示中包含的训练样本的总个数,m为正整数,m≥2,i为正整数,i的初始值为1,1≤i≤m,n表示中的每个训练样本中包含的特征的总个数,n为正整数,n≥1,j为正整数,j的初始值为1,1≤j≤n,对应表示中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,上述特征的值均为实数,g1表示中的所有特征的样本标记,g2表示中的所有特征的样本标记,gi表示中的所有特征的样本标记,gm表示中的所有特征的样本标记,上述样本标记的值为+1或-1;
步骤二:获取第t次强分类器寻优所使用的带权重训练样本矩阵,记为X(t)其中,t表示强分类器寻优的次数,t为正整数,t的初始值为1,对应表示X(t)中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本, 当t=1时即为即为即为 即为当t>1时对应表示第t-1次强分类器寻优所使用的带权重训练样本矩阵X(t-1)中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,当t=1时即为即为即为即为当t>1时 对应表示中的第1个特征、第2个特征、第j个特征、第n个特征, 对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,当t=1时即为即为即为即为当t>1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征, 当t=1时即为即为即为即为当t>1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征, 当t=1时即为即为即为 即为当t>1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,上述特征的值均为实数,表示第t次强分类器寻优过程中的权重,表示第t次强分类器寻优过程中的权重,表示第t次强分类器寻优过程中的权重,表示第t次强分类器寻优过程中的权重,当t=1时
步骤三:将X(t)中当前待处理的第j列定义为当前列;
步骤四:构建一个用于代表当前列中的每个特征与对应的样本标记之间映射关系的矛盾方程组,描述为:然后将该矛盾方程组转换为矩阵形式,描述为:接着令并令则有再利用最小二乘法求解得到A的唯一解,记为 其中,k为整数,k的初始值为0,0≤k≤L,L为正整数,L≥1,α0、α1、α2、αk、αL均为系数,的平方,的k次方,的L次方,为α0的唯一解,为α1的唯一解,为α2的唯一解,为αk的唯一解,为αL的唯一解;
步骤五:根据确定用于代表X(t)中的特征与对应的样本标记之间映射关系的拟合多项式函数,描述为:然后将当前列中的每个特征的值代入中进行求解,若求解得到的值大于0,则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为+1;若求解得到的值小于或等于0,则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为-1;再将当前列对应的所有拟合值构成列向量,记为F,其中,f()为拟合多项式函数表示形式,f1表示用于代表与g1之间映射关系的拟合值,f2表示用于代表与g2之间映射关系的拟合值,fi表示用于代表与gi之间映射关系的拟合值,fm表示用于代表与gm之间映射关系的拟合值;
步骤六:计算当前列的拟合误差,记为errj其中,[fi≠gi]为指示函数,若fi≠gi则[fi≠gi]返回值1,若fi=gi则[fi≠gi]返回值0;
步骤七:令j=j+1,将X(t)中待处理的下一列作为当前列,然后返回步骤四继续执行,直至X(t)中的所有列处理完毕,得到X(t)中的每列的拟合误差;再将n个拟合误差中值最小的拟合误差记为ε(t),并将ε(t)对应的一列相应的拟合多项式函数作为第t次强分类器寻优过程中的最佳弱分类器,记为h(t)(x);其中,j=j+1中的“=”为赋值符号,x为输入变量;
步骤八:构建第t次强分类器寻优过程中得到的强分类器,记为Q(t)(x),其中,t'为正整数,t'的初始值为1,h(t')(x)为第t'次强分类器寻优过程中的最佳弱分类器,β(t')表示h(t')(x)的权重,ε(t')表示第t'次强分类器寻优过程中的n个拟合误差中值最小的拟合误差;
步骤九:使t'自1变化至t,将ε(t')对应的一列中的每个特征的值作为输入,代入中进行求解,若求解得到Q(t)(x)的值大于0,则将Q(t)(x)的值重置为+1;若求解得到Q(t)(x)的值小于或等于0,则将Q(t)(x)的值重置为-1;再将得到的重置值按序构成列向量,描述为其中,q1表示ε(t')对应的一列中的第1个特征的值代入中进行求解得到Q(t)(x)的值的重置值,q2表示ε(t')对应的一列中的第2个特征的值代入中进行求解得到Q(t)(x)的值的重置值,qi表示ε(t')对应的一列中的第i个特征的值代入中进行求解得到Q(t)(x)的值的重置值,qm表示ε(t')对应的一列中的第m个特征的值代入中进行求解得到Q(t)(x)的值的重置值;
步骤十:计算第t次强分类器寻优过程中得到的分类误差,记为 其中,[qi≠gi]为指示函数,若qi≠gi则[qi≠gi]返回值1,若qi=gi则[qi≠gi]返回值0;
步骤十一:将作为第t次强分类器寻优过程中得到的强分类器的评估指标,判断是否成立,如果成立,则将t次强分类器寻优过程中的最佳弱分类器组合成最终的强分类器,记为Qfinal(x),Qfinal(x)=sign(Q(t)(x));否则,执行步骤十二;其中,errfinal为设定的评估阈值,sign()为符号函数,
步骤十二:计算第t+1次强分类器寻优过程中X(t)中的每个训练样本的权重,将第t+1次强分类器寻优过程中的权重记为 然后令t=t+1,再返回步骤二继续执行;其中,exp()表示以自然基数e为底的指数函数,β(t)表示h(t)(x)的权重,Z(t)表示归一化常数因子,t=t+1中的“=”为赋值符号。
与现有技术相比,本发明的优点在于:
1)本发明方法构建了特征值与样本标记之间的映射关系,引入最小二乘法得到拟合多项式函数,把连续的拟合值转换成了离散的分类值,即一次拟合就可得到特征的最佳分类值,改进了传统AdaBoost算法中须遍历完所有特征值才可得到最佳分类值的方法,因此减少了强分类器构建过程中训练的时间复杂度,加快了训练速度。
2)本发明方法求解得到了关于特征值与样本标记之间映射关系的拟合多项式函数,并从线性多项式拟合扩展到了非线性多项式拟合,在一定阶数范围内有效地提高了构建的强分类器的分类精度。
附图说明
图1为本发明方法的总体流程框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种AdaBoost算法中的强分类器的构建方法,其总体流程框图如图1所示,其包括以下步骤:
步骤一:给定一个训练样本矩阵,记为 并给定与对应的样本标记向量,记为G,其中,的维数为m×n,G的维数为m×1,m表示中包含的训练样本的总个数,m为正整数,m≥2,i为正整数,i的初始值为1,1≤i≤m,n表示中的每个训练样本中包含的特征的总个数,n为正整数,n≥1,j为正整数,j的初始值为1,1≤j≤n,对应表示中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,上述特征的值均为实数,g1表示中的所有特征的样本标记,g2表示中的所有特征的样本标记,gi表示中的所有特征的样本标记,gm表示中的所有特征的样本标记,上述样本标记的值为+1或-1。
步骤二:获取第t次强分类器寻优所使用的带权重训练样本矩阵,记为X(t)其中,t表示强分类器寻优的次数,t为正整数,t的初始值为1,对应表示X(t)中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本, 当t=1时即为即为即为 即为当t>1时对应表示第t-1次强分类器寻优所使用的带权重训练样本矩阵X(t-1)中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,当t=1时即为即为即为即为当t>1时 对应表示中的第1个特征、第2个特征、第j个特征、第n个特征, 对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,当t=1时即为即为即为即为当t>1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征, 当t=1时即为即为即为即为当t>1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征, 当t=1时即为即为即为 即为当t>1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,上述特征的值均为实数,表示第t次强分类器寻优过程中的权重,表示第t次强分类器寻优过程中的权重,表示第t次强分类器寻优过程中的权重,表示第t次强分类器寻优过程中的权重,当t=1时
步骤三:将X(t)中当前待处理的第j列定义为当前列。
步骤四:构建一个用于代表当前列中的每个特征与对应的样本标记之间映射关系的矛盾方程组,描述为:然后将该矛盾方程组转换为矩阵形式,描述为:接着令并令则有再利用最小二乘法求解得到A的唯一解,记为 其中,k为整数,k的初始值为0,0≤k≤L,L为正整数,L≥1,在本实施例中取L=2,α0、α1、α2、αk、αL均为系数,的平方,的k次方,的L次方,为α0的唯一解,为α1的唯一解,为α2的唯一解,为αk的唯一解,为αL的唯一解。
步骤五:根据确定用于代表X(t)中的特征与对应的样本标记之间映射关系的拟合多项式函数,描述为:若L=1则为线性拟合函数,若L>1则为非线性拟合函数;然后将当前列中的每个特征的值代入中进行求解,若求解得到的值大于0,则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为+1;若求解得到的值小于或等于0,则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为-1;再将当前列对应的所有拟合值构成列向量,记为F,其中,f()为拟合多项式函数表示形式,f1表示用于代表与g1之间映射关系的拟合值,f2表示用于代表与g2之间映射关系的拟合值,fi表示用于代表与gi之间映射关系的拟合值,fm表示用于代表与gm之间映射关系的拟合值。
步骤六:按下标一一对比中的每个拟合值与中的每个样本标记,提取出拟合值与对应的样本标记不相同的下标;然后根据第t次强分类器寻优过程中中下标为提取出的下标的训练样本的权重,计算当前列的拟合误差,记为errj其中,[fi≠gi]为指示函数,若fi≠gi则[fi≠gi]返回值1,若fi=gi则[fi≠gi]返回值0。
步骤七:令j=j+1,将X(t)中待处理的下一列作为当前列,然后返回步骤四继续执行,直至X(t)中的所有特征列处理完毕,得到X(t)中的每列的拟合误差;再将n个拟合误差中值最小的拟合误差记为ε(t),并将ε(t)对应的一列相应的拟合多项式函数作为第t次强分类器寻优过程中的最佳弱分类器,记为h(t)(x);其中,j=j+1中的“=”为赋值符号,x为输入变量。
步骤八:构建第t次强分类器寻优过程中得到的强分类器,记为Q(t)(x),其中,t'为正整数,t'的初始值为1,h(t')(x)为第t'次强分类器寻优过程中的最佳弱分类器,β(t')表示h(t')(x)的权重,ε(t')表示第t'次强分类器寻优过程中的n个拟合误差中值最小的拟合误差。
步骤九:使t'自1变化至t,将ε(t')对应的一列中的每个特征的值作为输入,代入中进行求解,若求解得到Q(t)(x)的值大于0,则将Q(t)(x)的值重置为+1;若求解得到Q(t)(x)的值小于或等于0,则将Q(t)(x)的值重置为-1;再将得到的重置值按序构成列向量,描述为其中,q1表示ε(t')对应的一列中的第1个特征的值代入中进行求解得到Q(t)(x)的值的重置值,q2表示ε(t')对应的一列中的第2个特征的值代入中进行求解得到Q(t)(x)的值的重置值,qi表示ε(t')对应的一列中的第i个特征的值代入中进行求解得到Q(t)(x)的值的重置值,qm表示ε(t')对应的一列中的第m个特征的值代入中进行求解得到Q(t)(x)的值的重置值。
步骤十:按下标一一对比中的每个值与中的每个样本标记,提取出中的值与对应的样本标记不相同的下标;根据下标寻找样本,获得其样本权重;计算第t次强分类器寻优过程中得到的分类误差,记为 其中,[qi≠gi]为指示函数,若qi≠gi则[qi≠gi]返回值1,若qi=gi则[qi≠gi]返回值0;
步骤十一:将作为第t次强分类器寻优过程中得到的强分类器的评估指标,判断是否成立,如果成立,则将t次强分类器寻优过程中的最佳弱分类器组合成最终的强分类器,记为Qfinal(x),Qfinal(x)=sign(Q(t)(x));否则,执行步骤十二;其中,errfinal为设定的评估阈值,在本实施例中取errfinal=0.1,sign()为符号函数,
步骤十二:计算第t+1次强分类器寻优过程中X(t)中的每个训练样本的权重,将第t+1次强分类器寻优过程中的权重记为 然后令t=t+1,再返回步骤二继续执行;其中,exp()表示以自然基数e为底的指数函数,β(t)表示h(t)(x)的权重,Z(t)表示归一化常数因子,t=t+1中的“=”为赋值符号。
以下为验证本发明方法的可行性和有效性,对本发明方法进行实验。
1)给定一个样本矩阵并给定对应的样本标记向量
2)获取第1次强分类器寻优所使用的带权重训练样本矩阵X(1),样本权重分布为
3)将X(1)中当前待处理的第1列定义为当前列,当前列为
4)构建一个用于代表当前列中的每个特征与对应的样本标记之间映射关系的矛盾方程组,描述为:本实例以二阶拟合(即L=2)为例可得接着将该矛盾方程组写成矩阵形式,即引入最小二乘法求解求得
5)根据确定拟合多项式函数为然后将当前列中的每个特征的值代入拟合多项式函数中,得到结果为根据求解得到的值大于0,则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为+1;若求解得到的值小于或等于0,则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为-1,进而可以得到
6)按下标一一对比中的每个拟合值与中的每个样本标记;进而得到下标7和下标10两个的拟合值与对应的样本标记不相等,累加对应的两个训练样本的权重,即得到当前列的拟合误差err1=20%。
7)令j=2,将第2列作为当前列;按步骤4)至步骤6)的过程,以相同的方法获得第2列的二阶多项式拟合函数和拟合误差;然后令j=3,将第3列作为当前列,按步骤4)至步骤6)的过程,以相同的方法获得第3列的二阶多项式拟合函数和拟合误差。比较3个拟合误差,其中值最小的为第一轮次的拟合误差ε(1),由计算可得,最小的拟合误差ε(1)=0.2,此时二阶拟合函数为h(1)(x)=4.4586x2-4.5506+0.9802,至此得到了第一轮次的最佳弱分类器。
8)构建第1次强分类器寻优过程中得到的强分类器:计算得到第一轮次最佳弱分类器的权重β(1)=0.6931,得到Q(1)(x)=0.6931×(4.4586x2-4.5506x+0.9802)。
9)将ε(1)=0.2对应的一列,即第1列中的每个特征的值作为输入代入Q(1)(x)=0.6931×(4.4586x2-4.5506x+0.9802)中,计算可得重置值构成的列向量为
10)按下标一一对比重置值构成的列向量与对应的样本标记计算得到分类误差
11)将作为评估指标,设定本实施例中errfinal=0.1,该轮次结束,不满足结束迭代要求,随后执行步骤12)准备进入下一轮次。
12)计算下一轮训练样本的权重,对于该弱分类器中被正确分类的九个训练样本{1,3,4,5,6,8,9},权值更新为:对于错误分类的训练样本{7,10}的权值更新为:再按步骤2)至步骤11)的过程进行迭代可得,第二轮次最佳弱分类器,计算可得二阶拟合函数为h2(x)=6.5162x2-10.2378x+1.6786,计算得到β(2)=1.3540。由此可得,计算重置值构成的列向量为分类误差满足迭代结束要求。将两轮次寻优过程中的弱分类器组合成最终的强分类器,记为Qfinal(x),Qfinal(x)=sign(Q(2)(x))=sign(0.6931h(1)(x)+1.3540h(2)(x))。至此完成了本发明方法对训练样本的训练。
利用上述得到的强分类器Qfinal(x)=sign(Q(2)(x))=sign(0.6931h(1)(x)+1.3540h(2)(x))进行测试。
给定测试样本矩阵并给定测试样本矩阵对应的样本标记向量然后利用Qfinal(x)=sign(Q(2)(x))=sign(0.6931h(1)(x)+1.3540h(2)(x))对测试样本矩阵进行分类测试,将测试样本矩阵中的三个测试样本分别根据最佳弱分类器训练中拟合的特征号,将测试样本中的特征值代入强分类器Qfinal(x)=sign(Q(2)(x))=sign(0.6931h(1)(x)+1.3540h(2)(x))中,可得分类结果分别为+1、+1、-1,记测试结果向量为再将测试结果向量与测试样本矩阵对应的样本标记向量对比,发现分类完全准确,这充分说明了本发明方法的可行性和有效性。

Claims (1)

1.一种AdaBoost算法中的强分类器的构建方法,其特征在于包括以下步骤:
步骤一:给定一个训练样本矩阵,记为 并给定与对应的样本标记向量,记为G,其中,的维数为m×n,G的维数为m×1,m表示中包含的训练样本的总个数,m为正整数,m≥2,i为正整数,i的初始值为1,1≤i≤m,n表示中的每个训练样本中包含的特征的总个数,n为正整数,n≥1,j为正整数,j的初始值为1,1≤j≤n,对应表示中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,上述特征的值均为实数,g1表示中的所有特征的样本标记,g2表示中的所有特征的样本标记,gi表示中的所有特征的样本标记,gm表示中的所有特征的样本标记,上述样本标记的值为+1或-1;
步骤二:获取第t次强分类器寻优所使用的带权重训练样本矩阵,记为X(t)其中,t表示强分类器寻优的次数,t为正整数,t的初始值为1,对应表示X(t)中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本, 当t=1时即为即为即为 即为当t>1时对应表示第t-1次强分类器寻优所使用的带权重训练样本矩阵X(t-1)中的第1个训练样本、第2个训练样本、第i个训练样本、第m个训练样本,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,当t=1时即为即为即为即为当t>1时 对应表示中的第1个特征、第2个特征、第j个特征、第n个特征, 对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,当t=1时即为即为即为即为当t>1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征, 当t=1时即为即为即为即为当t>1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,对应表示中的第1个特征、第2个特征、第j个特征、第n个特征, 当t=1时即为即为即为 即为当t>1时对应表示中的第1个特征、第2个特征、第j个特征、第n个特征,上述特征的值均为实数,表示第t次强分类器寻优过程中的权重,表示第t次强分类器寻优过程中的权重,表示第t次强分类器寻优过程中的权重,表示第t次强分类器寻优过程中的权重,当t=1时
步骤三:将X(t)中当前待处理的第j列定义为当前列;
步骤四:构建一个用于代表当前列中的每个特征与对应的样本标记之间映射关系的矛盾方程组,描述为:然后将该矛盾方程组转换为矩阵形式,描述为:接着令并令则有再利用最小二乘法求解得到A的唯一解,记为其中,k为整数,k的初始值为0,0≤k≤L,L为正整数,L≥1,α0、α1、α2、αk、αL均为系数,的平方,的k次方,的L次方,为α0的唯一解,为α1的唯一解,为α2的唯一解,为αk的唯一解,为αL的唯一解;
步骤五:根据确定用于代表X(t)中的特征与对应的样本标记之间映射关系的拟合多项式函数,描述为:然后将当前列中的每个特征的值代入中进行求解,若求解得到的值大于0,则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为+1;若求解得到的值小于或等于0,则将用于代表该特征与对应的样本标记之间映射关系的拟合值确定为-1;再将当前列对应的所有拟合值构成列向量,记为F,其中,f()为拟合多项式函数表示形式,f1表示用于代表与g1之间映射关系的拟合值,f2表示用于代表与g2之间映射关系的拟合值,fi表示用于代表与gi之间映射关系的拟合值,fm表示用于代表与gm之间映射关系的拟合值;
步骤六:计算当前列的拟合误差,记为errj其中,[fi≠gi]为指示函数,若fi≠gi则[fi≠gi]返回值1,若fi=gi则[fi≠gi]返回值0;
步骤七:令j=j+1,将X(t)中待处理的下一列作为当前列,然后返回步骤四继续执行,直至X(t)中的所有列处理完毕,得到X(t)中的每列的拟合误差;再将n个拟合误差中值最小的拟合误差记为ε(t),并将ε(t)对应的一列相应的拟合多项式函数作为第t次强分类器寻优过程中的最佳弱分类器,记为h(t)(x);其中,j=j+1中的“=”为赋值符号,x为输入变量;
步骤八:构建第t次强分类器寻优过程中得到的强分类器,记为Q(t)(x),其中,t'为正整数,t'的初始值为1,h(t')(x)为第t'次强分类器寻优过程中的最佳弱分类器,β(t')表示h(t')(x)的权重,ε(t')表示第t'次强分类器寻优过程中的n个拟合误差中值最小的拟合误差;
步骤九:使t'自1变化至t,将ε(t')对应的一列中的每个特征的值作为输入,代入中进行求解,若求解得到Q(t)(x)的值大于0,则将Q(t)(x)的值重置为+1;若求解得到Q(t)(x)的值小于或等于0,则将Q(t)(x)的值重置为-1;再将得到的重置值按序构成列向量,描述为其中,q1表示ε(t')对应的一列中的第1个特征的值代入中进行求解得到Q(t)(x)的值的重置值,q2表示ε(t')对应的一列中的第2个特征的值代入中进行求解得到Q(t)(x)的值的重置值,qi表示ε(t')对应的一列中的第i个特征的值代入中进行求解得到Q(t)(x)的值的重置值,qm表示ε(t')对应的一列中的第m个特征的值代入中进行求解得到Q(t)(x)的值的重置值;
步骤十:计算第t次强分类器寻优过程中得到的分类误差,记为 其中,[qi≠gi]为指示函数,若qi≠gi则[qi≠gi]返回值1,若qi=gi则[qi≠gi]返回值0;
步骤十一:将作为第t次强分类器寻优过程中得到的强分类器的评估指标,判断是否成立,如果成立,则将t次强分类器寻优过程中的最佳弱分类器组合成最终的强分类器,记为Qfinal(x),Qfinal(x)=sign(Q(t)(x));否则,执行步骤十二;其中,errfinal为设定的评估阈值,sign()为符号函数,
步骤十二:计算第t+1次强分类器寻优过程中X(t)中的每个训练样本的权重,将第t+1次强分类器寻优过程中的权重记为然后令t=t+1,再返回步骤二继续执行;其中,exp()表示以自然基数e为底的指数函数,β(t)表示h(t)(x)的权重,Z(t)表示归一化常数因子,t=t+1中的“=”为赋值符号。
CN201910196264.1A 2019-03-15 2019-03-15 一种AdaBoost算法中的强分类器的构建方法 Pending CN110033025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910196264.1A CN110033025A (zh) 2019-03-15 2019-03-15 一种AdaBoost算法中的强分类器的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910196264.1A CN110033025A (zh) 2019-03-15 2019-03-15 一种AdaBoost算法中的强分类器的构建方法

Publications (1)

Publication Number Publication Date
CN110033025A true CN110033025A (zh) 2019-07-19

Family

ID=67236032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910196264.1A Pending CN110033025A (zh) 2019-03-15 2019-03-15 一种AdaBoost算法中的强分类器的构建方法

Country Status (1)

Country Link
CN (1) CN110033025A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191702A (zh) * 2019-12-24 2020-05-22 宁波大学 基于模糊型弱分类器的AdaBoost分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191702A (zh) * 2019-12-24 2020-05-22 宁波大学 基于模糊型弱分类器的AdaBoost分类方法
CN111191702B (zh) * 2019-12-24 2023-02-14 宁波大学 基于模糊型弱分类器的AdaBoost分类方法

Similar Documents

Publication Publication Date Title
CN106682696B (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN111368920B (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN108447057B (zh) 基于显著性和深度卷积网络的sar图像变化检测方法
CN110533024B (zh) 基于多尺度roi特征的双二次池化细粒度图像分类方法
CN107766893B (zh) 基于标签多级编码神经网络的目标识别方法
CN110472417B (zh) 基于卷积神经网络的恶意软件操作码分析方法
CN111046961B (zh) 基于双向长短时记忆单元和胶囊网络的故障分类方法
CN105095863A (zh) 基于相似性权值的半监督字典学习的人体行为识别方法
CN107528824B (zh) 一种基于二维度稀疏化的深度信念网络入侵检测方法
CN109919055B (zh) 一种基于AdaBoost-KNN的动态人脸情感识别方法
CN112560948B (zh) 数据偏差下的眼底图分类方法及成像方法
CN113177587B (zh) 基于主动学习和变分自编码器的广义零样本目标分类方法
CN111144462B (zh) 一种雷达信号的未知个体识别方法及装置
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
CN116643246A (zh) 一种基于内积距离度量的深度聚类雷达脉冲信号分选方法
CN112132257A (zh) 基于金字塔池化及长期记忆结构的神经网络模型训练方法
CN109063750B (zh) 基于cnn和svm决策融合的sar目标分类方法
CN106203520B (zh) 基于深度相关向量机的sar图像分类方法
CN113378910B (zh) 一种基于纯净标签的电磁信号调制类型识别的中毒攻击方法
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN114239584A (zh) 一种基于自监督学习的命名实体识别方法
CN105894032A (zh) 一种针对样本性质提取有效特征的方法
CN110033025A (zh) 一种AdaBoost算法中的强分类器的构建方法
CN106650769A (zh) 基于线性表示多视图鉴别字典学习的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190719

RJ01 Rejection of invention patent application after publication