CN110378389A

CN110378389A - 一种Adaboost分类器计算机创建装置

Info

Publication number: CN110378389A
Application number: CN201910548521.3A
Authority: CN
Inventors: 来炜国; 苑忠科
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-10-25

Abstract

本发明公开了一种Adaboost分类器计算机创建装置，在创建Adaboost分类器时，利用损失函数为每个样本赋予权重，获得训练样本集的权重向量；然后利用权重向量构建当前迭代轮次对应的目标弱分类器；利用弱分类器对训练样本集进行分类，并利用分类结果计算目标弱分类器的分类误差；利用分类误差计算目标弱分类器的权重系数。在本装置中利用损失函数对每个样本赋予权重可限制离群点的影响力，从而保证了每个弱目标分类器的稳定性，可提升最终组合得到的Adaboost分类器的分类准确率。相应地，本发明实施例还提供了一种媒体分类方法、设备及可读存储介质，具有相应地，技术效果。

Description

一种Adaboost分类器计算机创建装置

技术领域

本发明涉及数据分类处理技术领域，特别是涉及一种Adaboost分类器计算机创建装置和一种媒体对象分类方法、设备及可读存储介质。

背景技术

Adaboost分类器是集成分类器中的一个典型例子，其属于boost分类器的一种。boost分类器是采用并行的多个分类器，通过投票表决的方法来判定输入数据的分类。Adaboost分类器使用一系列的弱分类器。

在创建Adaboost分类器的每次迭代中，对数据集中的每个被错误分类的数据增加其权重，而对正确分类的数据减少权重。对于迭代产生的这些弱分类器，根据其分类的准确性不同而赋予不同的权重。对于测试数据，所有弱分类器进行加权投票，得票分数最高的类就判定为adaboost分类器的判决输出。

但是，现有的Adaboost分类器迭代创建过程存在一个问题，就是对离群点过于敏感。其中，离群点，即远离本群其他节点的节点，或者说与本类中心节点距离过大的节点。离群点产生的原因可能是噪声干扰或者是人工标记类别的错误，也可能是由于分类特性所决定的。即，离群点是无法避免出现的，而对离群点过于敏感，则会导致最终创建出的Adaboost分类器过度调整，导致Adaboost分类器对待分类的媒体对象进行分类时，将其分至错误的类别。也就是说，当前迭代创建过程中创的Adaboost分类器分类准确率较低。

综上所述，如何有效地解决Adaboost分类器分类准确率低等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供涉及一种Adaboost分类器计算机创建装置和一种媒体对象分类方法、设备及可读存储介质，以创建出一种分类更准确的Adaboost分类器，以及进一步利用该Adaboost分类器对媒体对象进行更为准确的分类，以便提供需要进行数据分类的具体应用的分类效果，进一步基于分类结果进行分类处理的效果。

为解决上述技术问题，本发明提供如下技术方案：

一种Adaboost分类器计算机创建装置，包括：

样本集获得模块，用于获取训练样本集；其中，所述训练样本集中的每个样本具有对应特征以及分类值，所述训练样本集为文本分类训练样本集、图像分类训练样本集、视频分类训练样本集和音频训练样本集中的任意一种；

权重赋值模块，用于在首轮迭代训练后，在每轮迭代训练前利用损失函数为每个所述样本赋予权重，获得所述训练样本集的权重向量；

弱分类器创建模块，用于利用所述权重向量构建当前迭代轮次对应的目标弱分类器；

权重系数确定模块，用于利用所述弱分类器对所述训练样本集进行分类，并利用分类结果计算所述目标弱分类器的分类误差；利用所述分类误差计算所述目标弱分类器的权重系数；

分类器组合模块，用于在完成多轮迭代训练后，利用所述权重系数将每轮迭代训练后获得的所述目标弱分类器进行组合，获得Adaboost分类器。

优选地，所述权重赋值模块，包括：

首轮赋值单元，用于在首轮迭代训练前，为每个所述样本赋予相同权重，获得所述训练样本集的初始权重向量；

迭代赋值单元，用于在非首轮迭代训练前利用所述损失函数为每个所述样本赋予权重，获得所述训练样本集的迭代权重向量。

优选地，所述迭代赋值单元，具体用于利用贝努力损失函数为每个所述样本赋予权重，获得所述训练样本集的所述迭代权重向量。

优选地，所述迭代赋值单元，具体利用融合了归一化因子的贝努力损失函数为每个所述样本赋予权重，获得所述训练样本集的所述迭代权重向量。

优选地，所述弱分类器创建模块，具体用于利用所述权重向量构建当前迭代轮次对应的基本判决树。

优选地，所述分类器组合模块，具体用于在完成多轮迭代训练后，利用所述权重系数将每轮迭代训练后获得的所述目标弱分类器进行加权组合，获得所述Adaboost分类器。

一种媒体对象分类方法，包括：

获得待分类对象，提取所述待分类对象的特征向量；

将所述特征向量输入至目标Adaboost分类器中进行分类处理，获得分类结果；

其中，所述目标Adaboost分类器为如上述Adaboost分类器计算机创建装置在创建过程中采用与所述待分类对象匹配的所述样本训练集所创建的所述目标Adaboost分类器。

优选地，将所述特征向量输入至目标Adaboost分类器中进行分类处理，获得分类结果，包括：

确定所述待分类对象的文件格式，利用所述文件格式从所述Adaboost分类器计算机创建装置创建的多种所述Adaboost分类器中确定出所述目标Adaboost分类器；

将所述特征向量输入至所述目标Adaboost分类器中进行分类处理，获得分类结果。

一种媒体对象分类设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述媒体对象分类方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述媒体对象分类方法的步骤。

应用本发明实施例所提供的装置，其中，样本集获得模块，用于获取训练样本集；其中，训练样本集中的每个样本具有对应特征以及分类值，训练样本集为文本分类训练样本集、图像分类训练样本集、视频分类训练样本集和音频训练样本集中的任意一种；权重赋值模块，用于在首轮迭代训练后，在每轮迭代训练前利用损失函数为每个样本赋予权重，获得训练样本集的权重向量；弱分类器创建模块，用于利用权重向量构建当前迭代轮次对应的目标弱分类器；权重系数确定模块，用于利用弱分类器对训练样本集进行分类，并利用分类结果计算目标弱分类器的分类误差；利用分类误差计算目标弱分类器的权重系数；分类器组合模块，用于在完成多轮迭代训练后，利用权重系数将每轮迭代训练后获得的目标弱分类器进行组合，获得Adaboost分类器。

Adaboost分类器对于分类错误节点是进行指数加权的，当错误率很低时，错误分类节点的权系数过大，导致分类器过度调整，从而可能错过正确的分类。即，在现有技术中，当样本集中存在极少数离群点时，在后期迭代中，假设分类器已经能正确分类非离群点，则此时分类误差非常小，而权重系数非常大，这样得到的新分类器，很可能出现大量分类错误，得到分类器的退化和不稳定。基于此，在本装置中在创建Adaboost分类器时，在首轮迭代训练后，在每轮迭代训练前利用损失函数为每个样本赋予权重，获得训练样本集的权重向量；然后利用权重向量构建当前迭代轮次对应的目标弱分类器；利用弱分类器对训练样本集进行分类，并利用分类结果计算目标弱分类器的分类误差；利用分类误差计算目标弱分类器的权重系数。可见，在本装置中利用损失函数对每个样本赋予权重，得到权重向量，可限制离群点的影响力，从而保证了每个弱目标分类器的稳定性，可提升最终组合得到的Adaboost分类器的分类准确率。

相应地，本发明实施例还提供了一种基于上述Adaboost分类器计算机创建装置所创建的Adaboost分类器相对应的媒体分类方法。由于创建的Adaboost分类器具有分类更为准确的效果，相应地，利用更为准确的Adaboost分类器进行媒体分类可使得分类结果更佳，进一步使得基于分类结果对媒体对象进行处理更有针对性。

相应于媒体对象分类方法，本发明实施例还提供了一种媒体对象分类设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种Adaboost分类器计算机创建装置的结构示意图；

图2为本发明实施例中一种媒体对象分类方法的实施流程图；

图3为本发明实施例中一种媒体对象分类设备的结构示意图；

图4为本发明实施例中一种媒体对象分类设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参考图1，图1为本发明实施例中一种Adaboost分类器计算机创建装置的结构示意图。即该装置中的功能模块的实现步骤在计算机上被执行。该装置包括：

样本集获得模块101，用于获取训练样本集；其中，训练样本集中的每个样本具有对应特征以及分类值，训练样本集为文本分类训练样本集、图像分类训练样本集、视频分类训练样本集和音频训练样本集中的任意一种。

具体的，在本发明实施例中训练样本集可具体为常见的需分类媒体对象的训练样本集。例如，训练样本集可具体为文本分类训练样本集，即训练样本集中的样本均为文本，每一个样本的分类值均对应文本具体类别的分类值(如，新闻文本类别为0，学术文本类别为0.2，诗歌类别为1)；训练样本集可具体为图像分类训练样本集，即训练样本集中的样本均为图片，每一个样本的分类值均对应图像具体类别的分类值(如，若针对交通违章拍摄图片的具体违章类别时，超车违章类别为0.3，交通信号灯违章类别为0.4，停车违章类别为0.7)。

显然地，不同训练样本集所创建的分类器是不同的，若训练样本即为视频分类训练样本集，则创建出的分类器为针对视频进行分类的分类器，所分类别与训练样本集的对应特征相关。

权重赋值模块102，用于在首轮迭代训练后，在每轮迭代训练前利用损失函数为每个样本赋予权重，获得训练样本集的权重向量。

需要注意的是，权重赋值模块在实际应用中，进行首轮训练前，损失函数还无法根据已有的弱分类器对样本赋予权重，因而在首轮训练前，可为每个样本赋予统一的权重。即，权重赋值模块102，可具体包括：

首轮赋值单元，用于在首轮迭代训练前，为每个样本赋予相同权重，获得训练样本集的初始权重向量；

迭代赋值单元，用于在非首轮迭代训练前利用损失函数为每个样本赋予权重，获得训练样本集的迭代权重向量。

其中，迭代赋值单元，具体用于利用贝努力损失函数为每个样本赋予权重，获得训练样本集的迭代权重向量。具体的，迭代赋值单元，具体利用融合了归一化因子的贝努力损失函数为每个样本赋予权重，获得训练样本集的迭代权重向量。其中，归一化因子是使得样本训练集的权重向量构成概率分布。当然，在本发明的其他实施例中，还可采用诸如贝努力损失函数的其他函数为每个样本赋予权重。

弱分类器创建模块103，用于利用权重向量构建当前迭代轮次对应的目标弱分类器。

其中，目标弱分类器可具体为常见的基本判决树。即，弱分类器创建模块，具体用于利用权重向量构建当前迭代轮次对应的基本判决树。具体如何创建基本判决树，可参见常见基本判决树的创建方法，例如，可参见基本判决树ID3或C4.5的基础创建方法。

权重系数确定模块104，用于利用弱分类器对训练样本集进行分类，并利用分类结果计算目标弱分类器的分类误差；利用分类误差计算目标弱分类器的权重系数。

其中，分类误差，即利用当前迭代轮次所创建的弱分类器对训练样本集中的样本进行分类，然后将分类结果与训练样本集中原本标注的分类值进行比较，统计出分类结果与样本所属分类不同的样本数量，计算出分类错误概率即分类误差。然后，利用分类误差计算出本轮迭代训练的权重系数。具体的，在计算权重系数时，当目标弱分类器的分类误差较小，则可将权重系数设置相对较大；若当前目标弱分类器的分类误差较大，则可将权重系数设置相对较小，以保障最终组合得到的Adaboost分类器的分类准确率更高。

分类器组合模块105，用于在完成多轮迭代训练后，利用权重系数将每轮迭代训练后获得的目标弱分类器进行组合，获得Adaboost分类器。

Adaboost分类器即为由多个弱分类器组成的，在本发明实施例中，即将每一个迭代训练产生的目标弱分类器结合每一个目标弱分类器的权重系数进行组合，获得Adaboost分类器。即，分类器组合模块105，具体用于在完成多轮迭代训练后，利用权重系数将每轮迭代训练后获得的目标弱分类器进行加权组合，获得Adaboost分类器。

为便于本领域技术人员更好的理解本发明实施例所提供的Adaboost分类器计算机创建装置，下面以具体的训练样本集为例，对Adaboost分类器计算机创建装置创建Adaboost分类器的实现过程进行详细说明。

对于训练样本集具体包括N个样本数据其中，x_i∈Rⁿ为具有n个特征的第i个样本，y_i∈{-1,1}为第i个样本的分类值，数值为-1或1分别代表两种类别。例如阳性用1表示，阴性用-1表示。N为样本数量。创建Adaboost分类器采用迭代算法进行创建。每次迭代中，对每个样本x_i赋予权重w_i。所有样本的权重组成一个向量，即权重向量D。第m次迭代时使用的权重向量记为D_m。

本发明实施例中Adaboost分类器计算机创建装置所创建的Adaboost分类器是由多个弱分类器集合而成。其中，弱分类器，是指结构简单，分类能力较差的分类器，其分类正确率仅仅好于随机分类器。为提高运算速度，可使用基本判决树(例如ID3,C4.5)作为其弱分类器。

本发明实施例所提供的Adaboost分类器计算机创建装置创建Adaboost分类器的具体步骤包括：

1、设置各元素相等的初始权重向量，即令D₁＝(w₁₁,w₁₂,...w_1N),，其中w_1i＝1/N,i＝1...N w_mi为第m次迭代中第i个样本的权重。

2、进行M轮迭代。其中，M的具体数值可根据实际需求进行设置，例如希望所创建的Adaboost分类器规模更大，则将M设置为较大数值。

在第m轮迭代时，执行以下A、B、C和D三个步骤实现创建当前轮次对应的弱分类器。

A、令数据权重向量为D_m，构建第m个弱分类器G_m(x)。分类器G_m(x)，当输入一个具有n个特征的样本数据x后，输出对该样本的分类，-1或者1。用公式表示为：G_m(x)：Rⁿ→{-1,1}。

B、计算G_m(x)在数据集上的分类误差e_m。e_m为分类器G_m(x)的分类错误概率，实践中采用分类错误比例来计算。即：P(k)为事件k的概率。G_m(x_i)≠y_i代表分类器分类结果与样本所属分类不同，即分类错误。I为指示函数。

C、计算弱分类器G_m(x)的权重系数α_m。

其中，

D、更新数据集的权重向量D_m；

D_m+1＝(w_m+1,1,w_m+1,2,...,w_m+1,N)。定义函数y＝log(1+exp(-γx))为提升贝努力函数，其中，γ为超参数，用于控制放大倍数。基于上述提升贝努力函数，权重修改公式为：其中为归一化因子，其使得D_m+1构成概率分布。

3、组合执行上述步骤2后所创建的M个弱分类器，得到最终分类器f(x)，即分类器f(x)为m次迭代中构建的分类器的加权和。

利用上述创建流程所创建的Adaboost分类器优越性分析。原Adaboost算法采用如下公式进行权重向量的更新：

当样本集中存在极少数离群点时，在后期迭代中，假设分类器已经能正确分类非离群点，则此时e_m非常小，而α_m非常大。更新后的离群点的新权重也将非常大。(离群点或者分类错误点y_iG_m(x_i))为-1，抵消掉系数-1，成为大正数的指数函数。)这样得到的新分类器，很可能出现大量分类错误，得到分类器的退化和不稳定。

而在本发明实施例中所提供的Adaboost分类器计算机创建装置中采用log(1+exp())的函数形式来限制了离群点的影响力，从而保证了分类器的稳定性。

实施例二：

相应于上面的装置实施例，本发明实施例还提供了一种媒体对象分类方法，下文描述的媒体对象分类方法与上文描述Adaboost分类器计算机创建装置的可相互对应参照。

请参考图2，图2为本发明实施例中一种媒体对象分类方法的实施流程图。该方法可应用于计算机中，该方法包括：

S101、获得待分类对象，提取待分类对象的特征向量。

S102、将特征向量输入至目标Adaboost分类器中进行分类处理，获得分类结果。

其中，目标Adaboost分类器为如上述Adaboost分类器计算机创建装置在创建过程中采用与待分类对象匹配的样本训练集所创建的目标Adaboost分类器。

优选地，当被分类对象的文件格式多样时，步骤S102可具体为确定待分类对象的文件格式，利用文件格式从Adaboost分类器计算机创建装置创建的多种Adaboost分类器中确定出目标Adaboost分类器；将特征向量输入至目标Adaboost分类器中进行分类处理，获得分类结果。

参照上述实施例中具体创建过程中所创建的Adaboost分类器，在进行分类判决时，即将待分类向量x输入Adaboost分类器，得到G(x)＝sign(f(x))。G(x)即为分类结果。

相应地，由于创建的Adaboost分类器具有分类更为准确的效果，相应地，利用更为准确的Adaboost分类器进行媒体分类可使得分类结果更佳，进一步使得基于分类结果对媒体对象进行处理更有针对性。

即，由于用于处理待分类向量的目标Adaboost分类器是采用如上述实施例一所提供的Adaboost分类器计算机创建装置所创建的分类器，而该Adaboost分类器计算机创建装置所创建的Adaboost分类器具有分类准确的技术效果，因而本发明实施例所提供的媒体对象分类方法也具有相应技术效果。进一步地，基于分类更为准确的分类结果，可基于更为准确的分类结果对待分类对象进行针对性处理。例如，当待分类对象为交通违章图像时，利用Adaboost分类器确定出其具体的违章类别，可进一步基于该违章类别向该交通违章图像中的交通违章车辆进行自动确定响应的处理措施，并配合响应的交通管理软件向该交通违章车辆的车主发出违章警示。相应地，，对于其他文件格式的待识别对象，得到相应分类结果进一步的处理操作可参见常见的分类后处理的相应步骤，在此不再一一赘述。

实施例三：

相应于上面的方法实施例，本发明实施例还提供了一种媒体对象分类设备，下文描述的一种媒体对象分类设备与上文描述的一种媒体对象分类方法可相互对应参照。

参见图3所示，该媒体对象分类设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的媒体对象分类方法的步骤。

具体的，请参考图4，图4为本实施例提供的一种媒体对象分类设备的具体结构示意图，该媒体对象分类设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在媒体对象分类设备301上执行存储介质330中的一系列指令操作。

媒体对象分类设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的媒体对象分类方法中的步骤可以由媒体对象分类设备的结构实现。

实施例四：

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一媒体对象分类方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的媒体对象分类方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种Adaboost分类器计算机创建装置，其特征在于，包括：

2.根据权利要求1所述的Adaboost分类器计算机创建装置，其特征在于，所述权重赋值模块，包括：

3.根据权利要求2所述的Adaboost分类器计算机创建装置，其特征在于，所述迭代赋值单元，具体用于利用贝努力损失函数为每个所述样本赋予权重，获得所述训练样本集的所述迭代权重向量。

4.根据权利要求3所述的Adaboost分类器计算机创建装置，其特征在于，所述迭代赋值单元，具体利用融合了归一化因子的贝努力损失函数为每个所述样本赋予权重，获得所述训练样本集的所述迭代权重向量。

5.根据权利要求1所述的Adaboost分类器计算机创建装置，其特征在于，所述弱分类器创建模块，具体用于利用所述权重向量构建当前迭代轮次对应的基本判决树。

6.根据权利要求1所述的Adaboost分类器计算机创建装置，其特征在于，所述分类器组合模块，具体用于在完成多轮迭代训练后，利用所述权重系数将每轮迭代训练后获得的所述目标弱分类器进行加权组合，获得所述Adaboost分类器。

7.一种媒体对象分类方法，其特征在于，包括：

获得待分类对象，提取所述待分类对象的特征向量；

其中，所述目标Adaboost分类器为如权利要求1至6任一项所述Adaboost分类器计算机创建装置在创建过程中采用与所述待分类对象匹配的所述样本训练集所创建的所述目标Adaboost分类器。

8.根据权利要求7所述的媒体对象分类方法，其特征在于，将所述特征向量输入至目标Adaboost分类器中进行分类处理，获得分类结果，包括：

9.一种媒体对象分类设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求7或8所述媒体对象分类方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求7或8所述媒体对象分类方法的步骤。