CN105320957B

CN105320957B - 分类器训练方法和装置

Info

Publication number: CN105320957B
Application number: CN201410328821.8A
Authority: CN
Inventors: 贲国生; 李岩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-07-10
Filing date: 2014-07-10
Publication date: 2022-02-15
Anticipated expiration: 2034-07-10
Also published as: CN105320957A

Abstract

本发明涉及一种分类器训练方法和装置。所述方法包括以下步骤：从原始类别样本集中筛选样本组成训练类别样本集；对所述训练类别样本集中样本进行训练，得到用于预测的参数文件；根据所述参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果；根据所述类别样本预测结果获取预测结果错误的样本；将预测结果错误的样本添加到所述训练类别样本集中，更新所述训练类别样本集，对所述更新后的训练类别样本集中样本再进行训练得到用于预测的新的参数文件，并根据所述新的参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果，直到类别样本预测结果满足预设迭代条件为止。分类器预测未知类别数据得到较优的准确性。

Description

分类器训练方法和装置

技术领域

本发明涉及数据处理领域，特别是涉及一种分类器训练方法和装置。

背景技术

随着信息的爆发式发展，面对大量的信息需要筛选出符合自身需要的信息，则需对信息进行分类处理。例如，1)色情淫秽内容的自动判断，随着信息安全的重要性越来越高，如何有效的处理网络上的色情等有害信息是一个急需解决的问题，通过分类算法学习色情淫秽内容的特征并结合语义分析能够有效地分出色情淫秽内容并进行有效的处理。2)情感分析或自定将电源或产品评论按照褒贬性分类。3)垃圾邮件的过滤，为了将垃圾邮件和其他正常邮件区分开，减少垃圾邮件的干扰，在垃圾邮件过滤中将邮件内容分为垃圾类和正常类，然后通过分类算法学习得到分类模型再进行预测，从而区分出正常邮件和垃圾邮件，并将垃圾邮件过滤掉。

通过分类算法学习得到的分类模块或分类决策函数称为分类器。传统的分类训练过程中，通过收集具有类别信息的人工标注数据来一次性学习样本数据获得分类器，采用该分类器预测没有类别信息的数据时，准确性并非最优的。

发明内容

基于此，有必要针对传统的分类训练得到分类器进行预测时准确性并非最优的问题，提供一种能得到较优的准确性的分类器训练方法和装置。

一种分类器训练方法，包括以下步骤：

从原始类别样本集中筛选样本组成训练类别样本集；

对所述训练类别样本集中样本进行训练，得到用于预测的参数文件；

根据所述参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果；

根据所述类别样本预测结果获取预测结果错误的样本；

将预测结果错误的样本添加到所述训练类别样本集中，更新所述训练类别样本集，对所述更新后的训练类别样本集中样本再进行训练得到用于预测的新的参数文件，并根据所述新的参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果，直到类别样本预测结果满足预设迭代条件为止。

一种分类器训练装置，包括：

选取模块，用于从原始类别样本集中筛选样本组成训练类别样本集；

训练模块，用于对所述训练类别样本集中样本进行训练，得到用于预测的参数文件；

预测模块，用于根据所述参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果；

获取模块，用于根据所述类别样本预测结果获取预测结果错误的样本；

更新模块，用于将预测结果错误的样本添加到所述训练类别样本集中，更新所述训练类别样本集；

所述训练模块还用于对所述更新后的训练类别样本集中样本再进行训练得到用于预测的新的参数文件；

所述预测模块还用于根据所述新的参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果，直到类别样本预测结果满足预设迭代条件为止。

上述分类器训练方法和装置，从原始类别样本集中选取样本组成训练类别样本集，对训练类别样本集中样本进行训练得到参数文件，根据参数文件预测原始类别样本集中的样本得到预测结果，并将预测结果错误的样本添加到训练类别样本集中，再根据新的训练类别样本集进行训练得到新的参数文件，根据新的参数文件预测原始类别样本集中的样本得到预测结果，迭代判断直到类别样本的预测结果满足预设迭代条件，使得训练得到的分类器较为准确，从而分类器预测未知类别数据得到较优的准确性。

附图说明

图1为一个实施例中分类器训练方法的流程图；

图2为一个实施例中正负样本分类训练的流程图；

图3为一个实施例中分类器训练装置的结构框图；

图4为一个实施例中正负样本训练过程示意图；

图5为能实现分类器训练方法的计算机系统的模块图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中分类器训练方法的流程图。图1中的分类器训练方法可运行于终端或服务器上，该终端包括但不限于各种智能手机、平板电脑、个人数字助理、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)或MP4(Moving Picture Experts Group Audio5Layer IV，动态影像专家压缩标准音频层面4)播放器、POS终端、车载电脑、膝上型便携计算机和台式计算机等。

如图1所示，该分类器训练方法，包括以下步骤：

步骤102，从原始类别样本集中筛选样本组成训练类别样本集。

具体的，原始类别样本集是通过统计得到的大量的具有类别信息的数据组成的集合。原始类别样本集中每个具有类别信息的数据作为一个样本。该类别信息可通过人工标注方式获得。然后，从原始类别样本集中随机或根据需求筛选一些样本组成训练类别样本集。

步骤104，对该训练类别样本集中样本进行训练，得到用于预测的参数文件。

在一个实施例中，步骤104包括：通过分类算法或回归算法对该训练类别样本集中样本进行训练，得到用于预测的参数文件。

分类算法可为支持向量机分类算法、决策树分类算法、贝叶斯分类算法、人工神经网络分类算法或K-近邻分类算法等。其中，支持向量机分类算法是根据统计学习理论提出的一种学习方法，其最大特点是根据结构风险最小化准则，以最大化分类间隔构造最优分类超平面来提高学习机的泛化能量，较好的解决了非线性、高维数、局部极小点等问题，对于分类问题，支持向量机算法根据区域中的样本计算该区域的决策曲面，由此确定该区域中未知样本的类别。决策树分类算法是以实例为基础的归纳学习算法，其着眼于从一组无序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系，用它来预测将来未知类别的记录的类别，采用自顶向下的递归方式，在决策树的内部节点进行属性比较，并根据不同属性值判断该节点向下的分支，在决策树的叶节点得到结论。贝叶斯分类算法是一类利用概率统计进行分类的算法，主要是利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性，选择其中可能性最大的一个类别作为该样本的最终类别。人工神经网络分类算法是指一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型，在该种模型中，大量的节点之间相互联接构成网络，即“神经网络”，以达到处理信息的目的。K-近邻分类算法是一种基于实例的分类算法，该算法就是找出与未知样本s距离最近的k个训练样本，确定这k个样本中多数属于哪一类，就把s归为哪一类。

以LR(Logistic Regression，逻辑回归)分类算法为例，LR模型为：

公式(1)中，y表示类别，以二分类为例，正样本类别为1，负样本类别为－1；x表示样本转化的特征向量；w表示x中特征向量对应的参数文件，即训练部分输出的模型文件，wT为w的转置矩阵。对训练类别样本集中样本进行训练是为了获得预测部分需要的参数文件，即w。例如一个样本表示成向量形式x＝(0.5,1.0.6)，对应训练得到的w＝(0.1,0.3,0.5)，则根据公式(1)可计算出结果，根据该结果可判断样本类别。w的计算式通过优化目标函数

来获得，其中，l为样本数。对w的计算式进行优化的算法有很多，如牛顿法、拟牛顿法、L-BFGS(Limited-memory Broyden-Fletcher-Goldfarb-Shanno)等。

步骤106，根据该参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果。

在一个实施例中，步骤106包括：采用与训练中相同的分类算法或回归算法根据该参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果。

具体的，在步骤104中采用支持向量机分类算法进行训练，则步骤106中采用支持向量机分类算法对原始类别样本集中样本进行预测。

以线性可分二分类为例，线性可分的二分类是指原数据可以用一条直线或一个超平面分开。用一个多维空间中的超平面将数据分隔为两个类可采用最大间隔法。分类平面表示为：(w·x)+b＝0，其中，x为多维向量，分类间隔的倒数为：

其最优表达为：

s.t y_i((wx_i)+b)≥1,i＝1,2,…,l

其中，y_i表示类别，l为样本数，x_i表示多维向量。这里的约束为：要求各个数据点(x_i,y_i)到分类平面的距离大于1。在预测的时候，待预测的样本为x，分类平面中w(即参数文件由训练得到)，根据分类平面(wx+b)的结果判断待预测样本属于哪一类。

步骤108，根据该类别样本预测结果获取预测结果错误的样本。

具体的，判断类别样本预测结果与预先标注的类别是否相同，若相同，则正常，若不相同，则错误。

步骤110，将预测结果错误的样本添加到该训练类别样本集中，更新该训练类别样本集，对该更新后的训练类别样本集中样本再进行训练得到用于预测的新的参数文件，并根据该新的参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果，直到类别样本预测结果满足预设迭代条件为止。

本实施例中，该将预测结果错误的样本添加到该训练类别样本集中，更新该训练类别样本集的步骤包括：从该预测结果错误的样本中选取预设数量的样本添加到该训练类别样本集中，更新该训练类别样本集。

进一步的，该从该预测结果错误的样本中选取预设数量的样本添加到该训练类别样本集中，更新该训练类别样本集的步骤包括：根据该预设迭代条件从该预测结果错误的样本中选取样本添加到该训练类别样本集中，更新该训练类别样本集。

预设迭代条件可根据场景需要设定。该预设迭代条件可包括准确率大于准确率阈值和/或召回率大于召回率阈值，或者包括准确率和召回率的函数值大于阈值等。

准确率和召回率通过以下示例来定义：假设从一个大规模数据集合中检索文档时，把文档分成四组：A，系统检索到的相关文档；B，系统检索到不相关文档；C，相关但是系统没有检索到的文档；D，不相关且没有被系统检索到的文档。则准确率(Precision)为P＝A/(A+B)；召回率(Recall)为R＝A/(A+C)。

准确率和召回率的函数值可为如

P为准确率，R为召回率。

上述分类器训练方法，从原始类别样本集中选取样本组成训练类别样本集，对训练类别样本集中样本进行训练得到参数文件，根据参数文件预测原始类别样本集中的样本得到预测结果，并将预测结果错误的样本添加到训练类别样本集中，再根据新的训练类别样本集进行训练得到新的参数文件，根据新的参数文件预测原始类别样本集中的样本得到预测结果，迭代判断直到类别样本的预测结果满足预设迭代条件，使得训练得到的分类器较为准确，分类器预测未知类别数据得到较优的准确性。

图2为一个实施例中正负样本分类训练的流程图。如图2所示，该原始类别样本集包括原始正样本集和原始负样本集；该分类器训练方法包括：

步骤202，从该原始正样本集中筛选样本组成训练正样本集，从该原始负样本集中筛选样本组成训练负样本集。

具体的，从原始正样本集中取p个样本组成训练正样本集，从原始负样本集中筛选n个样本组成训练负样本集。

步骤204，对该训练正样本集中样本和训练负样本集中样本一起进行训练，得到用于预测的参数文件。

步骤206，根据该参数文件分别对该原始正样本集和原始负样本集中的样本进行预测得到正样本预测结果和负样本预测结果。

步骤208，根据该正样本预测结果获取预测结果错误的正样本，根据该负样本预测结果获取预测结果错误的负样本，将预测结果错误的正样本添加到该训练正样本集中，将预测结果错误的负样本添加到该训练负样本集中，更新该训练正样本集和训练负样本集。

具体的，判断正样本预测结果是否正确，若是，则得到预测结果正确样本，若否，则得到预测结果错误样本。

步骤210，对该更新后的训练正样本集中样本和训练负样本集中样本一起再进行训练得到用于预测的新的参数文件，并根据该新的参数文件对该原始正样本集中样本和原始负样本集中样本分别进行预测得到正样本预测结果和负样本预测结果，直到正样本预测结果和负样本预测结果满足预设迭代条件为止。

在一个实施例中，该将预测结果错误的正样本添加到该训练正样本集中，将预测结果错误的负样本添加到该训练负样本集中，更新该训练正样本集和训练负样本集的步骤包括：将预测结果错误的正样本中取t个样本添加到训练正样本集中，将预测结果错误的负样本中取m个样本添加到训练负样本集中，更新训练正样本集和训练负样本集。其中，t和m可根据需要设置。

进一步的，该预设迭代条件包括预测结果的准确率大于预设准确率阈值；

则该将预测结果错误的正样本添加到该训练正样本集中，将预测结果错误的负样本添加到该训练负样本集中，更新该训练正样本集和训练负样本集的步骤包括：从预测结果错误的正样本中取0个添加到该训练正样本集中，从预测结果错误的负样本中取全部数量或预设部分数量样本添加到该训练负样本集中，更新该训练正样本集和训练负样本集。

具体的，在只要求准确率高，不需关注召回率的情况下，可将t设置为0，m设置为每次预测结果错误样本的全部数量或预测结果错误的样本的预设部分数量，如十分之一，十分之二等等。

此处仅描述了采用二分类算法分成正负样本进行训练的过程，该分类器训练方法不限于二分类算法，也可应用于多分类算法的训练过程中(如三分类算法、四分类算法等)，以及监督学习训练的所有算法中，例如回归的训练算法。回归算法进行分类是连续的，分类算法进行分类是离散的。三分类算法则需要获取类别1样本、类别2样本和类别3样本，四分类算法则需要获取类别1样本、类别2样本、类别3样本和类别4样本，其他分类算法样本类别数依次类推。

图3为一个实施例中分类器训练装置的结构框图。如图3所示，该分类器训练装置，包括选取模块310、训练模块320、预测模块330、获取模块340和更新模块350。其中：

选取模块310，用于从原始类别样本集中筛选样本组成训练类别样本集。

训练模块320，用于对该训练类别样本集中样本进行训练，得到用于预测的参数文件。

预测模块330，用于根据该参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果。

获取模块340，用于根据该类别样本预测结果获取预测结果错误的样本。

更新模块350，用于将预测结果错误的样本添加到该训练类别样本集中，更新该训练类别样本集。

该训练模块320还用于对该更新后的训练类别样本集中样本再进行训练得到用于预测的新的参数文件。

该预测模块330还用于根据该新的参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果，直到类别样本预测结果满足预设迭代条件为止。

上述分类器训练装置，从原始类别样本集中选取样本组成训练类别样本集，对训练类别样本集中样本进行训练得到参数文件，根据参数文件预测原始类别样本集中的样本得到预测结果，并将预测结果错误的样本添加到训练类别样本集中，再根据新的训练类别样本集进行训练得到新的参数文件，根据新的参数文件预测原始类别样本集中的样本得到预测结果，迭代判断直到类别样本的预测结果满足预设迭代条件，使得训练得到的分类器较为准确，分类器预测未知类别数据得到较优的准确性，且可根据不同的应用场景设置不同的自迭代条件达到不同的应用需求。

在一个实施例中，该训练模块320还用于通过分类算法或回归算法对该训练类别样本集中样本进行训练，得到用于预测的参数文件；该预测模块330还用于采用与该训练模块中相同的分类算法或回归算法根据该参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果。

具体的，分类算法可为支持向量机分类算法、决策树分类算法、贝叶斯分类算法、人工神经网络分类算法或K-近邻分类算法。

在一个实施例中，该更新模块350还用于从该预测结果错误的样本中选取预设数量的样本添加到该训练类别样本集中，更新该训练类别样本集。预设数量可根据需要设定。

在一个实施例中，该更新模块350还用于根据该预设迭代条件从该预测结果错误的样本中选取样本添加到该训练类别样本集中，更新该训练类别样本集。

具体的，预设迭代条件可根据场景需要设定。该预设迭代条件可包括准确率大于准确率阈值和/或召回率大于召回率阈值，或者包括准确率和召回率的函数值大于阈值等。

在一个实施例中，该原始类别样本集包括原始正样本集和原始负样本集；图4为一个实施例中正负样本训练过程示意图。如图4所示，该选取模块310还用于从该原始正样本集中筛选样本组成训练正样本集，从该原始负样本集中筛选样本组成训练负样本集。

该训练模块320还用于对该训练正样本集中样本和训练负样本集中样本一起进行训练，得到用于预测的参数文件。

该预测模块330还用于根据该参数文件分别对该原始正样本集和原始负样本集中的样本进行预测得到正样本预测结果和负样本预测结果。

该获取模块340还用于根据该正样本预测结果获取预测结果错误的正样本，根据该负样本预测结果获取预测结果错误的负样本。

该更新模块350还用于将预测结果错误的正样本添加到该训练正样本集中，将预测结果错误的负样本添加到该训练负样本集中，更新该训练正样本集和训练负样本集。

该训练模块320还用于对该更新后的训练正样本集中样本和训练负样本集中样本一起再进行训练得到用于预测的新的参数文件。

该预测模块330还用于根据该新的参数文件对该原始正样本集中样本和原始负样本集中样本分别进行预测得到正样本预测结果和负样本预测结果，直到正样本预测结果和负样本预测结果满足预设迭代条件为止。

在一个实施例中，更新模块350还用于将预测结果错误的正样本中取t个样本添加到训练正样本集中，将预测结果错误的负样本中取m个样本添加到训练负样本集中，更新训练正样本集和训练负样本集。其中，t和m可根据需要设置。

进一步的，该预设迭代条件包括预测结果的准确率大于预设准确率阈值；该更新模块350还用于从预测结果错误的正样本中取0个添加到该训练正样本集中，从预测结果错误的负样本中取全部数量或预设部分数量样本添加到该训练负样本集中，更新该训练正样本集和训练负样本集。

图5为能实现本发明实施例的一个计算机系统1000的模块图。该计算机系统1000只是一个适用于本发明的计算机环境的示例，不能认为是提出了对本发明的使用范围的任何限制。计算机系统1000也不能解释为需要依赖于或具有图示的示例性的计算机系统1000中的一个或多个部件的组合。

图5中示出的计算机系统1000是一个适合用于本发明的计算机系统的例子。具有不同子系统配置的其它架构也可以使用。例如有大众所熟知的台式机、笔记本、个人数字助理、智能电话、平板电脑、便携式媒体播放器、机顶盒等类似设备可以适用于本发明的一些实施例。但不限于以上所列举的设备。

如图5所示，计算机系统1000包括处理器1010、存储器1020和系统总线1022。包括存储器1020和处理器1010在内的各种系统组件连接到系统总线1022上。处理器1010是一个用来通过计算机系统中基本的算术和逻辑运算来执行计算机程序指令的硬件。存储器1020是一个用于临时或永久性存储计算程序或数据(例如，程序状态信息)的物理设备。系统总线1020可以为以下几种类型的总线结构中的任意一种，包括存储器总线或存储控制器、外设总线和局部总线。处理器1010和存储器1020可以通过系统总线1022进行数据通信。其中存储器1020包括只读存储器(ROM)或闪存(图中都未示出)，以及随机存取存储器(RAM)，RAM通常是指加载了操作系统和应用程序的主存储器。

计算机系统1000还包括显示接口1030(例如，图形处理单元)、显示设备1040(例如，液晶显示器)、音频接口1050(例如，声卡)以及音频设备1060(例如，扬声器)。显示设备1040和音频设备1060是用于体验多媒体内容的媒体设备。

计算机系统1000一般包括一个存储设备1070。存储设备1070可以从多种计算机可读介质中选择，计算机可读介质是指可以通过计算机系统1000访问的任何可利用的介质，包括移动的和固定的两种介质。例如，计算机可读介质包括但不限于，闪速存储器(微型SD卡)，CD-ROM，数字通用光盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备，或者可用于存储所需信息并可由计算机系统1000访问的任何其它介质。

计算机系统1000还包括输入装置1080和输入接口1090(例如，IO控制器)。用户可以通过输入装置1080，如键盘、鼠标、显示装置1040上的触摸面板设备，输入指令和信息到计算机系统1000中。输入装置1080通常是通过输入接口1090连接到系统总线1022上的，但也可以通过其它接口或总线结构相连接，如通用串行总线(USB)。

计算机系统1000可在网络环境中与一个或者多个网络设备进行逻辑连接。网络设备可以是个人电脑、服务器、路由器、智能电话、平板电脑或者其它公共网络节点。计算机系统1000通过局域网(LAN)接口1100或者移动通信单元1110与网络设备相连接。局域网(LAN)是指在有限区域内，例如家庭、学校、计算机实验室、或者使用网络媒体的办公楼，互联组成的计算机网络。WiFi和双绞线布线以太网是最常用的构建局域网的两种技术。WiFi是一种能使计算机系统1000间交换数据或通过无线电波连接到无线网络的技术。移动通信单元1110能在一个广阔的地理区域内移动的同时通过无线电通信线路接听和拨打电话。除了通话以外，移动通信单元1110也支持在提供移动数据服务的2G，3G或4G蜂窝通信系统中进行互联网访问。

应当指出的是，其它包括比计算机系统1000更多或更少的子系统的计算机系统也能适用于发明。例如，计算机系统1000可以包括能在短距离内交换数据的蓝牙单元，用于照相的图像传感器，以及用于测量加速度的加速计。

如上面详细描述的，适用于本发明的计算机系统1000能执行分类器训练方法的指定操作。计算机系统1000通过处理器1010运行在计算机可读介质中的软件指令的形式来执行这些操作。这些软件指令可以从存储设备1070或者通过局域网接口1100从另一设备读入到存储器1020中。存储在存储器1020中的软件指令使得处理器1010执行上述的分类器训练方法。此外，通过硬件电路或者硬件电路结合软件指令也能同样实现本发明。因此，实现本发明并不限于任何特定硬件电路和软件的组合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种分类器训练方法，应用于终端，所述方法包括以下步骤：

获取邮件内容作为数据；接收人工标注，获得每个数据的类别信息；统计得到具有类别信息的数据组成的集合作为原始类别样本集；

根据邮件过滤场景的应用需求，预设迭代条件；

从所述原始类别样本集中筛选样本组成训练类别样本集；对所述训练类别样本集中样本进行训练，得到用于预测的参数文件；根据所述参数文件对所述原始类别样本集中样本进行预测，得到类别样本预测结果；

根据所述类别样本预测结果，获取预测结果错误的样本；根据所述迭代条件从预测结果错误的样本中选取样本添加到所述训练类别样本集中，更新所述训练类别样本集，对所述更新后的训练类别样本集中样本再进行训练，得到用于预测的新的参数文件，并根据所述新的参数文件对所述原始类别样本集中样本进行预测，得到所述类别样本预测结果，直到所述类别样本预测结果满足所述迭代条件为止；

根据所述类别样本预测结果，区分正常邮件和垃圾邮件，并将所述垃圾邮件过滤掉。

2.根据权利要求1所述的方法，其特征在于，所述对所述训练类别样本集中样本进行训练，得到用于预测的参数文件的步骤包括：

通过分类算法或回归算法对所述训练类别样本集中样本进行训练，得到用于预测的参数文件；

所述根据所述参数文件对所述原始类别样本集中样本进行预测，得到类别样本预测结果包括：

采用与训练中相同的分类算法或回归算法，根据所述参数文件对所述原始类别样本集中样本进行预测，得到类别样本预测结果。

3.根据权利要求1所述的方法，其特征在于，所述原始类别样本集包括原始正样本集和原始负样本集；所述方法还包括：

从所述原始正样本集中筛选样本组成训练正样本集，从所述原始负样本集中筛选样本组成训练负样本集；

对所述训练正样本集中样本和训练负样本集中样本一起进行训练，得到用于预测的参数文件；

根据所述参数文件分别对所述原始正样本集和原始负样本集中的样本进行预测，得到正样本预测结果和负样本预测结果；

根据所述正样本预测结果获取预测结果错误的正样本，根据所述负样本预测结果获取预测结果错误的负样本，将预测结果错误的正样本添加到所述训练正样本集中，将预测结果错误的负样本添加到所述训练负样本集中，更新所述训练正样本集和训练负样本集；

对所述更新后的训练正样本集中样本和训练负样本集中样本一起再进行训练，得到用于预测的新的参数文件，并根据所述新的参数文件对所述原始正样本集中样本和原始负样本集中样本分别进行预测，得到正样本预测结果和负样本预测结果，直到正样本预测结果和负样本预测结果满足所述迭代条件为止。

4.根据权利要求3所述的方法，其特征在于，所述迭代条件包括预测结果的准确率大于预设准确率阈值；

所述将预测结果错误的正样本添加到所述训练正样本集中，将预测结果错误的负样本添加到所述训练负样本集中，更新所述训练正样本集和训练负样本集的步骤包括：

从预测结果错误的正样本中取0个添加到所述训练正样本集中，从预测结果错误的负样本中取全部数量或预设部分数量样本添加到所述训练负样本集中，更新所述训练正样本集和训练负样本集。

5.一种分类器训练装置，应用于终端，其特征在于，所述装置包括：

选取模块，用于获取邮件内容作为数据；接收人工标注，获得每个数据的类别信息；统计得到具有类别信息的数据组成的集合作为原始类别样本集；从所述原始类别样本集中筛选样本组成训练类别样本集；

训练模块，用于根据邮件过滤场景的应用需求，预设迭代条件；对所述训练类别样本集中样本进行训练，得到用于预测的参数文件；

预测模块，用于根据所述参数文件对所述原始类别样本集中样本进行预测，得到类别样本预测结果；

更新模块，用于根据所述迭代条件从预测结果错误的样本中选取样本添加到所述训练类别样本集中，更新所述训练类别样本集；

所述训练模块还用于，对所述更新后的训练类别样本集中样本再进行训练，得到用于预测的新的参数文件；

所述预测模块还用于，根据所述新的参数文件对所述原始类别样本集中样本进行预测，得到所述类别样本预测结果，直到所述类别样本预测结果满足所述迭代条件为止；根据所述类别样本预测结果，区分正常邮件和垃圾邮件，并将所述垃圾邮件过滤掉。

6.根据权利要求5所述的装置，其特征在于，所述训练模块用于，通过分类算法或回归算法对所述训练类别样本集中样本进行训练，得到用于预测的参数文件；采用与所述训练模块中相同的分类算法或回归算法，根据所述参数文件对所述原始类别样本集中样本进行预测，得到类别样本预测结果。

7.根据权利要求5所述的装置，其特征在于，所述原始类别样本集包括原始正样本集和原始负样本集；

所述选取模块还用于，从所述原始正样本集中筛选样本组成训练正样本集，从所述原始负样本集中筛选样本组成训练负样本集；

所述训练模块还用于，对所述训练正样本集中样本和训练负样本集中样本一起进行训练，得到用于预测的参数文件；

所述预测模块还用于，根据所述参数文件分别对所述原始正样本集和原始负样本集中的样本进行预测，得到正样本预测结果和负样本预测结果；

所述获取模块还用于，根据所述正样本预测结果获取预测结果错误的正样本，根据所述负样本预测结果获取预测结果错误的负样本；

所述更新模块还用于，将预测结果错误的正样本添加到所述训练正样本集中，将预测结果错误的负样本添加到所述训练负样本集中，更新所述训练正样本集和训练负样本集；

所述训练模块还用于，对所述更新后的训练正样本集中样本和训练负样本集中样本一起再进行训练，得到用于预测的新的参数文件；

所述预测模块还用于，根据所述新的参数文件对所述原始正样本集中样本和原始负样本集中样本分别进行预测，得到正样本预测结果和负样本预测结果，直到正样本预测结果和负样本预测结果满足预设迭代条件为止。

8.根据权利要求7所述的装置，其特征在于，所述迭代条件包括预测结果的准确率大于预设准确率阈值；

所述更新模块用于，从预测结果错误的正样本中取0个添加到所述训练正样本集中，从预测结果错误的负样本中取全部数量或预设部分数量样本添加到所述训练负样本集中，更新所述训练正样本集和训练负样本集。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。

10.一种终端，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。