CN105320957B - 分类器训练方法和装置 - Google Patents

分类器训练方法和装置 Download PDF

Info

Publication number
CN105320957B
CN105320957B CN201410328821.8A CN201410328821A CN105320957B CN 105320957 B CN105320957 B CN 105320957B CN 201410328821 A CN201410328821 A CN 201410328821A CN 105320957 B CN105320957 B CN 105320957B
Authority
CN
China
Prior art keywords
training
sample set
samples
sample
prediction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410328821.8A
Other languages
English (en)
Other versions
CN105320957A (zh
Inventor
贲国生
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410328821.8A priority Critical patent/CN105320957B/zh
Publication of CN105320957A publication Critical patent/CN105320957A/zh
Application granted granted Critical
Publication of CN105320957B publication Critical patent/CN105320957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种分类器训练方法和装置。所述方法包括以下步骤:从原始类别样本集中筛选样本组成训练类别样本集;对所述训练类别样本集中样本进行训练,得到用于预测的参数文件;根据所述参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果;根据所述类别样本预测结果获取预测结果错误的样本;将预测结果错误的样本添加到所述训练类别样本集中,更新所述训练类别样本集,对所述更新后的训练类别样本集中样本再进行训练得到用于预测的新的参数文件,并根据所述新的参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果,直到类别样本预测结果满足预设迭代条件为止。分类器预测未知类别数据得到较优的准确性。

Description

分类器训练方法和装置
技术领域
本发明涉及数据处理领域,特别是涉及一种分类器训练方法和装置。
背景技术
随着信息的爆发式发展,面对大量的信息需要筛选出符合自身需要的信息,则需对信息进行分类处理。例如,1)色情淫秽内容的自动判断,随着信息安全的重要性越来越高,如何有效的处理网络上的色情等有害信息是一个急需解决的问题,通过分类算法学习色情淫秽内容的特征并结合语义分析能够有效地分出色情淫秽内容并进行有效的处理。2)情感分析或自定将电源或产品评论按照褒贬性分类。3)垃圾邮件的过滤,为了将垃圾邮件和其他正常邮件区分开,减少垃圾邮件的干扰,在垃圾邮件过滤中将邮件内容分为垃圾类和正常类,然后通过分类算法学习得到分类模型再进行预测,从而区分出正常邮件和垃圾邮件,并将垃圾邮件过滤掉。
通过分类算法学习得到的分类模块或分类决策函数称为分类器。传统的分类训练过程中,通过收集具有类别信息的人工标注数据来一次性学习样本数据获得分类器,采用该分类器预测没有类别信息的数据时,准确性并非最优的。
发明内容
基于此,有必要针对传统的分类训练得到分类器进行预测时准确性并非最优的问题,提供一种能得到较优的准确性的分类器训练方法和装置。
一种分类器训练方法,包括以下步骤:
从原始类别样本集中筛选样本组成训练类别样本集;
对所述训练类别样本集中样本进行训练,得到用于预测的参数文件;
根据所述参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果;
根据所述类别样本预测结果获取预测结果错误的样本;
将预测结果错误的样本添加到所述训练类别样本集中,更新所述训练类别样本集,对所述更新后的训练类别样本集中样本再进行训练得到用于预测的新的参数文件,并根据所述新的参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果,直到类别样本预测结果满足预设迭代条件为止。
一种分类器训练装置,包括:
选取模块,用于从原始类别样本集中筛选样本组成训练类别样本集;
训练模块,用于对所述训练类别样本集中样本进行训练,得到用于预测的参数文件;
预测模块,用于根据所述参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果;
获取模块,用于根据所述类别样本预测结果获取预测结果错误的样本;
更新模块,用于将预测结果错误的样本添加到所述训练类别样本集中,更新所述训练类别样本集;
所述训练模块还用于对所述更新后的训练类别样本集中样本再进行训练得到用于预测的新的参数文件;
所述预测模块还用于根据所述新的参数文件对所述原始类别样本集中样本进行预测得到类别样本预测结果,直到类别样本预测结果满足预设迭代条件为止。
上述分类器训练方法和装置,从原始类别样本集中选取样本组成训练类别样本集,对训练类别样本集中样本进行训练得到参数文件,根据参数文件预测原始类别样本集中的样本得到预测结果,并将预测结果错误的样本添加到训练类别样本集中,再根据新的训练类别样本集进行训练得到新的参数文件,根据新的参数文件预测原始类别样本集中的样本得到预测结果,迭代判断直到类别样本的预测结果满足预设迭代条件,使得训练得到的分类器较为准确,从而分类器预测未知类别数据得到较优的准确性。
附图说明
图1为一个实施例中分类器训练方法的流程图;
图2为一个实施例中正负样本分类训练的流程图;
图3为一个实施例中分类器训练装置的结构框图;
图4为一个实施例中正负样本训练过程示意图;
图5为能实现分类器训练方法的计算机系统的模块图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中分类器训练方法的流程图。图1中的分类器训练方法可运行于终端或服务器上,该终端包括但不限于各种智能手机、平板电脑、个人数字助理、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)或MP4(Moving Picture Experts Group Audio5Layer IV,动态影像专家压缩标准音频层面4)播放器、POS终端、车载电脑、膝上型便携计算机和台式计算机等。
如图1所示,该分类器训练方法,包括以下步骤:
步骤102,从原始类别样本集中筛选样本组成训练类别样本集。
具体的,原始类别样本集是通过统计得到的大量的具有类别信息的数据组成的集合。原始类别样本集中每个具有类别信息的数据作为一个样本。该类别信息可通过人工标注方式获得。然后,从原始类别样本集中随机或根据需求筛选一些样本组成训练类别样本集。
步骤104,对该训练类别样本集中样本进行训练,得到用于预测的参数文件。
在一个实施例中,步骤104包括:通过分类算法或回归算法对该训练类别样本集中样本进行训练,得到用于预测的参数文件。
分类算法可为支持向量机分类算法、决策树分类算法、贝叶斯分类算法、人工神经网络分类算法或K-近邻分类算法等。其中,支持向量机分类算法是根据统计学习理论提出的一种学习方法,其最大特点是根据结构风险最小化准则,以最大化分类间隔构造最优分类超平面来提高学习机的泛化能量,较好的解决了非线性、高维数、局部极小点等问题,对于分类问题,支持向量机算法根据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的类别。决策树分类算法是以实例为基础的归纳学习算法,其着眼于从一组无序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别,采用自顶向下的递归方式,在决策树的内部节点进行属性比较,并根据不同属性值判断该节点向下的分支,在决策树的叶节点得到结论。贝叶斯分类算法是一类利用概率统计进行分类的算法,主要是利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。人工神经网络分类算法是指一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型,在该种模型中,大量的节点之间相互联接构成网络,即“神经网络”,以达到处理信息的目的。K-近邻分类算法是一种基于实例的分类算法,该算法就是找出与未知样本s距离最近的k个训练样本,确定这k个样本中多数属于哪一类,就把s归为哪一类。
以LR(Logistic Regression,逻辑回归)分类算法为例,LR模型为:
Figure BDA0000535836550000041
公式(1)中,y表示类别,以二分类为例,正样本类别为1,负样本类别为-1;x表示样本转化的特征向量;w表示x中特征向量对应的参数文件,即训练部分输出的模型文件,wT为w的转置矩阵。对训练类别样本集中样本进行训练是为了获得预测部分需要的参数文件,即w。例如一个样本表示成向量形式x=(0.5,1.0.6),对应训练得到的w=(0.1,0.3,0.5),则根据公式(1)可计算出结果,根据该结果可判断样本类别。w的计算式通过优化目标函数
Figure BDA0000535836550000042
来获得,其中,l为样本数。对w的计算式进行优化的算法有很多,如牛顿法、拟牛顿法、L-BFGS(Limited-memory Broyden-Fletcher-Goldfarb-Shanno)等。
步骤106,根据该参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果。
在一个实施例中,步骤106包括:采用与训练中相同的分类算法或回归算法根据该参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果。
具体的,在步骤104中采用支持向量机分类算法进行训练,则步骤106中采用支持向量机分类算法对原始类别样本集中样本进行预测。
以线性可分二分类为例,线性可分的二分类是指原数据可以用一条直线或一个超平面分开。用一个多维空间中的超平面将数据分隔为两个类可采用最大间隔法。分类平面表示为:(w·x)+b=0,其中,x为多维向量,分类间隔的倒数为:
Figure BDA0000535836550000051
其最优表达为:
Figure BDA0000535836550000052
s.t yi((wxi)+b)≥1,i=1,2,…,l
其中,yi表示类别,l为样本数,xi表示多维向量。这里的约束为:要求各个数据点(xi,yi)到分类平面的距离大于1。在预测的时候,待预测的样本为x,分类平面中w(即参数文件由训练得到),根据分类平面(wx+b)的结果判断待预测样本属于哪一类。
步骤108,根据该类别样本预测结果获取预测结果错误的样本。
具体的,判断类别样本预测结果与预先标注的类别是否相同,若相同,则正常,若不相同,则错误。
步骤110,将预测结果错误的样本添加到该训练类别样本集中,更新该训练类别样本集,对该更新后的训练类别样本集中样本再进行训练得到用于预测的新的参数文件,并根据该新的参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果,直到类别样本预测结果满足预设迭代条件为止。
本实施例中,该将预测结果错误的样本添加到该训练类别样本集中,更新该训练类别样本集的步骤包括:从该预测结果错误的样本中选取预设数量的样本添加到该训练类别样本集中,更新该训练类别样本集。
进一步的,该从该预测结果错误的样本中选取预设数量的样本添加到该训练类别样本集中,更新该训练类别样本集的步骤包括:根据该预设迭代条件从该预测结果错误的样本中选取样本添加到该训练类别样本集中,更新该训练类别样本集。
预设迭代条件可根据场景需要设定。该预设迭代条件可包括准确率大于准确率阈值和/或召回率大于召回率阈值,或者包括准确率和召回率的函数值大于阈值等。
准确率和召回率通过以下示例来定义:假设从一个大规模数据集合中检索文档时,把文档分成四组:A,系统检索到的相关文档;B,系统检索到不相关文档;C,相关但是系统没有检索到的文档;D,不相关且没有被系统检索到的文档。则准确率(Precision)为P=A/(A+B);召回率(Recall)为R=A/(A+C)。
准确率和召回率的函数值可为如
Figure BDA0000535836550000061
P为准确率,R为召回率。
上述分类器训练方法,从原始类别样本集中选取样本组成训练类别样本集,对训练类别样本集中样本进行训练得到参数文件,根据参数文件预测原始类别样本集中的样本得到预测结果,并将预测结果错误的样本添加到训练类别样本集中,再根据新的训练类别样本集进行训练得到新的参数文件,根据新的参数文件预测原始类别样本集中的样本得到预测结果,迭代判断直到类别样本的预测结果满足预设迭代条件,使得训练得到的分类器较为准确,分类器预测未知类别数据得到较优的准确性。
图2为一个实施例中正负样本分类训练的流程图。如图2所示,该原始类别样本集包括原始正样本集和原始负样本集;该分类器训练方法包括:
步骤202,从该原始正样本集中筛选样本组成训练正样本集,从该原始负样本集中筛选样本组成训练负样本集。
具体的,从原始正样本集中取p个样本组成训练正样本集,从原始负样本集中筛选n个样本组成训练负样本集。
步骤204,对该训练正样本集中样本和训练负样本集中样本一起进行训练,得到用于预测的参数文件。
步骤206,根据该参数文件分别对该原始正样本集和原始负样本集中的样本进行预测得到正样本预测结果和负样本预测结果。
步骤208,根据该正样本预测结果获取预测结果错误的正样本,根据该负样本预测结果获取预测结果错误的负样本,将预测结果错误的正样本添加到该训练正样本集中,将预测结果错误的负样本添加到该训练负样本集中,更新该训练正样本集和训练负样本集。
具体的,判断正样本预测结果是否正确,若是,则得到预测结果正确样本,若否,则得到预测结果错误样本。
步骤210,对该更新后的训练正样本集中样本和训练负样本集中样本一起再进行训练得到用于预测的新的参数文件,并根据该新的参数文件对该原始正样本集中样本和原始负样本集中样本分别进行预测得到正样本预测结果和负样本预测结果,直到正样本预测结果和负样本预测结果满足预设迭代条件为止。
在一个实施例中,该将预测结果错误的正样本添加到该训练正样本集中,将预测结果错误的负样本添加到该训练负样本集中,更新该训练正样本集和训练负样本集的步骤包括:将预测结果错误的正样本中取t个样本添加到训练正样本集中,将预测结果错误的负样本中取m个样本添加到训练负样本集中,更新训练正样本集和训练负样本集。其中,t和m可根据需要设置。
进一步的,该预设迭代条件包括预测结果的准确率大于预设准确率阈值;
则该将预测结果错误的正样本添加到该训练正样本集中,将预测结果错误的负样本添加到该训练负样本集中,更新该训练正样本集和训练负样本集的步骤包括:从预测结果错误的正样本中取0个添加到该训练正样本集中,从预测结果错误的负样本中取全部数量或预设部分数量样本添加到该训练负样本集中,更新该训练正样本集和训练负样本集。
具体的,在只要求准确率高,不需关注召回率的情况下,可将t设置为0,m设置为每次预测结果错误样本的全部数量或预测结果错误的样本的预设部分数量,如十分之一,十分之二等等。
此处仅描述了采用二分类算法分成正负样本进行训练的过程,该分类器训练方法不限于二分类算法,也可应用于多分类算法的训练过程中(如三分类算法、四分类算法等),以及监督学习训练的所有算法中,例如回归的训练算法。回归算法进行分类是连续的,分类算法进行分类是离散的。三分类算法则需要获取类别1样本、类别2样本和类别3样本,四分类算法则需要获取类别1样本、类别2样本、类别3样本和类别4样本,其他分类算法样本类别数依次类推。
图3为一个实施例中分类器训练装置的结构框图。如图3所示,该分类器训练装置,包括选取模块310、训练模块320、预测模块330、获取模块340和更新模块350。其中:
选取模块310,用于从原始类别样本集中筛选样本组成训练类别样本集。
训练模块320,用于对该训练类别样本集中样本进行训练,得到用于预测的参数文件。
预测模块330,用于根据该参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果。
获取模块340,用于根据该类别样本预测结果获取预测结果错误的样本。
更新模块350,用于将预测结果错误的样本添加到该训练类别样本集中,更新该训练类别样本集。
该训练模块320还用于对该更新后的训练类别样本集中样本再进行训练得到用于预测的新的参数文件。
该预测模块330还用于根据该新的参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果,直到类别样本预测结果满足预设迭代条件为止。
上述分类器训练装置,从原始类别样本集中选取样本组成训练类别样本集,对训练类别样本集中样本进行训练得到参数文件,根据参数文件预测原始类别样本集中的样本得到预测结果,并将预测结果错误的样本添加到训练类别样本集中,再根据新的训练类别样本集进行训练得到新的参数文件,根据新的参数文件预测原始类别样本集中的样本得到预测结果,迭代判断直到类别样本的预测结果满足预设迭代条件,使得训练得到的分类器较为准确,分类器预测未知类别数据得到较优的准确性,且可根据不同的应用场景设置不同的自迭代条件达到不同的应用需求。
在一个实施例中,该训练模块320还用于通过分类算法或回归算法对该训练类别样本集中样本进行训练,得到用于预测的参数文件;该预测模块330还用于采用与该训练模块中相同的分类算法或回归算法根据该参数文件对该原始类别样本集中样本进行预测得到类别样本预测结果。
具体的,分类算法可为支持向量机分类算法、决策树分类算法、贝叶斯分类算法、人工神经网络分类算法或K-近邻分类算法。
在一个实施例中,该更新模块350还用于从该预测结果错误的样本中选取预设数量的样本添加到该训练类别样本集中,更新该训练类别样本集。预设数量可根据需要设定。
在一个实施例中,该更新模块350还用于根据该预设迭代条件从该预测结果错误的样本中选取样本添加到该训练类别样本集中,更新该训练类别样本集。
具体的,预设迭代条件可根据场景需要设定。该预设迭代条件可包括准确率大于准确率阈值和/或召回率大于召回率阈值,或者包括准确率和召回率的函数值大于阈值等。
在一个实施例中,该原始类别样本集包括原始正样本集和原始负样本集;图4为一个实施例中正负样本训练过程示意图。如图4所示,该选取模块310还用于从该原始正样本集中筛选样本组成训练正样本集,从该原始负样本集中筛选样本组成训练负样本集。
具体的,从原始正样本集中取p个样本组成训练正样本集,从原始负样本集中筛选n个样本组成训练负样本集。
该训练模块320还用于对该训练正样本集中样本和训练负样本集中样本一起进行训练,得到用于预测的参数文件。
该预测模块330还用于根据该参数文件分别对该原始正样本集和原始负样本集中的样本进行预测得到正样本预测结果和负样本预测结果。
该获取模块340还用于根据该正样本预测结果获取预测结果错误的正样本,根据该负样本预测结果获取预测结果错误的负样本。
具体的,判断正样本预测结果是否正确,若是,则得到预测结果正确样本,若否,则得到预测结果错误样本。
该更新模块350还用于将预测结果错误的正样本添加到该训练正样本集中,将预测结果错误的负样本添加到该训练负样本集中,更新该训练正样本集和训练负样本集。
该训练模块320还用于对该更新后的训练正样本集中样本和训练负样本集中样本一起再进行训练得到用于预测的新的参数文件。
该预测模块330还用于根据该新的参数文件对该原始正样本集中样本和原始负样本集中样本分别进行预测得到正样本预测结果和负样本预测结果,直到正样本预测结果和负样本预测结果满足预设迭代条件为止。
在一个实施例中,更新模块350还用于将预测结果错误的正样本中取t个样本添加到训练正样本集中,将预测结果错误的负样本中取m个样本添加到训练负样本集中,更新训练正样本集和训练负样本集。其中,t和m可根据需要设置。
进一步的,该预设迭代条件包括预测结果的准确率大于预设准确率阈值;该更新模块350还用于从预测结果错误的正样本中取0个添加到该训练正样本集中,从预测结果错误的负样本中取全部数量或预设部分数量样本添加到该训练负样本集中,更新该训练正样本集和训练负样本集。
具体的,在只要求准确率高,不需关注召回率的情况下,可将t设置为0,m设置为每次预测结果错误样本的全部数量或预测结果错误的样本的预设部分数量,如十分之一,十分之二等等。
图5为能实现本发明实施例的一个计算机系统1000的模块图。该计算机系统1000只是一个适用于本发明的计算机环境的示例,不能认为是提出了对本发明的使用范围的任何限制。计算机系统1000也不能解释为需要依赖于或具有图示的示例性的计算机系统1000中的一个或多个部件的组合。
图5中示出的计算机系统1000是一个适合用于本发明的计算机系统的例子。具有不同子系统配置的其它架构也可以使用。例如有大众所熟知的台式机、笔记本、个人数字助理、智能电话、平板电脑、便携式媒体播放器、机顶盒等类似设备可以适用于本发明的一些实施例。但不限于以上所列举的设备。
如图5所示,计算机系统1000包括处理器1010、存储器1020和系统总线1022。包括存储器1020和处理器1010在内的各种系统组件连接到系统总线1022上。处理器1010是一个用来通过计算机系统中基本的算术和逻辑运算来执行计算机程序指令的硬件。存储器1020是一个用于临时或永久性存储计算程序或数据(例如,程序状态信息)的物理设备。系统总线1020可以为以下几种类型的总线结构中的任意一种,包括存储器总线或存储控制器、外设总线和局部总线。处理器1010和存储器1020可以通过系统总线1022进行数据通信。其中存储器1020包括只读存储器(ROM)或闪存(图中都未示出),以及随机存取存储器(RAM),RAM通常是指加载了操作系统和应用程序的主存储器。
计算机系统1000还包括显示接口1030(例如,图形处理单元)、显示设备1040(例如,液晶显示器)、音频接口1050(例如,声卡)以及音频设备1060(例如,扬声器)。显示设备1040和音频设备1060是用于体验多媒体内容的媒体设备。
计算机系统1000一般包括一个存储设备1070。存储设备1070可以从多种计算机可读介质中选择,计算机可读介质是指可以通过计算机系统1000访问的任何可利用的介质,包括移动的和固定的两种介质。例如,计算机可读介质包括但不限于,闪速存储器(微型SD卡),CD-ROM,数字通用光盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并可由计算机系统1000访问的任何其它介质。
计算机系统1000还包括输入装置1080和输入接口1090(例如,IO控制器)。用户可以通过输入装置1080,如键盘、鼠标、显示装置1040上的触摸面板设备,输入指令和信息到计算机系统1000中。输入装置1080通常是通过输入接口1090连接到系统总线1022上的,但也可以通过其它接口或总线结构相连接,如通用串行总线(USB)。
计算机系统1000可在网络环境中与一个或者多个网络设备进行逻辑连接。网络设备可以是个人电脑、服务器、路由器、智能电话、平板电脑或者其它公共网络节点。计算机系统1000通过局域网(LAN)接口1100或者移动通信单元1110与网络设备相连接。局域网(LAN)是指在有限区域内,例如家庭、学校、计算机实验室、或者使用网络媒体的办公楼,互联组成的计算机网络。WiFi和双绞线布线以太网是最常用的构建局域网的两种技术。WiFi是一种能使计算机系统1000间交换数据或通过无线电波连接到无线网络的技术。移动通信单元1110能在一个广阔的地理区域内移动的同时通过无线电通信线路接听和拨打电话。除了通话以外,移动通信单元1110也支持在提供移动数据服务的2G,3G或4G蜂窝通信系统中进行互联网访问。
应当指出的是,其它包括比计算机系统1000更多或更少的子系统的计算机系统也能适用于发明。例如,计算机系统1000可以包括能在短距离内交换数据的蓝牙单元,用于照相的图像传感器,以及用于测量加速度的加速计。
如上面详细描述的,适用于本发明的计算机系统1000能执行分类器训练方法的指定操作。计算机系统1000通过处理器1010运行在计算机可读介质中的软件指令的形式来执行这些操作。这些软件指令可以从存储设备1070或者通过局域网接口1100从另一设备读入到存储器1020中。存储在存储器1020中的软件指令使得处理器1010执行上述的分类器训练方法。此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明。因此,实现本发明并不限于任何特定硬件电路和软件的组合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种分类器训练方法,应用于终端,所述方法包括以下步骤:
获取邮件内容作为数据;接收人工标注,获得每个数据的类别信息;统计得到具有类别信息的数据组成的集合作为原始类别样本集;
根据邮件过滤场景的应用需求,预设迭代条件;
从所述原始类别样本集中筛选样本组成训练类别样本集;对所述训练类别样本集中样本进行训练,得到用于预测的参数文件;根据所述参数文件对所述原始类别样本集中样本进行预测,得到类别样本预测结果;
根据所述类别样本预测结果,获取预测结果错误的样本;根据所述迭代条件从预测结果错误的样本中选取样本添加到所述训练类别样本集中,更新所述训练类别样本集,对所述更新后的训练类别样本集中样本再进行训练,得到用于预测的新的参数文件,并根据所述新的参数文件对所述原始类别样本集中样本进行预测,得到所述类别样本预测结果,直到所述类别样本预测结果满足所述迭代条件为止;
根据所述类别样本预测结果,区分正常邮件和垃圾邮件,并将所述垃圾邮件过滤掉。
2.根据权利要求1所述的方法,其特征在于,所述对所述训练类别样本集中样本进行训练,得到用于预测的参数文件的步骤包括:
通过分类算法或回归算法对所述训练类别样本集中样本进行训练,得到用于预测的参数文件;
所述根据所述参数文件对所述原始类别样本集中样本进行预测,得到类别样本预测结果包括:
采用与训练中相同的分类算法或回归算法,根据所述参数文件对所述原始类别样本集中样本进行预测,得到类别样本预测结果。
3.根据权利要求1所述的方法,其特征在于,所述原始类别样本集包括原始正样本集和原始负样本集;所述方法还包括:
从所述原始正样本集中筛选样本组成训练正样本集,从所述原始负样本集中筛选样本组成训练负样本集;
对所述训练正样本集中样本和训练负样本集中样本一起进行训练,得到用于预测的参数文件;
根据所述参数文件分别对所述原始正样本集和原始负样本集中的样本进行预测,得到正样本预测结果和负样本预测结果;
根据所述正样本预测结果获取预测结果错误的正样本,根据所述负样本预测结果获取预测结果错误的负样本,将预测结果错误的正样本添加到所述训练正样本集中,将预测结果错误的负样本添加到所述训练负样本集中,更新所述训练正样本集和训练负样本集;
对所述更新后的训练正样本集中样本和训练负样本集中样本一起再进行训练,得到用于预测的新的参数文件,并根据所述新的参数文件对所述原始正样本集中样本和原始负样本集中样本分别进行预测,得到正样本预测结果和负样本预测结果,直到正样本预测结果和负样本预测结果满足所述迭代条件为止。
4.根据权利要求3所述的方法,其特征在于,所述迭代条件包括预测结果的准确率大于预设准确率阈值;
所述将预测结果错误的正样本添加到所述训练正样本集中,将预测结果错误的负样本添加到所述训练负样本集中,更新所述训练正样本集和训练负样本集的步骤包括:
从预测结果错误的正样本中取0个添加到所述训练正样本集中,从预测结果错误的负样本中取全部数量或预设部分数量样本添加到所述训练负样本集中,更新所述训练正样本集和训练负样本集。
5.一种分类器训练装置,应用于终端,其特征在于,所述装置包括:
选取模块,用于获取邮件内容作为数据;接收人工标注,获得每个数据的类别信息;统计得到具有类别信息的数据组成的集合作为原始类别样本集;从所述原始类别样本集中筛选样本组成训练类别样本集;
训练模块,用于根据邮件过滤场景的应用需求,预设迭代条件;对所述训练类别样本集中样本进行训练,得到用于预测的参数文件;
预测模块,用于根据所述参数文件对所述原始类别样本集中样本进行预测,得到类别样本预测结果;
获取模块,用于根据所述类别样本预测结果获取预测结果错误的样本;
更新模块,用于根据所述迭代条件从预测结果错误的样本中选取样本添加到所述训练类别样本集中,更新所述训练类别样本集;
所述训练模块还用于,对所述更新后的训练类别样本集中样本再进行训练,得到用于预测的新的参数文件;
所述预测模块还用于,根据所述新的参数文件对所述原始类别样本集中样本进行预测,得到所述类别样本预测结果,直到所述类别样本预测结果满足所述迭代条件为止;根据所述类别样本预测结果,区分正常邮件和垃圾邮件,并将所述垃圾邮件过滤掉。
6.根据权利要求5所述的装置,其特征在于,所述训练模块用于,通过分类算法或回归算法对所述训练类别样本集中样本进行训练,得到用于预测的参数文件;采用与所述训练模块中相同的分类算法或回归算法,根据所述参数文件对所述原始类别样本集中样本进行预测,得到类别样本预测结果。
7.根据权利要求5所述的装置,其特征在于,所述原始类别样本集包括原始正样本集和原始负样本集;
所述选取模块还用于,从所述原始正样本集中筛选样本组成训练正样本集,从所述原始负样本集中筛选样本组成训练负样本集;
所述训练模块还用于,对所述训练正样本集中样本和训练负样本集中样本一起进行训练,得到用于预测的参数文件;
所述预测模块还用于,根据所述参数文件分别对所述原始正样本集和原始负样本集中的样本进行预测,得到正样本预测结果和负样本预测结果;
所述获取模块还用于,根据所述正样本预测结果获取预测结果错误的正样本,根据所述负样本预测结果获取预测结果错误的负样本;
所述更新模块还用于,将预测结果错误的正样本添加到所述训练正样本集中,将预测结果错误的负样本添加到所述训练负样本集中,更新所述训练正样本集和训练负样本集;
所述训练模块还用于,对所述更新后的训练正样本集中样本和训练负样本集中样本一起再进行训练,得到用于预测的新的参数文件;
所述预测模块还用于,根据所述新的参数文件对所述原始正样本集中样本和原始负样本集中样本分别进行预测,得到正样本预测结果和负样本预测结果,直到正样本预测结果和负样本预测结果满足预设迭代条件为止。
8.根据权利要求7所述的装置,其特征在于,所述迭代条件包括预测结果的准确率大于预设准确率阈值;
所述更新模块用于,从预测结果错误的正样本中取0个添加到所述训练正样本集中,从预测结果错误的负样本中取全部数量或预设部分数量样本添加到所述训练负样本集中,更新所述训练正样本集和训练负样本集。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。
10.一种终端,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。
CN201410328821.8A 2014-07-10 2014-07-10 分类器训练方法和装置 Active CN105320957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410328821.8A CN105320957B (zh) 2014-07-10 2014-07-10 分类器训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410328821.8A CN105320957B (zh) 2014-07-10 2014-07-10 分类器训练方法和装置

Publications (2)

Publication Number Publication Date
CN105320957A CN105320957A (zh) 2016-02-10
CN105320957B true CN105320957B (zh) 2022-02-15

Family

ID=55248311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410328821.8A Active CN105320957B (zh) 2014-07-10 2014-07-10 分类器训练方法和装置

Country Status (1)

Country Link
CN (1) CN105320957B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107230090B (zh) * 2016-03-23 2021-11-16 中国移动通信集团上海有限公司 一种净推荐值nps分类方法及装置
CN107426147A (zh) * 2016-03-28 2017-12-01 阿里巴巴集团控股有限公司 用于确定应用的反垃圾性能的方法与设备
CN107291737B (zh) * 2016-04-01 2019-05-14 腾讯科技(深圳)有限公司 敏感图像识别方法及装置
CN106022511A (zh) * 2016-05-11 2016-10-12 北京京东尚科信息技术有限公司 信息预测方法和装置
CN105956179B (zh) * 2016-05-30 2020-05-26 上海智臻智能网络科技股份有限公司 数据过滤方法及装置
CN106372658A (zh) * 2016-08-30 2017-02-01 广东工业大学 车辆分类器的训练方法
CN106503617A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 模型训练方法及装置
CN106407958B (zh) * 2016-10-28 2019-12-27 南京理工大学 基于双层级联的面部特征检测方法
CN106548210B (zh) 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置
CN107196844A (zh) * 2016-11-28 2017-09-22 北京神州泰岳信息安全技术有限公司 异常邮件识别方法及装置
IT201700021585A1 (it) * 2017-02-27 2018-08-27 St Microelectronics Srl Procedimento di apprendimento, sistema, dispositivo e prodotto informatico corrispondenti
CN107145966A (zh) * 2017-04-12 2017-09-08 山大地纬软件股份有限公司 基于逻辑回归概率分析优化模型的反窃电分析预警方法
CN109389136A (zh) * 2017-08-08 2019-02-26 上海为森车载传感技术有限公司 分类器训练方法
CN109784351B (zh) * 2017-11-10 2023-03-24 财付通支付科技有限公司 行为数据分类方法、分类模型训练方法及装置
CN108961328A (zh) * 2017-11-29 2018-12-07 北京猎户星空科技有限公司 单摄景深模型生成方法、生成装置及电子设备
CN108304868A (zh) * 2018-01-25 2018-07-20 阿里巴巴集团控股有限公司 模型训练方法、数据类型识别方法和计算机设备
CN108629838B (zh) * 2018-03-20 2022-02-15 北京正齐口腔医疗技术有限公司 三维牙冠网格模型的孔洞修补方法及装置
CN108614858B (zh) * 2018-03-23 2019-07-05 北京达佳互联信息技术有限公司 图像分类模型优化方法、装置及终端
CN109190691A (zh) * 2018-08-20 2019-01-11 小黄狗环保科技有限公司 基于深度神经网络的废弃饮料瓶与易拉罐分类识别的方法
CN109344862B (zh) * 2018-08-21 2023-11-28 中国平安人寿保险股份有限公司 正样本的获取方法、装置、计算机设备和存储介质
KR102662474B1 (ko) * 2018-09-14 2024-04-30 테슬라, 인크. 트레이닝 데이터를 획득하기 위한 시스템 및 방법
CN109543409B (zh) * 2018-11-09 2021-06-08 腾讯科技(深圳)有限公司 用于检测恶意应用及训练检测模型的方法、装置及设备
CN109753580A (zh) * 2018-12-21 2019-05-14 Oppo广东移动通信有限公司 一种图像分类方法、装置、存储介质及电子设备
CN109740018B (zh) * 2019-01-29 2021-03-02 北京字节跳动网络技术有限公司 用于生成视频标签模型的方法和装置
CN111598230A (zh) * 2019-02-21 2020-08-28 北京创新工场旷视国际人工智能技术研究院有限公司 具备防伪功能的神经网络模型的训练方法及系统、防伪验证方法及电子装置
CN109919931B (zh) * 2019-03-08 2020-12-25 数坤(北京)网络科技有限公司 冠脉狭窄度评价模型训练方法及评价系统
CN111651410B (zh) * 2019-03-08 2023-04-18 上海铼锶信息技术有限公司 一种样本数据的动态平衡方法及系统
CN109948727A (zh) * 2019-03-28 2019-06-28 北京周同科技有限公司 图像分类模型的训练及分类方法、计算机设备和存储介质
CN110222706A (zh) * 2019-04-28 2019-09-10 中国科学院计算机网络信息中心 基于特征约简的集成分类方法、装置及存储介质
CN110533057B (zh) * 2019-04-29 2022-08-12 浙江科技学院 一种单样本与少样本场景下的汉字验证码识别方法
CN110516058A (zh) * 2019-08-27 2019-11-29 出门问问(武汉)信息科技有限公司 一种对垃圾分类问题的训练方法及训练装置
CN110580290B (zh) * 2019-09-12 2022-12-13 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN110728313B (zh) * 2019-09-29 2023-01-17 北京声智科技有限公司 一种用于意图分类识别的分类模型训练方法及装置
CN111553880A (zh) * 2020-03-26 2020-08-18 北京中科虹霸科技有限公司 模型生成方法、标签标注方法、虹膜图像质量评价方法及装置
CN112132239B (zh) * 2020-11-24 2021-03-16 北京远鉴信息技术有限公司 一种训练方法、装置、设备和存储介质
CN113746841A (zh) * 2021-09-03 2021-12-03 天津芯海创科技有限公司 一种具备智能学习能力的高安全异构冗余结构

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0588074A2 (en) * 1992-08-18 1994-03-23 Eastman Kodak Company Method and apparatus for character recognition with supervised training
WO2013006215A1 (en) * 2011-07-01 2013-01-10 Nec Corporation Method and apparatus of confidence measure calculation
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN103166830A (zh) * 2011-12-14 2013-06-19 中国电信股份有限公司 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN103489009A (zh) * 2013-09-17 2014-01-01 北方信息控制集团有限公司 基于自适应修正神经网络的模式识别方法
CN103716204A (zh) * 2013-12-20 2014-04-09 中国科学院信息工程研究所 一种基于维纳过程的异常入侵检测集成学习方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0588074A2 (en) * 1992-08-18 1994-03-23 Eastman Kodak Company Method and apparatus for character recognition with supervised training
WO2013006215A1 (en) * 2011-07-01 2013-01-10 Nec Corporation Method and apparatus of confidence measure calculation
CN103166830A (zh) * 2011-12-14 2013-06-19 中国电信股份有限公司 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN103489009A (zh) * 2013-09-17 2014-01-01 北方信息控制集团有限公司 基于自适应修正神经网络的模式识别方法
CN103716204A (zh) * 2013-12-20 2014-04-09 中国科学院信息工程研究所 一种基于维纳过程的异常入侵检测集成学习方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Weighted Multi-source TrAdaBoost;Cheng Yuhu 等;《CHINESE JOURNAL OF ELECTRONICS》;20130731;第505-510页 *
一种改进的少数类样本识别方法;董璇 等;《微型机与应用》;20121231;第60-62+65页 *

Also Published As

Publication number Publication date
CN105320957A (zh) 2016-02-10

Similar Documents

Publication Publication Date Title
CN105320957B (zh) 分类器训练方法和装置
Sarker Machine learning: Algorithms, real-world applications and research directions
US11138376B2 (en) Techniques for information ranking and retrieval
WO2020155627A1 (zh) 人脸图像识别方法、装置、电子设备及存储介质
CN109948641B (zh) 异常群体识别方法及装置
CN109241412B (zh) 一种基于网络表示学习的推荐方法、系统及电子设备
JP6484730B2 (ja) 時間因子を融合させる協調フィルタリング方法、装置、サーバおよび記憶媒体
CN108108743B (zh) 异常用户识别方法和用于识别异常用户的装置
CN110909222B (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
EP3620982B1 (en) Sample processing method and device
US10162879B2 (en) Label filters for large scale multi-label classification
CN108629358B (zh) 对象类别的预测方法及装置
CN112241789A (zh) 用于轻量化神经网络的结构化剪枝方法、装置、介质及设备
US10810458B2 (en) Incremental automatic update of ranked neighbor lists based on k-th nearest neighbors
CN111898675A (zh) 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
EP4343616A1 (en) Image classification method, model training method, device, storage medium, and computer program
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN105357583A (zh) 一种发现智能电视用户兴趣偏好的方法和装置
La et al. Transfer learning with reasonable boosting strategy
WO2023051085A1 (zh) 对象识别方法、装置、设备、存储介质和程序产品
Shilin User model-based personalized recommendation algorithm for news media education resources
CN116957678A (zh) 一种数据处理方法和相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant