CN111340057B - 一种分类模型训练的方法及装置 - Google Patents

一种分类模型训练的方法及装置 Download PDF

Info

Publication number
CN111340057B
CN111340057B CN201811555697.3A CN201811555697A CN111340057B CN 111340057 B CN111340057 B CN 111340057B CN 201811555697 A CN201811555697 A CN 201811555697A CN 111340057 B CN111340057 B CN 111340057B
Authority
CN
China
Prior art keywords
feature
classification
sample
text sample
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811555697.3A
Other languages
English (en)
Other versions
CN111340057A (zh
Inventor
李国琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201811555697.3A priority Critical patent/CN111340057B/zh
Publication of CN111340057A publication Critical patent/CN111340057A/zh
Application granted granted Critical
Publication of CN111340057B publication Critical patent/CN111340057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种分类模型训练的方法及装置,其中所述方法包括:计算各个样本特征在N个不同分类类别中的先验概率,其中,N大于1;针对每一样本特征,依据该样本特征在N个不同分类类别中的先验概率确定该样本特征的分类系数;将各个样本特征的分类系数组成分类系数矩阵,依据所述分类系数矩阵与样本特征矩阵确定待训练样本特征,所述样本特征矩阵由所述样本特征组成;采用梯度提升决策树GBDT算法对所述待训练样本特征进行训练得到分类模型。本申请可以实现对样本特征的转化,为训练分类模型时的迭代提供新的特征,有助于特征工程的建设,从而提升了分类模型的分类效果。

Description

一种分类模型训练的方法及装置
技术领域
本申请涉及机器学习技术领域,尤其涉及一种分类模型训练的方法及装置。
背景技术
监督学习(Supervised learning),是机器学习中的方法,可以由训练资料中学到或建立一个模式(learning model),并依此模式推测新的实例。其中,监督学习的方法可以分为生成方法(也称生成学习算法,generative learning algorithm)和判别方法(也称判别学习方法,discriminative learning algorithm),所学到的模型分别称为生成模型(Generative Model)和判别模型(Discriminative Model)。
在生成方法中,由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)=P(X,Y)/P(X)。基本思想是首先建立样本的联合概率密度模型P(X,Y),然后得到后验概率P(Y|X),再利用后验概率进行分类。
在判别方法中,由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。
在监督学习中,上述两种方法各有优缺点,适合于不同条件的学习问题。
生成方法的特点:生成方法学习联合概率密度分布P(X,Y),所以就可以从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。但它不关心划分各类的分类边界在哪。生成方法可以还原出联合概率分布P(Y|X),而判别方法不能。生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快的收敛于真实模型,当存在隐变量时,仍可以用生成方法学习。此时判别方法就不能用。
判别方法的特点:判别方法直接学习的是决策函数Y=f(X)或者条件概率分布P(Y|X),不能反映训练数据本身的特性。但它寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。直接面对预测,往往学习的准确率更高。由于直接学习P(Y|X)或P(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
发明内容
有鉴于此,本申请提供一种分类模型训练的方法及装置。
具体地,本申请是通过如下技术方案实现的:
第一方面,本申请提供了一种分类模型训练的方法,所述方法包括:
计算各个样本特征在N个不同分类类别中的先验概率,其中,N大于1;
针对每一样本特征,依据该样本特征在N个不同分类类别中的先验概率确定该样本特征的分类系数;
将各个样本特征的分类系数组成分类系数矩阵,依据所述分类系数矩阵与样本特征矩阵确定待训练样本特征,所述样本特征矩阵由所述样本特征组成;
采用梯度提升决策树GBDT算法对所述待训练样本特征进行训练得到分类模型。
优选地,所述N为2;
所述依据该样本特征在N个不同分类类别中的先验概率确定该样本特征的分类系数,包括:
计算该样本特征在两个分类类别中的先验概率的比值;
将所述比值的对数作为该样本特征的分类系数。
优选地,所述N大于2;
所述依据该样本特征在N个不同分类类别中的先验概率确定该样本特征的分类系数,包括:
从该样本特征在N个不同分类类别中的先验概率中,选取取值最大的先验概率;
将选取的先验概率作为该样本特征的分类系数。
优选地,所述计算各个样本特征在N个不同分类类别中的先验概率,包括:
对各个样本特征进行离散化处理获得多个特征簇,其中,每个特征簇包括多个样本特征;
针对每一特征簇,采用朴素贝叶斯算法对该特征簇中包含的各个样本特征的特征值进行累计得到特征总值,基于所述特征总值计算该特征簇分别在N个分类类别中的先验概率,将该特征簇在N个分类类别中的先验概率确定为该特征簇中各个样本特征在N个分类类别中的先验概率。
优选地,所述依据所述分类系数矩阵与样本特征矩阵确定待训练样本特征,包括:
将所述分类系数矩阵与样本特征矩阵进行点乘运算得到所述待训练样本特征。
第二方面,本申请提供了一种分类模型训练装置,所述装置包括:
先验概率计算模块,用于计算各个样本特征在N个不同分类类别中的先验概率,其中,N大于1;
分类系数确定模块,用于针对每一样本特征,依据该样本特征在N个不同分类类别中的先验概率确定该样本特征的分类系数;
待训练样本特征确定模块,用于将各个样本特征的分类系数组成分类系数矩阵,依据所述分类系数矩阵与样本特征矩阵确定待训练样本特征,所述样本特征矩阵由所述样本特征组成;
分类模块训练模块,用于采用梯度提升决策树GBDT算法对所述待训练样本特征进行训练得到分类模型。
优选地,所述N为2;所述分类系数确定模块具体用于:
计算该样本特征在两个分类类别中的先验概率的比值;
将所述比值的对数作为该样本特征的分类系数。
优选地,所述N大于2;所述分类系数确定模块具体用于:
从该样本特征在N个不同分类类别中的先验概率中,选取取值最大的先验概率;
将选取的先验概率作为该样本特征的分类系数。
优选地,所述先验概率计算模块包括:
离散化处理子模块,用于对各个样本特征进行离散化处理获得多个特征簇,其中,每个特征簇包括多个样本特征;
先验概率计算子模块,用于针对每一特征簇,采用朴素贝叶斯算法对该特征簇中包含的各个样本特征的特征值进行累计得到特征总值,基于所述特征总值计算该特征簇分别在N个分类类别中的先验概率,将该特征簇在N个分类类别中的先验概率确定为该特征簇中各个样本特征在N个分类类别中的先验概率。
优选地,所述待训练样本特征确定模块具体用于:
将所述分类系数矩阵与样本特征矩阵进行点乘运算得到所述待训练样本特征。
本申请实施例提供的技术方案可以包括以下有益效果:
本申请首先通过朴素贝叶斯算法计算样本特征在N(N大于1)个不同分类类别中的先验概率,然后针对每一样本特征,依据该样本特征在N个不同分类类别中的先验概率确定该样本特征的分类系数,并依据各个样本特征的分类系数组成的分类系数矩阵与所有样本特征组成的样本特征矩阵确定待训练样本特征,从而实现了对样本特征的转化,可以为后续训练分类模型时的迭代提供新的特征,有助于特征工程的建设,最后采用GBDT算法对待训练样本特征进行训练得到分类模型,提升了分类模型的分类效果,能适用于多种场景的分类问题。
附图说明
图1是本申请一示例性实施例示出的一种分类模型训练的方法实施例的步骤流程图;
图2是本申请的装置所在设备的一种硬件结构图;
图3本申请一示例性实施例示出的一种分类模型训练装置实施例的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的―一种”、―所述”和―该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语―和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语―如果”可以被解释成为―在……时”或―当……时”或―响应于确定”。
参考图1,示出了本申请一示例性实施例示出的一种分类模型训练的方法实施例的步骤流程图,该分类模型可以适用于文本挖掘等数据挖掘场景中的分类问题。具体可以包括如下步骤:
步骤101,计算各个样本特征在N个不同分类类别中的先验概率;
其中,N大于1,例如,N>=2。
在具体实现中,样本特征从训练样本中提取,其中,训练样本可以根据业务需求设定,此处不作限制,例如,训练样本可以包括文本样本、图像样本等。
针对图像样本,可以将其输入已训练的神经网络模型,以由该神经网络模型提取图像样本中的特征,作为样本特征。
针对文本样本,可以首先对文本样本进行标点符号、停用词等清洗,接着对文本进行分词处理,得到多个字词组合,接着可以采用TF-IDF(Term Frequency–InverseDocument Frequency,词频-逆文本频率指数)算法对字词组合进行特征提取,并可以对提取后的特征进行降维处理,得到样本特征。
从训练样本中抽取出样本特征以后,可以采用朴素贝叶斯算法对样本特征进行处理,以获得各个样本特征分别在N个不同分类类别中的先验概率。其中,朴素贝叶斯算法是一种机器学习算法,是基于贝叶斯定理与特征条件独立假设的分类方法,属于生成模型。
在一种实施方式中,朴素贝叶斯算法可以采用公式(1)计算先验概率:
Pr=P(X,Y)/P(Y) (1)
而P(X,Y)=P(X)P(Y);
其中,Pr为先验概率,X为样本特征对应的特征值,Y为分类类别,针对每个分类类别,都有一对应的Pr。
在本申请实施例的一种优选实施例中,步骤101进一步可以包括如下子步骤:
子步骤S11,对各个样本特征进行离散化处理获得多个特征簇,其中,每个特征簇包括多个样本特征;
本申请实施例对离散化算法不作限制,例如,其中一种离散化算法为基于聚类分析的离散化算法。此种方法包含两个步骤,首先是将某样本特征的值用聚类算法(如K-means算法)通过考虑特征值的分布以及数据点的邻近性,划分成簇或者组。然后将聚类得到的簇进行再处理,可分为自顶向下的分裂策略和自底向上的合并策略。分裂策略是将每一个初始簇进一步分裂为若干子簇,合并策略则是通过反复地对邻近簇进行合并。聚类分析的离散化方法需要用户指定簇的个数,从而决定离散产生的区间数。
在本实施例中,对样本特征进行离散化处理后可以得到多个特征簇,其中每个特征簇中可以包含多个相似的样本特征。
子步骤S12,针对每一特征簇,采用朴素贝叶斯算法对该特征簇中包含的各个样本特征的特征值进行累计得到特征总值,基于所述特征总值计算该特征簇分别在N个分类类别中的先验概率,将该特征簇在N个分类类别中的先验概率确定为该特征簇中各个样本特征在N个分类类别中的先验概率。
本实施例可以以一个特征簇作为一个特征单位,采用公式(1)计算该特征簇分别在N个不同的分类类别中的先验概率,则在公式(1)中,X为特征簇对应的特征总值。
在一种实施方式中,本实施例关于计算特征簇对应的特征总值的方式如下:对特征簇中包含的多个样本特征的特征值进行累计,得到特征总值,将该特征总值输入公式(1)中从而得到该特征簇在某个分类类别中的先验概率。
当得到每个特征簇在N个分类类别中的先验概率以后,可以将该特征簇在N个分类类别中的先验概率作为该特征簇中各个样本特征在N个分类类别中的先验概率。
步骤102,针对每一样本特征,依据该样本特征在N个不同分类类别中的先验概率确定该样本特征的分类系数;
当得到每个样本特征分别在N个不同分类类别中的先验概率以后,则可以基于该样本特征分别在N个不同分类类别中的先验概率确定该样本特征的分类系数。
在一种实施方式中,当N为2时,则本实施例属于二分类的场景,每个样本特征对应的分类系数为二分类系数。则每个样本特征的二分类系数的确定方式如下:
计算该样本特征在两个分类类别中的先验概率的比值;将所述比值的对数作为该样本特征的分类系数。
即,每个样本特征的二分类系数q的计算公式如公式(2)所示:
q=log(Pr(1,y)/Pr(0,y)) (2)
其中,Pr(1,y)是样本特征在第一个分类类别中的先验概率,Pr(0,y)是样本特征在第二个分类类别中的先验概率。
需要说明的是,当样本特征的数量较大时,为了提高算法效率,则可以计算每个特征簇的二分类系数,即,在上述公式(2)中,Pr(1,y)是特征簇在第一个分类类别中的先验概率,Pr(0,y)是特征簇在第二个分类类别中的先验概率,最终得到特征簇的二分类系数以后,则该二分类系数可以作为该特征簇中每个样本特征的二分类系数。
在另一种实施方式中,当N大于2时,则本实施例属于多分类的场景,每个样本特征对应的分类系数为多分类系数。则每个样本特征的多分类系数的确定方式如下:
从该样本特征在N个不同分类类别中的先验概率中,选取取值最大的先验概率;将选取的先验概率作为该样本特征的分类系数。
即,每个样本特征的多分类系数q的计算公式如公式(3)所示:
q=max(Pr(J,y)) (3)
其中,0≤J≤K-1,K为分类类别,Pr(J,y))为样本特征在某个分类类别中的先验概率。
需要说明的是,为了提高算法效率,本实施例优选计算每个特征簇的多分类系数,即在上述公式(3)中,Pr(J,y))为特征簇在某个分类类别中的先验概率,得到特征簇的多分类系数以后,则该多分类系数可以作为该特征簇中每个样本特征的多分类系数。
步骤103,将各个样本特征的分类系数组成分类系数矩阵,依据所述分类系数矩阵与样本特征矩阵确定待训练样本特征,所述样本特征矩阵由所述样本特征组成;
获得每个样本特征对应的分类系数以后,可以将该分类系数作为该样本特征的权重,对样本特征的特征值进行加权运算,作为待训练样本特征。
在一种实施方式中,可以组织所有的样本特征的分类系数形成分类系数矩阵Qi,j,然后将所有样本特征形成的样本特征矩阵Xi,j与分类系数矩阵Qi,j进行点乘运算,可以得到待训练样本特征,即:
Xi,j=Qi,j*Xi,j
步骤104,采用梯度提升决策树GBDT算法对所述待训练样本特征进行训练得到分类模型。
得到待训练样本特征以后,可以采用GBDT(Gradient Boosting Decison Tree,梯度提升决策树)算法对待训练样本特征进行训练,得到分类模型。
其中,GBDT是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。GBDT算法在对新样本特征矩阵进行训练时会进行多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。模型最终可以描述为:
模型一共训练M轮,每轮产生一个弱分类器T(x;θm)。弱分类器的损失函数为:
其中,Fm-1(x)为当前的模型,GBDT通过经验风险极小化来确定下一个弱分类器的参数。具体到损失函数本身的选择也就是L的选择,有平方损失函数、0-1损失函数、对数损失函数等等。
本申请实施例的分类模型由朴素贝叶斯算法以及GBDT算法结合生成,融合了两种算法的思路,将两种算法的优势进行整合,首先通过朴素贝叶斯算法计算样本特征在N(N大于1)个不同分类类别中的先验概率,然后针对每一样本特征,依据该样本特征在N个不同分类类别中的先验概率确定该样本特征的分类系数,并依据各个样本特征的分类系数组成的分类系数矩阵与所有样本特征组成的样本特征矩阵确定待训练样本特征,从而实现了对样本特征的转化,可以为后续训练分类模型时的迭代提供新的特征,有助于特征工程的建设,最后采用GBDT算法对待训练样本特征进行训练得到分类模型,提升了分类模型的分类效果,能适用于多种场景的分类问题。
与前述方法的实施例相对应,本申请还提供了分类模型训练装置的实施例。
本申请的装置实施例可以应用在电子设备中。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本申请的装置所在设备的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常根据该装置的实际功能,还可以包括其他硬件,对此不再赘述。
请参考图3,示出了本申请一示例性实施例示出的一种分类模型训练装置实施例的结构框图,具体可以包括如下模块:
先验概率计算模块301,用于计算各个样本特征在N个不同分类类别中的先验概率,其中,N大于1;
分类系数确定模块302,用于针对每一样本特征,依据该样本特征在N个不同分类类别中的先验概率确定该样本特征的分类系数;
待训练样本特征确定模块303,用于将各个样本特征的分类系数组成分类系数矩阵,依据所述分类系数矩阵与样本特征矩阵确定待训练样本特征,所述样本特征矩阵由所述样本特征组成;
分类模块训练模块304,用于采用梯度提升决策树GBDT算法对所述待训练样本特征进行训练得到分类模型。
在本申请实施例的一种优选实施例中,所述N为2;所述分类系数确定模块302具体用于:
计算该样本特征在两个分类类别中的先验概率的比值;
将所述比值的对数作为该样本特征的分类系数。
在本申请实施例的一种优选实施例中,所述N大于2;所述分类系数确定模块302具体用于:
从该样本特征在N个不同分类类别中的先验概率中,选取取值最大的先验概率;
将选取的先验概率作为该样本特征的分类系数。
在本申请实施例的一种优选实施例中,所述先验概率计算模块301包括:
离散化处理子模块,用于对各个样本特征进行离散化处理获得多个特征簇,其中,每个特征簇包括多个样本特征;
先验概率计算子模块,用于针对每一特征簇,采用朴素贝叶斯算法对该特征簇中包含的各个样本特征的特征值进行累计得到特征总值,基于所述特征总值计算该特征簇分别在N个分类类别中的先验概率,将该特征簇在N个分类类别中的先验概率确定为该特征簇中各个样本特征在N个分类类别中的先验概率。
在本申请实施例的一种优选实施例中,所述待训练样本特征确定模块303具体用于:
将所述分类系数矩阵与样本特征矩阵进行点乘运算得到所述待训练样本特征。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法实施例的步骤。
本申请实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法实施例的步骤。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如车载终端、移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种分类模型训练的方法,其特征在于,应用于电子设备,所述分类模型用于文本挖掘分类,所述方法包括:
计算各个文本样本特征在N个不同分类类别中的先验概率,其中,N大于1;所述文本样本特征的获取方式包括:针对文本样本进行分词处理,得到多个字词组合,对得到的字词组合进行特征提取,得到文本样本特征;
针对每一文本样本特征,依据该文本样本特征在N个不同分类类别中的先验概率确定该文本样本特征的分类系数;
将各个文本样本特征的分类系数组成分类系数矩阵,依据所述分类系数矩阵与样本特征矩阵确定待训练文本样本特征,所述样本特征矩阵由所述文本样本特征组成;
采用梯度提升决策树GBDT算法对所述待训练文本样本特征进行训练得到分类模型。
2.根据权利要求1所述的方法,其特征在于,所述N为2;
所述依据该文本样本特征在N个不同分类类别中的先验概率确定该文本样本特征的分类系数,包括:
计算该文本样本特征在两个分类类别中的先验概率的比值;
将所述比值的对数作为该文本样本特征的分类系数。
3.根据权利要求1所述的方法,其特征在于,所述N大于2;
所述依据该文本样本特征在N个不同分类类别中的先验概率确定该文本样本特征的分类系数,包括:
从该文本样本特征在N个不同分类类别中的先验概率中,选取取值最大的先验概率;
将选取的先验概率作为该文本样本特征的分类系数。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述计算各个文本样本特征在N个不同分类类别中的先验概率,包括:
对各个文本样本特征进行离散化处理获得多个特征簇,其中,每个特征簇包括多个文本样本特征;
针对每一特征簇,采用朴素贝叶斯算法对该特征簇中包含的各个文本样本特征的特征值进行累计得到特征总值,基于所述特征总值计算该特征簇分别在N个分类类别中的先验概率,将该特征簇在N个分类类别中的先验概率确定为该特征簇中各个文本样本特征在N个分类类别中的先验概率。
5.根据权利要求1所述的方法,其特征在于,所述依据所述分类系数矩阵与样本特征矩阵确定待训练文本样本特征,包括:
将所述分类系数矩阵与样本特征矩阵进行点乘运算得到所述待训练文本样本特征。
6.一种分类模型训练装置,其特征在于,应用于电子设备,所述分类模型用于文本挖掘分类,所述装置包括:
先验概率计算模块,用于计算各个文本样本特征在N个不同分类类别中的先验概率,其中,N大于1;所述文本样本特征的获取方式包括:针对文本样本进行分词处理,得到多个字词组合,对得到的字词组合进行特征提取,得到文本样本特征;
分类系数确定模块,用于针对每一文本样本特征,依据该文本样本特征在N个不同分类类别中的先验概率确定该文本样本特征的分类系数;
待训练样本特征确定模块,用于将各个文本样本特征的分类系数组成分类系数矩阵,依据所述分类系数矩阵与样本特征矩阵确定待训练文本样本特征,所述样本特征矩阵由所述文本样本特征组成;
分类模块训练模块,用于采用梯度提升决策树GBDT算法对所述待训练文本样本特征进行训练得到分类模型。
7.根据权利要求6所述的装置,其特征在于,所述N为2;所述分类系数确定模块具体用于:
计算该文本样本特征在两个分类类别中的先验概率的比值;
将所述比值的对数作为该文本样本特征的分类系数。
8.根据权利要求6所述的装置,其特征在于,所述N大于2;所述分类系数确定模块具体用于:
从该文本样本特征在N个不同分类类别中的先验概率中,选取取值最大的先验概率;
将选取的先验概率作为该文本样本特征的分类系数。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述先验概率计算模块包括:
离散化处理子模块,用于对各个文本样本特征进行离散化处理获得多个特征簇,其中,每个特征簇包括多个文本样本特征;
先验概率计算子模块,用于针对每一特征簇,采用朴素贝叶斯算法对该特征簇中包含的各个文本样本特征的特征值进行累计得到特征总值,基于所述特征总值计算该特征簇分别在N个分类类别中的先验概率,将该特征簇在N个分类类别中的先验概率确定为该特征簇中各个文本样本特征在N个分类类别中的先验概率。
10.根据权利要求6所述的装置,其特征在于,所述待训练样本特征确定模块具体用于:
将所述分类系数矩阵与样本特征矩阵进行点乘运算得到所述待训练文本样本特征。
CN201811555697.3A 2018-12-19 2018-12-19 一种分类模型训练的方法及装置 Active CN111340057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811555697.3A CN111340057B (zh) 2018-12-19 2018-12-19 一种分类模型训练的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811555697.3A CN111340057B (zh) 2018-12-19 2018-12-19 一种分类模型训练的方法及装置

Publications (2)

Publication Number Publication Date
CN111340057A CN111340057A (zh) 2020-06-26
CN111340057B true CN111340057B (zh) 2023-07-25

Family

ID=71185042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811555697.3A Active CN111340057B (zh) 2018-12-19 2018-12-19 一种分类模型训练的方法及装置

Country Status (1)

Country Link
CN (1) CN111340057B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949438B (zh) * 2021-02-19 2022-09-30 武汉工程大学 一种基于贝叶斯网络的水果视觉分类方法及系统
CN112906242B (zh) * 2021-03-18 2023-02-28 吉林大学 一种基于朴素贝叶斯法与邻近分类法相结合的地球物理建模方法
CN114091624B (zh) * 2022-01-18 2022-04-26 蓝象智联(杭州)科技有限公司 一种无第三方的联邦梯度提升决策树模型训练方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961955B1 (en) * 2008-01-28 2011-06-14 Thomas Cecil Minter Adaptive bayes feature extraction
CN104572930A (zh) * 2014-12-29 2015-04-29 小米科技有限责任公司 数据分类方法及装置
CN104616029A (zh) * 2014-12-29 2015-05-13 小米科技有限责任公司 数据分类方法及装置
CN106294466A (zh) * 2015-06-02 2017-01-04 富士通株式会社 分类模型构建方法、分类模型构建设备和分类方法
CN107766875A (zh) * 2017-09-14 2018-03-06 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN107784293A (zh) * 2017-11-13 2018-03-09 中国矿业大学(北京) 一种基于全局特征和稀疏表示分类的人体行为识别方法
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8046317B2 (en) * 2007-12-31 2011-10-25 Yahoo! Inc. System and method of feature selection for text classification using subspace sampling
US8650136B2 (en) * 2011-02-24 2014-02-11 Ketera Technologies, Inc. Text classification with confidence grading
US10528907B2 (en) * 2012-12-19 2020-01-07 Oath Inc. Automated categorization of products in a merchant catalog

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961955B1 (en) * 2008-01-28 2011-06-14 Thomas Cecil Minter Adaptive bayes feature extraction
CN104572930A (zh) * 2014-12-29 2015-04-29 小米科技有限责任公司 数据分类方法及装置
CN104616029A (zh) * 2014-12-29 2015-05-13 小米科技有限责任公司 数据分类方法及装置
CN106294466A (zh) * 2015-06-02 2017-01-04 富士通株式会社 分类模型构建方法、分类模型构建设备和分类方法
CN107766875A (zh) * 2017-09-14 2018-03-06 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN107784293A (zh) * 2017-11-13 2018-03-09 中国矿业大学(北京) 一种基于全局特征和稀疏表示分类的人体行为识别方法
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于自助平均的朴素贝叶斯文本分类器;白莉媛;黄晖;刘素华;阎秋玲;;计算机工程(第15期);全文 *
模型决策树:一种决策树加速算法;尹儒;门昌骞;王文剑;刘澍泽;;模式识别与人工智能(第07期);全文 *
网络留言分类中贝叶斯复合算法的应用研究;马小龙;;佛山科学技术学院学报(自然科学版)(第02期);全文 *

Also Published As

Publication number Publication date
CN111340057A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111126488B (zh) 一种基于双重注意力的图像识别方法
CN108304936B (zh) 机器学习模型训练方法和装置、表情图像分类方法和装置
US10565496B2 (en) Distance metric learning with N-pair loss
WO2020063715A1 (en) Method and system for training binary quantized weight and activation function for deep neural networks
CN109598231B (zh) 一种视频水印的识别方法、装置、设备及存储介质
US10013637B2 (en) Optimizing multi-class image classification using patch features
JP5373536B2 (ja) 複数の画像モデルの混合としての画像のモデリング
CN106415594B (zh) 用于面部验证的方法和系统
CN111523621A (zh) 图像识别方法、装置、计算机设备和存储介质
CN111340057B (zh) 一种分类模型训练的方法及装置
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN112384938A (zh) 基于接收方的电子消息的文本预测
WO2022174805A1 (zh) 模型训练与图像处理方法、装置、电子设备和存储介质
Chen et al. Discriminative BoW framework for mobile landmark recognition
WO2023088174A1 (zh) 目标检测方法及装置
CN112446888A (zh) 图像分割模型的处理方法和处理装置
Al Zorgani et al. Comparative study of image classification using machine learning algorithms
Chen et al. Sample balancing for deep learning-based visual recognition
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
US20220233963A1 (en) Computer Program For Performing Drawing-Based Security Authentication
CN114741549A (zh) 基于lire的图像查重方法、装置、计算机设备和存储介质
CN112183336A (zh) 表情识别模型训练方法、装置、终端设备及存储介质
Jing et al. Ensemble of machine learning algorithms for cognitive and physical speaker load detection
CN115049889A (zh) 存储介质和推理方法
CN112906724A (zh) 一种图像处理装置、方法、介质及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant