CN103473231A - 分类器构建方法和系统 - Google Patents

分类器构建方法和系统 Download PDF

Info

Publication number
CN103473231A
CN103473231A CN2012101847139A CN201210184713A CN103473231A CN 103473231 A CN103473231 A CN 103473231A CN 2012101847139 A CN2012101847139 A CN 2012101847139A CN 201210184713 A CN201210184713 A CN 201210184713A CN 103473231 A CN103473231 A CN 103473231A
Authority
CN
China
Prior art keywords
attribute
sorter
weighted value
random forest
subspace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101847139A
Other languages
English (en)
Inventor
黄哲学
扎拉玛
李俊杰
陈小军
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN2012101847139A priority Critical patent/CN103473231A/zh
Publication of CN103473231A publication Critical patent/CN103473231A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明设计一种分类器构建方法和系统。该构建方法包括以下步骤:从数据集中抽取N个样本集;将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数;根据权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M;采用划分函数从属性子空间的m个属性中选择最佳属性,根据最佳属性对根节点进行划分,产生子节点;对每个样本集递归重复节点划分直至生成单个随机森林分类器;根据N个单个随机森林分类器构建整体随机森林分类器。上述分类器构建方法和系统,采取对求取属性的权重值,根据其权重值进行加权抽样,构建的单个随机森林分类器的精度较高,从而提高了整体随机森林分类器的精度。

Description

分类器构建方法和系统
技术领域
本发明涉及数据处理领域,特别是涉及一种分类器构建方法和系统。
背景技术
数据种类很多,如文本数据、视频数据、图像数据等,可采用随机森林分类模型对文本数据或视频数据或图像数据进行分类。随机森林分类模型是由一组决策树分类模型组成,对于一些数据分类问题,单一个体决策树分类模型无法满足分类的精度要求,而利用同一训练数据建立多个决策树,以多个个体决策树的分类结果确定最终分类结果的分类技术,可显著提高数据的分类精度,从而满足应用需求。
传统的随机森林分类模型构建时,从给定的一个训练数据中,采用有放回的随机抽样方法抽取建立K棵决策树的K个样本集,每个样本集的样本数与训练数据的样本数相同,但训练数据的同一样本可在单个样本集中重复出现。然后再用K个样本集构建K个决策树分类模型。该随机森林分类模型对维数不高的数据(如属性个数小于100)分类效果较好,对超高维的复杂数据,如几百个属性或千个以上属性的数据,构建的分类模型精度较低,无法满足应用需求。
发明内容
基于此,有必要提供一种能提高分类精度和降低误差的分类器构建方法。
一种分类器构建方法,包括以下步骤:
从数据集中抽取N个样本集;
将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数;
根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M;
采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据所述最佳属性对根节点进行划分,产生子节点;
对每个样本集递归重复节点划分直至生成单个随机森林分类器;
根据N个单个随机森林分类器构建整体随机森林分类器。
在其中一个实施例中,所述求取每个根节点的属性空间中的M个属性的权重值的步骤具体为:
求取每个节点的属性空间中的每个属性与类别属性的相关性,将所述每个属性与类别属性的相关性作为所述每个属性的权重值。
在其中一个实施例中,还包括步骤:通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。
在其中一个实施例中,根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间的步骤具体为:
将每个属性的权重值求平方根,将每个平方根与M个属性的权重值的平方根和的比值,作为每个属性被抽取的概率;
根据所述每个属性的被抽取的概率从M个属性中抽取m个属性,构成属性子空间。
在其中一个实施例中,所述采用划分函数从属性子空间的m个属性中选择最佳属性的步骤具体为:
采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性,将所述信息增益率最大的属性作为最佳属性。
此外,还有必要提供一种能提高精度和降低误差的分类器构建系统。
一种分类器构建系统,包括:
样本抽取模块,用于从数据集中抽取N个样本集;
权重求取模块,用于将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数;
属性抽取模块,用于根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M;
划分模块,用于采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据所述最佳属性对根节点进行划分,产生子节点;
递归模块,用于对每个样本集递归重复节点划分直至生成单个随机森林分类器;
构建模块,用于根据N个单个随机森林分类器构建整体随机森林分类器。
在其中一个实施例中,所述权重求取模块还用于求取每个节点的属性空间中的每个属性与类别属性的相关性,将所述每个属性与类别属性的相关性作为所述每个属性的权重值。
在其中一个实施例中,所述权值求取模块还用于通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。
在其中一个实施例中,所述属性抽取模块包括:
概率计算单元,用于将每个属性的权重值求平方根,将每个平方根与M个属性的权重值的平方根和的比值,作为每个属性被抽取的概率;
抽取单元,用于从M个属性中根据所述每个属性的被抽取的概率抽取m个属性,构成属性子空间。
在其中一个实施例中,所述划分模块还用于采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性,将所述信息增益率最大的属性作为最佳属性。
上述分类器构建方法和系统,采取对求取属性的权重值,根据其权重值进行加权抽样,如此获取的最佳属性较为准确,构建的单个随机森林分类器的精度较高,从而提高了整体随机森林分类器的精度。
另外,通过求取属性与类别属性的相关性,将其相关性作为属性的权重值,权重值越大被抽取的概率越大,这样对类别属性影响力大的属性被抽中的概率提高,从而提高了整体随机森林分类器的精度。
附图说明
图1为一个实施例中分类器构建方法的流程示意图;
图2为一个实施例中根据权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间的具体流程示意图图;
图3为分类器构建方法应用于文本信息的具体流程示意图;
图4为一个实施例中分类器构建系统的内部结构示意图;
图5为另一个实施例中分类器构建系统的内部结构示意图。
具体实施方式
下面结合具体的实施例及附图对分类器构建方法和系统的技术方案进行详细的描述,以使其更加清楚。
如图1所示,在一个实施例中,一种分类器构建方法,包括以下步骤:
步骤S110,从数据集中抽取N个样本集。
具体的,数据集可通过对互联网信息进行筛选后形成,例如通过网络爬虫从网站特定新闻版面、主流媒体、论坛、博客、社交网络、微博等信息源筛选得到文本信息,再将文本信息与预先建立的词库比较,将文本信息按关键词定义量化抽取成结构化数据,即得到数据集。数据集也可为视频数据、音频数据、图像数据等。
对数据集采用有放回的随机抽样方法(即装袋bagging方法)抽取N个样本集,每个样本集记录有M个属性和1个类别属性。每个样本集中的样本数与数据集中的样本数相同,但数据集中的同一个样本可在单个样本集中重复出现。属性可如表示一个学生的性别、年龄、学号、班级等。类别属性是指将某物分类后的属性,如学生分类为好学生或坏学生,好坏即为类别属性。每一个样本集建立单个随机森林分类器,即单个决策树。整体随机森林分类器由N个决策树组成。
步骤S120,将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数。
具体的,每个样本集作为单个决策树的根节点。然后求取每个样本集中的属性空间的所有(M个)属性的权重值。属性空间是指节点的容纳属性的容器。
在一个实施例中,求取每个根节点的属性空间中的M个属性的权重值的步骤具体为:求取每个节点的属性空间中的每个属性与类别属性的相关性,将每个属性与类别属性的相关性作为每个属性的权重值。具体的,采用卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性,以得到相应的权重值。相关性是指变量之间密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,称为变量间的相关关系或相关性。
具体的,对于给定的数据集D,类别属性Y有q个不同取值yj,j=1,2,...,q;属性A有p个不同取值ai,i=1,2,...,p。采用卡方检验公式计算属性A和类别属性Y之间的相关性的卡方统计量为:
corr cs ( A , Y ) = Σ i = 1 p Σ j = 1 q ( val ij - t ij ) 2 t ij - - - ( 1 )
式(1)中,valij是属性A取值ai,且类别属性Y取值yj时的数据集D中的所有样本个数;
t ij = val i . × val . j val - - - ( 2 )
式(2)中,vali.是属性A取值ai时的数据集D中的所有样本个数;val.j是类别属性Y取值yj时的数据集D中的所有样本个数;val是数据集D中的所有样本个数。
通过卡方统计量corrcs(A,Y)越大,则表明属性A和类别属性Y之间的相关性越大。
同样,对于给定的数据集D,类别属性Y有q个不同取值yj,j=1,2,...,q;属性A有p个不同取值ai,i=1,2,...,p。采用信息增益率公式计算属性A和类别属性Y之间的相关性的信息增益率为:
corr IGR ( A , Y ) = Gian ( A ) SplitInfo ( A ) - - - ( 3 )
式(3)中,Gain(A)=Info(D)-InfoA(D)    (4)
Info ( D ) = - Σ j = 1 q val . j val × log 2 ( val . j val ) - - - ( 5 )
Info A ( D ) = - Σ i = 1 p val i . val × Info ( D A = a i ) - - - ( 6 )
Info A ( D A = a i ) = - Σ j = 1 q val ij val i . × log 2 ( val ij val i . ) - - - ( 7 )
SplitInfo ( A ) = - Σ i = 1 p val i . val × log 2 ( val i . val ) - - - ( 8 )
得到的信息增益率corrIGR(A,Y)越大,表明属性A和类别属性Y之间的相关性越大。
步骤S130,根据权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,其中,m小于M。
具体的,m和M均为自然数,通常m=log2M+1。
在一个实施例中,步骤S130具体为:
步骤S131,将每个属性的权重值求平方根,将每个平方根与M个属性的权重值的平方根和的比值,作为每个属性被抽取的概率。
具体的,将属性权重值按递减排列,求取归一化的权重值,将归一化的权重值作为每个属性被抽中的概率。归一化的权重值的计算公式为:
w i = corr ( A i , Y ) Σ i = 1 M corr ( A i , Y ) - - - ( 9 )
式(9)中,corr(Ai,Y)为上述通过卡方检验公式或信息增益率公式计算的属性Ai的权重值。其中,权重值越大,属性被抽中的概率越大。
步骤S133,根据每个属性的被抽取的概率从M个属性中抽取m个属性,构成属性子空间。
具体的,从M个属性中抽取m个属性构成属性子空间。
步骤S140,采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据该最佳属性对根节点进行划分,产生子节点。
具体的,假设属性空间由A、B两个属性构成,采用划分函数选中A为最佳属性;根据属性A对根节点进行划分,若属性A有a1、a2和a3三个值,则将A=a1分到一个组中产生第一个子节点,A=a2分到一个组中产生第二个子节点,A=a3分到一个组中产生第三个子节点,这样得到3个子节点。
在一个实施例中,步骤S140具体为:采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性,将所述信息增益率最大的属性作为最佳属性。
计算公式为: Gain - ratio ( A ) = Gain ( A ) SpiltInfo ( A ) - - - ( 10 )
式(10)中,Gain(A)如(4)中计算得到,SplitInfo(A)如(8)中计算得到。
步骤S150,对每个样本集递归重复节点划分直至生成单个随机森林分类器。
具体的,对每个节点采用划分函数重复划分直至生成单个随机森林分类器。
步骤S160,根据N个单个随机森林分类器构建整体随机森林分类器。
具体的,对N个单个随机森林分类器进行组合构建整个随机森林分类器。
上述分类器构建方法应用于互联网信息中文本信息的分类,如图3所示,具体包括以下步骤:
步骤S210,获取文本信息。
具体的,从互联网信息中筛选得到文本信息。如从网页中获取文本信息。
步骤S220,对文本信息预处理得到训练文本数据集。
具体的,对文本信息进行预处理,可将文本信息与预先建立的关键词库进行对比,获取文本信息的关键词,将文本信息的关键词构成训练文本数据集。
步骤S230,从文本数据集中抽取N个文本样本集。
具体的,采用有放回的随机抽样方法抽取N个文本样本集。
步骤S240,将每个文本样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数。
具体的,文本信息的属性可为关键词。
步骤S250,根据权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,其中,m小于M。
步骤S260,采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据该最佳属性对根节点进行划分,产生子节点。
步骤S270,对每个文本样本集递归重复节点划分直至生成单个随机森林文本信息分类器。
步骤S280,根据N个单个随机森林文本信息分类器构建整体随机森林文本信息分类器。
如图4所示,在一个实施例中,一种分类器构建系统,包括样本抽取模块10、权值求取模块20、属性抽取模块30、划分模块40、递归模块50和构建模块60。其中:
样本抽取模块10用于从数据集中抽取N个样本集。具体的,数据集可为对互联网信息进行筛选后形成的数据集,例如通过网络爬虫从网站特定新闻版面、主流媒体、论坛、博客、社交网络、微博等信息源筛选得到文本信息,再将文本信息与预先建立的词库比较,将文本信息按关键词定义量化抽取成结构化数据,即得到数据集。数据集也可为视频数据、音频数据、图像数据等。
样本抽取模块10对数据集采用有放回的随机抽样方法(即装袋bagging方法)抽取N个样本集,每个样本集记录有M个属性和1个类别属性。每个样本集中的样本数与数据集中的样本数相同,但数据集中的同一个样本可在单个样本集中重复出现。属性可如表示一个学生的性别、年龄、学号、班级等。类别属性是指将某物分类后的属性,如学生分类为好学生或坏学生,好坏即为类别属性。每一个样本集建立单个随机森林分类器,即单个决策树。整体随机森林分类器由N个决策树组成。
权重求取模块20用于将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数。具体的,每个样本集作为单个决策树的根节点。然后求取每个样本集中的属性空间的所有(M个)属性的权重值。
在一个实施例中,权重求取模块20还用于求取每个节点的属性空间中的每个属性与类别属性的相关性,将每个属性与类别属性的相关性作为每个属性的权重值。具体的,采用卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性,以得到相应的权重值。相关性是指变量之间密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,称为变量间的相关关系或相关性。卡方检验公式如式(1)和(2),信息增益率公式如方法中描述式(3)~(8),在此不再赘述。
属性抽取模块30用于根据权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M。具体的,m和M均为自然数,通常m=log2M+1。
在一个实施例中,如图5所示,属性抽取模块30包括概率计算单元310和抽取单元320。其中:
概率计算单元310用于将每个属性的权重值求平方根,将每个平方根与M个属性的权重值的平方根和的比值,作为每个属性被抽取的概率。具体的,将属性权重值按递减排列,求取归一化的权重值,将归一化的权重值作为每个属性被抽中的概率。归一化的权重值的计算公式如式(9)。
抽取单元320用于从M个属性中根据所述每个属性的被抽取的概率抽取m个属性,构成属性子空间。
划分模块40用于采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据所述最佳属性对根节点进行划分,产生子节点。划分模块40采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性,将所述信息增益率最大的属性作为最佳属性。计算公式如(10)。
递归模块50用于对每个样本集递归重复节点划分直至生成单个随机森林分类器。具体的,对每个节点采用划分函数重复划分直至生成单个随机森林分类器。
构建模块60用于根据N个单个随机森林分类器构建整体随机森林分类器。具体的,构建模块60对N个单个随机森林分类器进行组合构建整个随机森林分类器。
上述分类器构建系统应用于互联网信息中文本信息分类,具体为:预先获取文本信息,并对文本信息预处理得到训练文本数据集;然后由样本抽取模块10从文本数据集中抽取N个文本样本集;权重求取模块20用于将每个文本样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数;属性抽取模块30用于根据权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M;划分模块40用于采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据所述最佳属性对根节点进行划分,产生子节点;递归模块50用于对每个文本样本集递归重复节点划分直至生成单个随机森林文本信息分类器;构建模块60用于根据N个单个随机森林文本信息分类器构建整体随机森林文本信息分类器。
上述分类器构建方法和系统,采取对求取属性的权重值,根据其权重值进行加权抽样,如此获取的最佳属性较为准确,构建的单个随机森林分类器的精度较高,从而提高了整体随机森林分类器的精度。
另外,通过求取属性与类别属性的相关性,将其相关性作为属性的权重值,权重值越大被抽取的概率越大,这样对类别属性影响力大的属性被抽中的概率提高,从而提高了整体随机森林分类器的精度。
上述分类器构建方法和系统与经典的breiman随机森林方法比较,得到的结果是,精度平均提高了19%,最高的情况提高了56%。
Figure BDA00001733340500101
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种分类器构建方法,包括以下步骤:
从数据集中抽取N个样本集;
将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数;
根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M;
采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据所述最佳属性对根节点进行划分,产生子节点;
对每个样本集递归重复节点划分直至生成单个随机森林分类器;
根据N个单个随机森林分类器构建整体随机森林分类器。
2.根据权利要求1所述的分类器构建方法,其特征在于,所述求取每个根节点的属性空间中的M个属性的权重值的步骤具体为:
求取每个节点的属性空间中的每个属性与类别属性的相关性,将所述每个属性与类别属性的相关性作为所述每个属性的权重值。
3.根据权利要求2所述的分类器构建方法,其特征在于,还包括步骤:通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。
4.根据权利要求2所述的分类器构建方法,其特征在于,根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间的步骤具体为:
将每个属性的权重值求平方根,将每个平方根与M个属性的权重值的平方根和的比值,作为每个属性被抽取的概率;
根据所述每个属性的被抽取的概率从M个属性中抽取m个属性,构成属性子空间。
5.根据权利要求1所述的分类器构建方法,其特征在于,所述采用划分函数从属性子空间的m个属性中选择最佳属性的步骤具体为:
采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性,将所述信息增益率最大的属性作为最佳属性。
6.一种分类器构建系统,其特征在于,包括:
样本抽取模块,用于从数据集中抽取N个样本集;
权重求取模块,用于将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数;
属性抽取模块,用于根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M;
划分模块,用于采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据所述最佳属性对根节点进行划分,产生子节点;
递归模块,用于对每个样本集递归重复节点划分直至生成单个随机森林分类器;
构建模块,用于根据N个单个随机森林分类器构建整体随机森林分类器。
7.根据权利要求6所述的分类器构建系统,其特征在于,所述权重求取模块还用于求取每个节点的属性空间中的每个属性与类别属性的相关性,将所述每个属性与类别属性的相关性作为所述每个属性的权重值。
8.根据权利要求7所述的分类器构建系统,其特征在于,所述权值求取模块还用于通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。
9.根据权利要求7所述的分类器构建系统,其特征在于,所述属性抽取模块包括:
概率计算单元,用于将每个属性的权重值求平方根,将每个平方根与M个属性的权重值的平方根和的比值,作为每个属性被抽取的概率;
抽取单元,用于从M个属性中根据所述每个属性的被抽取的概率抽取m个属性,构成属性子空间。
10.根据权利要求7所述的分类器构建系统,其特征在于,所述划分模块还用于采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性,将所述信息增益率最大的属性作为最佳属性。
CN2012101847139A 2012-06-06 2012-06-06 分类器构建方法和系统 Pending CN103473231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101847139A CN103473231A (zh) 2012-06-06 2012-06-06 分类器构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101847139A CN103473231A (zh) 2012-06-06 2012-06-06 分类器构建方法和系统

Publications (1)

Publication Number Publication Date
CN103473231A true CN103473231A (zh) 2013-12-25

Family

ID=49798087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101847139A Pending CN103473231A (zh) 2012-06-06 2012-06-06 分类器构建方法和系统

Country Status (1)

Country Link
CN (1) CN103473231A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015184982A1 (en) * 2014-06-03 2015-12-10 Tencent Technology (Shenzhen) Company Limited Classifier training method and apparatus, identity authentication method and system
CN105279691A (zh) * 2014-07-25 2016-01-27 中国银联股份有限公司 基于随机森林模型的金融交易检测方法和设备
CN105718493A (zh) * 2014-12-05 2016-06-29 阿里巴巴集团控股有限公司 基于决策树的搜索结果排序方法及其装置
CN106096661A (zh) * 2016-06-24 2016-11-09 中国科学院电子学研究所苏州研究院 基于相对属性随机森林的零样本图像分类方法
WO2017167097A1 (zh) * 2016-03-31 2017-10-05 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN109284382A (zh) * 2018-09-30 2019-01-29 武汉斗鱼网络科技有限公司 一种文本分类方法及计算装置
CN109558887A (zh) * 2017-09-27 2019-04-02 北京京东尚科信息技术有限公司 一种预测行为的方法和装置
CN109961075A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 用户性别预测方法、装置、介质及电子设备
CN110490682A (zh) * 2018-05-15 2019-11-22 北京京东尚科信息技术有限公司 分析商品属性的方法和装置
CN110958054A (zh) * 2019-12-05 2020-04-03 北京邮电大学 一种无线电发射机识别方法及装置
CN110970050A (zh) * 2019-12-20 2020-04-07 北京声智科技有限公司 语音降噪方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923650A (zh) * 2010-08-27 2010-12-22 北京大学 基于对比模式的随机森林分类方法和分类器
US20120039541A1 (en) * 2010-08-12 2012-02-16 Fuji Xerox Co., Ltd. Computer readable medium storing program, image identification information adding apparatus, and image identification information adding method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120039541A1 (en) * 2010-08-12 2012-02-16 Fuji Xerox Co., Ltd. Computer readable medium storing program, image identification information adding apparatus, and image identification information adding method
CN101923650A (zh) * 2010-08-27 2010-12-22 北京大学 基于对比模式的随机森林分类方法和分类器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BAOXUN XU等: "Classifying Very High-Dimensional Data with Random Forests Built from Small Subspaces", 《INTERNATIONAL JOURNAL OF DATA WAREHOUSING AND MINING》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260628A (zh) * 2014-06-03 2016-01-20 腾讯科技(深圳)有限公司 分类器训练方法和装置、身份验证方法和系统
US9824197B2 (en) 2014-06-03 2017-11-21 Tencent Technology (Shenzhen) Company Limited Classifier training method and apparatus, identity authentication method and system
CN105260628B (zh) * 2014-06-03 2019-01-11 腾讯科技(深圳)有限公司 分类器训练方法和装置、身份验证方法和系统
WO2015184982A1 (en) * 2014-06-03 2015-12-10 Tencent Technology (Shenzhen) Company Limited Classifier training method and apparatus, identity authentication method and system
CN105279691A (zh) * 2014-07-25 2016-01-27 中国银联股份有限公司 基于随机森林模型的金融交易检测方法和设备
CN105718493B (zh) * 2014-12-05 2019-07-23 阿里巴巴集团控股有限公司 基于决策树的搜索结果排序方法及其装置
CN105718493A (zh) * 2014-12-05 2016-06-29 阿里巴巴集团控股有限公司 基于决策树的搜索结果排序方法及其装置
WO2017167097A1 (zh) * 2016-03-31 2017-10-05 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
US11276013B2 (en) 2016-03-31 2022-03-15 Alibaba Group Holding Limited Method and apparatus for training model based on random forest
CN106096661A (zh) * 2016-06-24 2016-11-09 中国科学院电子学研究所苏州研究院 基于相对属性随机森林的零样本图像分类方法
CN106096661B (zh) * 2016-06-24 2019-03-01 中国科学院电子学研究所苏州研究院 基于相对属性随机森林的零样本图像分类方法
CN109558887A (zh) * 2017-09-27 2019-04-02 北京京东尚科信息技术有限公司 一种预测行为的方法和装置
CN109961075A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 用户性别预测方法、装置、介质及电子设备
CN110490682A (zh) * 2018-05-15 2019-11-22 北京京东尚科信息技术有限公司 分析商品属性的方法和装置
CN110490682B (zh) * 2018-05-15 2024-02-09 北京京东尚科信息技术有限公司 分析商品属性的方法和装置
CN109284382B (zh) * 2018-09-30 2021-05-28 武汉斗鱼网络科技有限公司 一种文本分类方法及计算装置
CN109284382A (zh) * 2018-09-30 2019-01-29 武汉斗鱼网络科技有限公司 一种文本分类方法及计算装置
CN110958054A (zh) * 2019-12-05 2020-04-03 北京邮电大学 一种无线电发射机识别方法及装置
CN110958054B (zh) * 2019-12-05 2021-04-09 北京邮电大学 一种无线电发射机识别方法及装置
CN110970050A (zh) * 2019-12-20 2020-04-07 北京声智科技有限公司 语音降噪方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN103473231A (zh) 分类器构建方法和系统
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
Prusa et al. The effect of dataset size on training tweet sentiment classifiers
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN109815336B (zh) 一种文本聚合方法及系统
CN106156372B (zh) 一种互联网网站的分类方法及装置
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
CN103473262B (zh) 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN106815369A (zh) 一种基于Xgboost分类算法的文本分类方法
CN104702465B (zh) 一种并行网络流量分类方法
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN104361037B (zh) 微博分类方法及装置
CN103955489A (zh) 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN103886108A (zh) 一种不均衡文本集的特征选择和权重计算方法
CN104462592A (zh) 基于不确定语义的社交网用户行为关系推演系统及方法
CN104866558A (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
CN103902591A (zh) 构建决策树分类器的方法及装置
CN103593431A (zh) 网络舆情分析方法和装置
CN111078876A (zh) 一种基于多模型集成的短文本分类方法和系统
JP2006293767A (ja) 文章分類装置、文章分類方法および分類辞書作成装置
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN111026868A (zh) 一种多维度舆情危机预测方法、终端设备及存储介质
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN103488637A (zh) 一种基于动态社区挖掘进行专家检索的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20131225